第一组多序列比对

Whale

小组成员 组长：王歌嫚琴组员：陈栏栏，朱楚瑜，黄晶 班级问题 1)简介多序列比对目的、意义及其常用软件。 一、多序列比对的概念多序列比对（多序列联配，Multiple sequence alignment， MSA）是指把多条（3 条或以上）有系统进化关系的蛋白质分子的氨基酸序列或核酸序列进行比对，尽可能地把相同的碱基或氨基酸残基排在同一列上。这样做的意义是，对齐的碱基或氨基酸残基在进化上是同源的，即来自共同祖先（common ancestor）。 二、多序列比对的目的及意义序列比对主要是为了寻找相似的序列，相似的序列往往起源于一个共同的祖先序列，它们很可能有相似的空间结构和生物学功能，因此对于一个已知序列但未知结构和功能的蛋白质，如果与它序列相似的某些蛋白质的机构和功能已知，则可以推测这个未知结构和功能的蛋白质的结构和功能。大体包括： (1)用于描述一组序列之间的相似性关系，以便了解一个分子家族的基本特征，寻找Motif，保守区等。 (2)用于描述一组同源序列之间的亲缘关系的远近，应用到分子进化分析中。（序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小） (3)其他应用，如构建profile，打分矩阵等。 (4)描述序列相似性。序列的比对结果主要是为了寻找相似的序列，序列的相似性可以是定性的描述，也可以是定量的数值。在进行序列比较时经常使用“同源”（homology）和“相似”（similarity）这两个概念，这是两个经常容易被混淆的不同概念。两条序列同源是指它们具有共同的祖先。在这个意义上，无所谓同源的程度，两条序列要么同源，要么不同源。而相似则是有程度的差别，如两条序列的相似程度达到30%或60%。一般来说，相似性很高的两条序列往往具有同源关系。但也有例外，即两条序列的相似性很高，但它们可能并不是同源序列，这两条序列的相似性可能是由随机因素所产生的，这在进化上称为“趋同”（convergence），这样一对序列可称为同功序列。直向同源（orthologous）序列是来自于不同的种属同源序列，而共生同源（paralogous）序列则是来自于同一种属的序列，它是由进化过程中的序列复制而产生的。 三、序列比对的原理序列比对是将同源序列位点上匹配位点（相同或相似残基）与不匹配位点（不相似的残基）按照一定的记分规则转化成序列间相似性或差异性数值进行比较，相似值最大时的比对结果具有最多的匹配位点，从数学角度讲，应该是最优的比对结果。比对结果反映了数学模型或算法在多大程度上反映序列之间的相似性关系以及它们的生物学特征。P值的解读： <ul><li>如果P值小于10-100，表明两条序列是精确匹配的；</li><li>如果10-100<P<10-50，表明两条序列近似匹配；</li><li>如果10-50<P<10-5，表明两条序列有较近的同源关系；</li><li>如果10-5<P<10-1，表明两条序列可能存在较远的同源关系；</li><li>如果P>10-1，那么这两条序列能匹配上可能是由于随机的关系；</li></ul> 四、序列比对的方法比较两个序列的方法有打点法和序列比对法。序列比对法可以量化两条序列之间的相似性，分为全局比对和局部比对。经典的全局比对算法是Needleman-Wunsch算法，今天所有的比对软件使用的算法都是从这个经典的算法衍生出来的。 五、序列比对软件介绍序列比对的软件非常多，目前比较主流的序列比对软件：Muscle, MAFFT, Clustal w(x), T-coffee，AMAS, Genedoc, DIALIGN, HMMT, Match-Box, MultAlin, MSA, Musca, PileUp, SAGA。在比对时需要考虑两个问题，一个比对的精度，另外一个是比对的速度。Speed: Muscle>MaFFT>Clustal w>T-coffeeAccurancy: MAFFT>Muscle>T-coffee>Clustal w 2)举例简述如何用Bioedit来进行多序列比对，及比对结果的编辑和图示？ 以IL6基因、TNF基因、CD4基因为例进行多序列比对。 Step1.将多个基因的fasta序列整理在一个文件中，通过bioedit打开文件。 Step2.点击Accessory Aplication，再点击ClustalW multiple alignment ，并按照下图选择项目。 Step3.点击Run ClustalW，即可得到多序列的比对结果。点击Graphic view，输入绘图内编辑。 Step4.也可以点击Alignment，可以得到序列相似性矩阵。 利用网站进行多序列比对：https://www.ebi.ac.uk/Tools/msa/clustalo/<a href="https://www.ebi.ac.uk/Tools/msa/clustalo/" target="_blank" style="font-size:18px; background-color:rgb(255, 255, 255);">Clustal Omega</a>1.选择比对的是蛋白还是基因，输入或插入文件。 2.点击Submit，等待1分钟。 3.得到多序列比对的结果及打分矩阵。 3)简介分子进化钟理论与系统发育树构建之间的关系。 分子钟理论认为从一个分歧数据可以推测其他。 上图：利用分子钟假设研究物种进化时间 系统发育树是对一组实际对象的世系关系的描述（如基因，物种等）。 上图：松科各属的系统发育树 上图：一个系统发育树（树只代表分支的拓扑结构） 分子进化钟理论是基于分子序列的演化速率的假设，即不同物种的分子序列演化速率是相等的。如果这个假设成立，就可以将分子序列的差异量化为时间，进而推断不同物种的进化时间和分歧关系。系统发育树构建就是利用分子序列差异量化的时间信息来构建物种间的进化关系树。 4)简介有根树和无根树的区别，及如何选择有根树外围群？ 系统发育树可以分为有根树和无根树两种。它们的区别在于是否有一个根节点来指示进化方向。 有根树：有根树有一个根节点，表示进化的起点，如以下的有根树示意图： 在这个示意图中，A是根节点，表示进化的起点，B、C是A的后代，D、E是B的后代，F是C的后代。 无根树：无根树没有一个根节点来指示进化方向，如以下的无根树示意图： 在这个示意图中，每个节点都可以作为进化的起点，没有一个根节点来指示进化方向。 无根树和有根树在构建方式和使用场景上都有所不同，根据不同的研究目的和数据类型，可以选择不同类型的系统发育树进行分析和解读。 选择有根树外围群： 1. 选择外围群时应该选择与研究对象有关系的近缘群。例如，如果研究对象是一种哺乳动物，那么选择与之亲缘关系较近的其他哺乳动物作为外围群，而不是选择鸟类或爬行动物等无关群。 2. 外围群应该尽可能包含所有的主要进化支系。例如，如果研究对象是一种鸟类，那么应该选择多个鸟类的代表物种作为外围群，以覆盖鸟类的主要进化支系，而不是只选择一两个鸟类作为外围群。 3. 外围群的数量应该适当，不宜过多或过少。过多的外围群会增加分析的复杂度，而过少的外围群则可能导致分析结果不准确。 4. 外围群的选择应该是基于系统发育树的假设和分析方法来进行的。例如，如果采用基于最大似然法的系统发育树构建方法，那么应该选择适合该方法的外围群，以获得更准确的分析结果。 5)简介距离法、最大简约法(Maximum Parsimony, MP)、最大似然法(Maximum Likelihood, ML)和贝叶斯法(Bayesian Inference, BI)等系统发育树构建原理及适用范围。 距离法：大多数情况以序列来说遗传距离就是两个OTU（个体、群体、物种或基因家族）之间序列的差异值。 最大简约法的树长指所有性状在一棵树上的进化改变总数。 计算得到的结果可能会有许多树长相等的简约树，此时需要计算它们的一致树。分为strict consensus和semistrict consensus等，strict表示100%，在所有简约树中都出现的分枝，才会出现在一致树中，否则为梳子。这个阈值可以调。 一般文章中所用的系统树的拓扑结构都为ML或BI树，所以要把MP的bootstrap值标到ML/BI法的底树上。 最大似然法（软件IQ-TREE） 似然值是当模型（树和进化参数）为真时能够得到实际观测数据的概率。似然值是观测数据（即序列）的条件概率，其条件为计算似然值时依据的模型，而不是模型为真时的概率。 ML法建树的过程是先选择一个适合数据集的进化模型，然后对指定拓扑结构的一棵树优化分枝长度，以使得该拓扑结构的似然值最大化。通过计算不同拓扑结构树的似然值，将具有最大似然值的树看成是指定模型下的能够产生观测数据的最佳估计。 ML法采用的搜索方法主要是启发式搜索，步骤如下： 1. 通过NJ树或逐步添加序列的方法构建初始树； 2. 以初始树为基础通过各种分枝交换方法（TBR、SPR等）计算似然值，将最大似然值的树保存，并作为下一轮重排的初始树； 3. 重复进行分枝交换，直到不能增加似然值为止。重排的最后获得的最大似然值树即为ML树。 建ML树的软件用RAxML的较多，但近来IQ-TREE的引用量一路上升。综合使用下来，个人感觉IQ-TREE的速度真快。 使用过程是下载了PhyloSuite的组件，从选模型到构树一站式操作还挺方便的。注意下载好后首先要配置用于不同分析的插件。 贝叶斯推论法（软件MrBayes） BI法与ML法不同的是，前者根据提供的数据和选择的替代模型寻找可能性最大的树，而ML法则是寻找合适的树以使得数据的可能性最大。 推断系统发育树的步骤为： 1. 选择一些树作为起始点； 2. 判定这些树的似然值； 3. 修改树的拓扑结构和分支长度； 4. 计算出新树的似然值； 5. 新树的似然值比旧树大，则接受新树。 如此就构成了一代，一次又一次的重复迭代，直到新树的似然值不再有明显变化，即树的似然值不再有显著区别，参数已收敛为止。如果没有收敛，适当的增加代树继续跑。 6)举例简述用MEGA构建系统发育树过程和结果评估。 什么是MEGA？ MEGA （Molecular Evolutionary Genetics Analysis）是一款集序列比对、序列分析与系统进化树构建于一体的开源软件。MEGA软件具有分析效率高、操作简单和功能一体化等优点。登陆MEGA官网（https://www.megasoftware.net/<a href="https://www.megasoftware.net/" target="_blank" style="background-color:rgb(255, 255, 255); font-size:18px;">MEGA官网</a>）即可免费下载使用，Window/Mac/Linux三个平台都有可用的版本，当前最新版本是MEGA X。 系统发育树构建的一般过程： 当我们获取了一个或多个基因片段，希望通过分子序列分析判定这些这些片段是来源于哪种属的？了解目标基因在整个进化体系中所处的地位，以及判断其与其他基因片段（或种）的亲缘关系； 01 首先，登陆BLAST网站（https://blast.ncbi.nlm.nih.gov/Blast.cgi<a href="https://blast.ncbi.nlm.nih.gov/Blast.cgi" target="_blank" style="background-color:rgb(255, 255, 255); font-size:18px;">BLAST网站</a>），界面如下： 然后点击“Nucleotide BLAST”按钮进行核苷酸序列比对，界面如下： 在“Enter accession number(s), gi(s), or FASTA sequence(s)”处输入上述“获取的序列.txt”文件中的第一段核苷酸序列SW-1；“Job Title”输入一个标识，用以区分，意义不大，输入“SW-1”;“Database”选择“rRNA/ITS databases”>“16S ribosomal RNA sequences (Bacteria and Archaea)”；勾选“Show results in a new window”。最后点击“BLAST”进行对比。对比结果如下图所示： 勾选需要下载的序列（构建一个系统发育树一般总共使用10~20条基因序列，一般选择相似度最高的（即最靠前）的序列进行建树），点击“Download”>“FASTA(complete sequence)”下载BLAST结果序列文件（在选择BLAST结果序列时，选择模式菌株序列会具有更强说服力与更高可信度）。 02 此时，我们已经拥有了建立系统发育树所需要的全部数据。 然后，我们将需要用来建立系统发育树的.txt文本文件后缀改为.fas或.fasta，这样格式的文件才能够被MEGA软件识别与读取。 双击“获取的序列.fas”打开该文件，MEGA界面如下： 点击“Insert sequences from MEGA/FASTA/Text...”按钮，选择并导入“SW-1相似序列.fas”，“ZL-2相似序列.fas”，“XQ-3相似序列.fas”，“外源序列.fas”文件，显示如下，此按钮可以添加导入我们需要的序列文件。 打开所有用于构建系统发育树的序列.fas文件，如下图所示： 选择“Data”>“Select Gentic Code Table”进入密码子选择界面。 选择“Standard”标准密码子，选择“OK”继续。 选择“Edit”>“Select All”全选所有数据。 选择“Alignment”>“Align by ClustalW”进行序列比对。 弹出参数设置界面，无需更改，选择“OK”继续。出现对比进度条框，等待完成... 可见，对比完成后，序列碱基明显被对齐。 03 接下来，我们需要先探索最佳的建树模型，用于后续使用。 选择“Analysis”>“Models”>“Find Best DNA/Protein Model”，进入选取文件界面。 选择“获取的序列.meg”并打开,提示数据类型选择“Nucleotide Sequences”核苷酸序列，点击“OK”继续。 在分析偏好界面，“Statistical Method”选择“Maximum Likelihood”，“Gaps/Missing Data Treatment”选择“Use all sites”，“Branch Swap Filter”选择“Very Strong”，点击“Compute”继续。 等待分析进度条完成... 可见“Model”列中“GTR+G+I”的“Parameters”系数（43）最大，DNA模型预测结果表示选择“GTR+G+I”最佳。 进入主界面，选择“Phylogeny”>“Construct/Test Maximum Likelihood Tree...”进行基于MEGA的最大似然法建树。 选择文件“获取的序列.meg”，进入分析偏好界面。依据之前预测最合适的模型为GTR+G+I，所以“Model/Method”选择“General Time Reversible（GTR）”，“Rates among Sites”选择“Gamma distributed with Invariant sites(G+I)”。此外，“Test of Phylogeny”选择“Bootstrap”，“No. of Bootstrap Replications”选择“100”（一般都是100的整数倍，数值越大，评估次数越多，消耗的时间越多）。点击“Compute”开始进行建树计算。 等待建树进度条完成... 计算完成，结果界面如下： 系统发育树已经初步构成，但是直观可见存在个别序列影响树的结构与美观。这里我们做的是删除NR103934.2与NR043421基因序列（即在对齐裁剪序列之后和生成.meg文件之前删除这两个基因序列，只需要选中需要删除的序列，右击鼠标选delete就可以，后续分析步骤相同），重新计算与构建系统进化树。 重建的系统进化树“Original Tree”结果如下图所示： 点击“Bootstrap consensus tree”，结果如下图所示： 小组提问 <ul><li>制作进化树有什么意义？</li></ul> 答：分子钟的发现对于进化研究具有十分重要的意义。它不仅能用于粗略估计不同类群生物间的进化时间，亦可用于构建进化树。实际上，分子钟发现不久，蛋白质序列分析即被广泛用于生物的长时进化研究。 　　根据蛋白质的序列或结构差异关系可构建分子进化树(evolutionary tree)或种系发生树(phylogenetic tree)。进化树给出分支层次或拓扑图形，它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映，树枝的长度反映当这些事件发生时就存在的蛋白质与现在的蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程，而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质的分子进化树分析，为从分子水平研究物种进化提供了新的手段，可以比较精确的确定某物种的进化地位。对于物种分类问题，蛋白质的分子进化树亦可作为一个重要的依据。

第一组 多序列比对

Whale

第一组多序列比对