<p class="ql-block"><span style="font-size: 20px;">问题六:举例简述用MEGA构建系统发育树过程和结果评估</span></p> 什么是MEGA? MEGA(Molecular Evolutionary Genetics Analysis)是一款集序列比对、序列分析与系统进化树构建于一体的开源软件。MEGA软件具有分析效率高、操作简单和功能一体化等优点。登陆MEGA官网(https://www.megasoftware.net/)即可免费下载使用,Window/Mac/Linux三个平台都有可用的版本,当前最新版本是MEGA X。 系统发育树也称系统进化树(phylogenetic tree), 它是用类似树状分支的图来表示各种生物之间的亲缘关系, 通过对基因序列或蛋白质的对比分析来表征物种之间进化地位远近的一种方式。系统发育树主要是依靠它的拓扑结构和分支长度来展示所推演的进化过程。 根据拓扑结构的不同系统发育树可以分为有根树和无根树。有根树有一个根节点,代表所有其它节点的共同祖先,从根节点只有唯一路径经进化到达其他任何节点;无根树只表明了节点之间的关系,没有进化方向,但是通过引入外群(outgroup)或外部参考物种可以在无根树中指派根节点。 系统发育树构建的一般过程: BLAST全称Basic Local Alignment Search Tool,是查询序列在蛋白质数据库或者基因数据库中进行局部对比搜索的工具,分析的结果是以统计评分的方式呈现。其中,最常用的3个评分指标分别是E value,Total Score,Per.Ident。 在BLAST结果页概述栏中,E value是默认按照由低到高的顺序排列。E value代表的是被比对的序列不相关的可能性,因此E value越小,代表序列相关性越大。若是E value无限趋近于0,则表示我们要检测的序列是完全匹配的。 在概述栏中,Total Score分值越高,说明被BLAST的序列特异性越好。Total Score也是按照分值从高到低排列的。 在概述栏中,Per.Ident代表了所在行的序列与被BLAST的序列的相似度。Per.Ident越大,表示该序列与被测序列相似度高,一般Per.Ident>97%就可以认为该序列与被测序列属于同属。 下文简要分享以MEGA7软件为工具,构建系统进化树的操作流程: 当我们想要建立一个系统发育树时,大概率是两个原因: 1) 你获取了一个或多个基因片段,希望通过分子序列分析判定这些这些片段是来源于哪种属的?了解目标基因在整个进化体系中所处的地位,以及判断其与其他基因片段(或种)的亲缘关系。 2) 当你获取大量同源基因序列,你想要了解这些同源基因序列之间的进化关系与亲缘关系(譬如,新冠疫情全球爆发时,在世界各地采集的新冠病毒基因序列,往往呈现出来源于同一个国家或地区的亲缘关系更近)。 本文介绍第1种情况,假设以下是我获取的3段16SrRNA基因序列,分别命名为SW-1,ZL-2,XQ-3,以.txt文本文件形式保存: 首先,登陆BLAST网站(https://blast.ncbi.nlm.nih.gov/Blast.cgi),然后点“Nucleotide BLAST”按钮进行核苷酸序列比对。在“Enter accession number(s), gi(s), or FASTA sequence(s)”处输入上述“获取的序列.txt”文件中的第一段核苷酸序列SW-1;“Job Title”输入一个标识,用以区分,意义不大,输入“SW-1”;“Database”选择“rRNA/ITS databases”>“16S ribosomal RNA sequences (Bacteria and Archaea)”;勾选“Show results in a new window”。最后点击“BLAST”进行对比。 勾选需要下载的序列(构建一个系统发育树一般总共使用10~20条基因序列,一般选择相似度最高的(即最靠前)的序列进行建树),点击“Download”>“FASTA(complete sequence)”下载BLAST结果序列文件(在选择BLAST结果序列时,选择模式菌株序列会具有更强说服力与更高可信度)。 结果文件(.txt)命名为“SW-1相似序列”。 按上述方法,依次将“获取的序列”文件中的“ZL-2”与“XQ-3”序列进行BLAST,下载的.txt文件分别命名为“ZL-2相似序列”,“XQ-3相似序列”。其中,SW-1,ZL-2,XQ-3共选取相似序列14条。 我们还将获取一个外源菌序列(本示例选择的是同科不同属的外源菌)。 此时,我们已经拥有了建立系统发育树所需要的全部数据。然后,我们将需要用来建立系统发育树的.txt文本文件后缀改为.fas或.fasta,这样格式的文件才能够被MEGA软件识别与读取。双击“获取的序列.fas”打开该文件,MEGA界面如下: 点击“Insert sequences from MEGA/FASTA/Text...”按钮,选择并导入“SW-1相似序列.fas”,“ZL-2相似序列.fas”,“XQ-3相似序列.fas”,“外源序列.fas”文件,显示如下,此按钮可以添加导入我们需要的序列文件。 打开所有用于构建系统发育树的序列.fas文件,如下图所示: 选择“Data”>“Select Gentic Code Table”进入密码子选择界面。选择“Standard”标准密码子,选择“OK”继续。 选择“Edit”>“Select All”全选所有数据。 选择“Alignment”>“Align by ClustalW”进行序列比对。弹出参数设置界面,无需更改,选择“OK”继续。 出现对比进度条框,对比完成后,序列碱基明显被对齐。 将对齐后的序列前后裁齐,即选择前后端处不齐平的序列所在列,敲击键盘“delete”键删除。 裁剪齐平后,选择“Data”>“Export Alignment”>“MEGA Format”,保存裁剪齐了的对齐了的序列到“获取的序列.meg” 提示“Input title of the data”,输入“获取的序列”,点击“OK”继续。 确认是否是蛋白编辑序列,这里选择“No”继续。 获得的“获取的序列.meg” 接下来,我们需要先探索最佳的建树模型,用于后续使用。 打开MEGA7主界面,选择“Analysis”>“Models”>“Find Best DNA/Protein Model”,进入选取文件界面。 选择“获取的序列.meg”并打开,提示数据类型选择“Nucleotide Sequences”核苷酸序列,点击“OK”继续。 在分析偏好界面,“Statistical Method”选择“Maximum Likelihood”,“Gaps/Missing Data Treatment”选择“Use all sites”,“Branch Swap Filter”选择“Very Strong”,点击“Compute”继续。 可见“Model”列中“GTR+G+I”的“Parameters”系数(43)最大,DNA模型预测结果表示选择“GTR+G+I”最佳。 进入主界面,选择“Phylogeny”>“Construct/Test Maximum Likelihood Tree...”进行基于MEGA的最大似然法建树。 选择文件“获取的序列.meg”,进入分析偏好界面。依据之前预测最合适的模型为GTR+G+I,所以“Model/Method”选择“General Time Reversible(GTR)”,“Rates among Sites”选择“Gamma distributed with Invariant sites(G+I)”。此外,“Test of Phylogeny”选择“Bootstrap”,“No. of Bootstrap Replications”选择“100”(一般都是100的整数倍,数值越大,评估次数越多,消耗的时间越多)。点击“Compute”开始进行建树计算。 等待建树进度条完成...计算完成,结果界面如下: 系统发育树已经初步构成,但是直观可见存在个别序列影响树的结构与美观。这里我们做的是删除NR103934.2与NR043421基因序列(即在对齐裁剪序列之后和生成.meg文件之前删除这两个基因序列,只需要选中需要删除的序列,右击鼠标选delete就可以,后续分析步骤相同),重新计算与构建系统进化树。 重建的系统进化树“Original Tree”结果如下图所示: 点击“Bootstrap consensus tree”,结果如下图所示: 由以上系统发育树可以判定,SW-1,ZL-2与XQ-3三个基因序列来源于Pseudomonas菌属。此外也能基本判定SW-1,ZL-2基因序列来源于Pseudomonas stutzeri菌种,XQ-3基因序列来源于Pseudomonas mendoccina菌种。到这里我们的建树工作基本已经完成了,从中我们获取了未知序列的基本种属信息与系统发育关系。 <p class="ql-block"><span style="font-size: 22px;">小组提问</span></p><p class="ql-block">制作进化树有什么意义?</p><p class="ql-block">答:分子钟的发现对于进化研究具有十分重要的意义。它不仅能用于粗略估计不同类群生物间的进化时间,亦可用于构建进化树。实际上,分子钟发现不久,蛋白质序列分析即被广泛用于生物的长时进化研究。</p><p class="ql-block"> 根据蛋白质的序列或结构差异关系可构建分子进化树(evolutionary tree)或种系发生树(phylogenetic tree)。进化树给出分支层次或拓扑图形,它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映,树枝的长度反映当这些事件发生时就存在的蛋白质与现在的蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质的分子进化树分析,为从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的分子进化树亦可作为一个重要的依据。</p>