引言 <p class="ql-block" style="text-align:center;">基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。本次讲介绍有关这方面的内容,欢迎大家浏览(๑><๑)。</p> 小组成员 <p class="ql-block">组长:王歌嫚琴</p><p class="ql-block">组员:陈栏栏,朱楚瑜,黄晶</p> 班级问题 <p class="ql-block"><b style="font-size:20px;">1) 简介原核与真核生物基因组基因注释常用软件。</b></p> <p class="ql-block">1、原核生物基因组快速注释——Prokka</p> <p class="ql-block">prokka是一个适用于原核生物的基因组自动注释工具,由墨尔本大学生物信息学家 Torsten Seemann 开发。Prokka协调了一套现有的软件工具,可以对原核基因组和宏基因组进行快速高效的功能注释。</p> <p class="ql-block">2.1 输入文件</p><p class="ql-block">Prokka要求以FASTA格式的预组装基因组DNA序列为输入文件。本文中以最近发现的纤维素降解候选菌门——Goldbacteria门的Candidatus Goldbacteria bacterium(ID: 98965)的基因组进行注释。</p> <p class="ql-block">2.2 基因组注释</p><p class="ql-block">基本使用:</p><p class="ql-block">php prokka [options] <contigs.fasta></p> <p class="ql-block">2.3 输出文件</p><p class="ql-block">示例:prokka /Users/kimhan/Desktop/GCA_016937715.1_ASM1693771v1_genomic.fna --outdir /Users/kimhan/Desktop/annotation --prefix goldbacteria --kingdom Bacteria</p> <p class="ql-block">2.3 输出文件</p> <p class="ql-block">3. 软件结果</p><p class="ql-block">Prokka的设计既准确又快速, 为了评估准确性,文献中比较了Prokka,RAST和xBase2对大肠杆菌K-12基因组的注释,如下图所示:</p> <p class="ql-block">2、KEGG :http://kegg.jp/</p><p class="ql-block">原核选择BlastKOALA(里面选择是原核的选项即可,不需要纠结是到genus还是species,这两者只有能查询条数的区别</p> <p class="ql-block">KEGG数据库对相似性阈值要求很高,能在这个数据库注释到基因组很大程度上也拥有对应的功能基因,但因为阈值高所以不能找到新的蛋白。KEGG强大的点在于可以可视化代谢的通路,因此KEGG注释是个必选项。</p> <p class="ql-block">2)Eggnog: http://eggnog5.embl.de/基于Diamond算法</p> <p class="ql-block">EggNOG数据库每个邮箱能够同时上传五个基因组的数据,一天之内有结果</p><p class="ql-block">3)基于HMM模型的数据库(更快,更准,更强)</p><p class="ql-block">HMM全称Hidden markov model,中文:隐马尔可夫模型,前面的,如果有学习人工智能可以知道前面是比较硬的算法(暴力破解),而HMM模型是基于神经网络预测的(魔法),因此有更高的灵敏度和准确性,也比较符合生物学意义。、</p> <p class="ql-block">3.1 Kofam (更快):https://www.genome.jp/tools/kofamkoala/</p> <p class="ql-block">3.2 Pfam Hmmer :http://www.ebi.ac.uk/Tools/hmmer/</p> <p class="ql-block">3.3 MEME (motif): http://meme-suite.org/doc/meme</p><p class="ql-block">一个预测蛋白质结构域(蛋白质的真正行使功能的活性区域)的结构域数据库,和比对工具。</p> <p class="ql-block">评价,一般MEME 数据库在5~10分钟之内就能拿到数据了,但如果真的不太清楚知道结构域是什么,这个结果也就仅供参考。</p><p class="ql-block">3.4 antismash(次级代谢产物,抗生素之类的)</p> <p class="ql-block">Antismash的注释结果</p> <p class="ql-block">3.5 Signal IP(找信号肽):http://www.cbs.dtu.dk/services/Sig</p> <p class="ql-block">4、结果解析 (怎样的序列才是可信的)</p><p class="ql-block">选择可信的文献参数作为参考</p><p class="ql-block">Blast/diamond e-value : < 1e-5</p><p class="ql-block">Hmmer : < 1e-20</p><p class="ql-block">length :到NCBI蛋白质数据库或者Uniprot看同源序列的平均长度</p><p class="ql-block">Similarity</p><p class="ql-block">1.蛋白质序列 ( ≥ 30% 以上,密码子的简并性)</p><p class="ql-block">2.核苷酸序列 DNA,≥ 70%以上的相似度</p><p class="ql-block">物种特异性序列与PCR:一个生信与生物学的完美结合的妙用</p><p class="ql-block"><br></p><p class="ql-block">从网上下载NT/NR库(尽可能地收集已知功能的序列)</p><p class="ql-block">用自己的基因组´白序列与数据库相比对</p><p class="ql-block">寻找比对不上数据库的序列(说明是这个生物特有的)</p><p class="ql-block">给第三步的序列设计引物,作为确认此物种的特异性序列</p> <p class="ql-block">一.真核生物基因组基因注释常用软件。</p><p class="ql-block">1. 基因组组装完成后就不可避免遇到一个问题,需要对基因组序列进行注释。注释之前首先要构建基因模型,包括三种策略:</p><p class="ql-block">l 从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低。</p><p class="ql-block">l 同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型,可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点。</p><p class="ql-block">l 基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注释,能够较为准确确定剪切位点和外显子区域。</p><p class="ql-block">基因组注释主要包括:基因组组成成分分析(重复序列的识别、非编码基因预测、编码基因预测)和基因的功能注释,前者属于结构性注释,尤其是编码基因的预测十分重要。基因结构注释是功能注释的先决条件。完整的真核生物基因组注释流程需要如下步骤:</p> <p class="ql-block">真核生物的基因组存在大量的重复序列,植物基因组的重复序列甚至可以高达80%。尽管重复序列对维持染色体的空间结构、基因的表达调控、遗传重组等都具有重要作用,但是却会导致BLAST的结果出现大量假阳性,增加基因结构的预测的计算压力甚至影响注释正确性。重复序列是指在基因组中出现的相同的或对称的片段,大量实验证明,重复序列包含大量的遗传信息,是基因调控网络的重要组成部分,在影响生命的进化、遗传、变异的同时对基因表达、转录调控等起着不可或缺的作用。根据重复序列的结构特征和在基因组上位置可以为:</p> <p class="ql-block">不同类型的重复序列是一个物种演化研究的重要标记,通过对不同物种之间的重复序列类型的对比分析可以研究不同物种基因组演化的趋异速度等事件及其发生的时间估计。</p><p class="ql-block">①Interspersed repeats(transposon-derived repeats): 缺乏内含子的逆转录转座基因。</p><p class="ql-block">②Processed pseudogenes:具有终止密码子或移码突变,不编码功能蛋白。通常由逆转录转座引起,或者是在基因复制、基因丢失之后出现。</p><p class="ql-block">③Simple sequence repeats:微卫星或微型卫星,由复制滑移引起的。</p><p class="ql-block">④Segmental duplications(pseudogene, gene duplicates):是一些在染色体内或染色体间复制的约1000碱基至300kb的嵌入片段。</p><p class="ql-block">⑤Blocks of tandem repeat:包括端粒重复序列和着丝粒重复序列,可以跨越数百万个碱基对,通常具有物种特异性。</p><p class="ql-block">重复序列注释的主要软件:RepeatMasker(同源预测)、RepeatModel(从头预测)。分析的fasta的ID不能过长,否则会报错,如果序列ID过长可以使用bioawk进行转换。</p> <p class="ql-block">3. RepeatMasker简介</p><p class="ql-block">是带有一个屏蔽DNA序列中重复序列的程序,通过将基因组与已知重复序列的数据库进行同源搜素,将识别出的基因组中的重复序列都屏蔽为N或X。该方法过于依赖于数据库的大小,只能识别出数据库已有的已知特定类型的重复序列,不能用于所有的重复序列识别,尤其是新物种中未知的重复序列的识别。除了RepeatMasker之外,GREEDIER也是基于同源性进行注释的,该软件在repeats鉴定的敏感性上稍微比RepeatMasker高一点,但是repeats的鉴定率只有RepeatMasker的一半左右。</p><p class="ql-block">RepeatMasker是一款基于已知的转座子数据库寻找散在重复序列和低复杂度DNA序列软件,被广泛用于脊椎动物基因组分析。其官方地址为:http://www.repeatmasker.org/。这个软件的输出是对其中重复序列的碱基进行标注,默认的是改为N。目前56%的人类基因组重复序列的标注用的是这个工具。</p> <p class="ql-block">fasta格式输入序列或文件</p><p class="ql-block">2. 选择合适的搜索引擎:cross匹配速度慢,但更敏感;abblast速度很快但灵敏度</p> <p class="ql-block">有所下降;rmblast是NCBI Blast 的兼容版本;hmmer仅限于人类。</p><p class="ql-block">3. 选择灵敏度:灵敏度越高工作时间越长。</p><p class="ql-block">4. 选择物种和搜索结果格式。tar将以压缩文件形式返回结果,html将以网页形式返回结果。</p> <p class="ql-block">结果解读:</p><p class="ql-block">以第一行为例:</p><p class="ql-block">±475=得分,通常得分越高,复杂性越高;有时候复杂性并不与得分匹配。</p> <p class="ql-block">10.1=与一致性相比,匹配却与中替换百分比</p><p class="ql-block">1.2=查询序列中与缺口相对的碱基百分比(删除的bp)</p><p class="ql-block">3.8=重复一致性中与缺口相对的碱基百分比(插入的bp)</p><p class="ql-block">1845=查询序列中匹配的起始位置</p><p class="ql-block">1926=查询序列中匹配的起始位置</p><p class="ql-block">(9930)=查询序列中超过匹配结束位置的基数</p><p class="ql-block">C/+=匹配数据库中一致序列的补码</p><p class="ql-block">LIMCI=匹配的穿插重复的名称</p><p class="ql-block">LINE/L1=重复序列的类别</p><p class="ql-block">6239=匹配开始前重复一致序列(的补码)中的碱基数</p><p class="ql-block">6318数据库序列中匹配的起始位置</p><p class="ql-block">(15)=数据库序列中匹配的起始位置</p> <p class="ql-block">点击open all hsps得到上图结果。 "-" indicates an insertion/deletion, "i" a transition (G<->A, C<->T) and "v" a transversion (all other substitutions)。重复的DNA序列被屏蔽为</p> <p class="ql-block">N/X:</p><p class="ql-block">4.其他注释软件</p> <p class="ql-block">SNP searching http://www.bio-soft.net/dna/SNPHunter.htm</p><p class="ql-block">http://www.ncbi.nlm.nih.gov/sites/entrez?db=snp&TabCm d=Limits</p><p class="ql-block">CpG islands searching http://www.cpgislands.com/</p><p class="ql-block">Transcription factors searching EPD Eukaryotic Promoter db:http://www.epd.isb-sib.ch/</p><p class="ql-block">TRANSFAC-Transcription factors db(require log-in):</p><p class="ql-block">http://www.gene-regulation.com</p><p class="ql-block">TESS:Transcription Element Search System:</p><p class="ql-block">http://www.cbil.upenn.edu/cgi-bin/tess/tess?RQ=WELCOME</p><p class="ql-block">Gene finding FGENEH、GeneID、GeneParser、Genie、GenLang、GENESCAN、HEXON、VELL、GRAIL、ORNL</p> <p class="ql-block">不同软件的准确性</p> <p class="ql-block">二.如何寻找多态性的简单重复序列?</p><p class="ql-block">尽管RepeatMasker在屏蔽简单重复以避免数据库搜索中的虚假匹配方面做得很好,但它不能查找和指示所有可能多态性的简单重复序列,只扫描二至五聚体和一些六聚体重复序列,忽略短于20bp的简单重复序列。可以利用简单重复序列识别工具SSRIT进行序列的注释。http://archive.gramene.org/db/markers/ssrtool</p><p class="ql-block">第一步,选择motif的最小长度和最小重复次数</p> <p class="ql-block">参数a用于选择motif的最小长度,可选范围为2到10bp; 参数b用于选择最小重复次数,建议最小重复次数为5以上。</p><p class="ql-block">第二步,输入fasta格式的序列\n在文本框中,输入fasta格式的序列,然后点击右下角的FIND SSRs提交即可。</p> <p class="ql-block">输出结果如下</p> <p class="ql-block">第一列为SSR区域的ID,由序列标识符和数字编号构成,第二列为Motif的碱基序列,第三列为重复次数,第四列和第五列对应SSR区域的起始和终止位置,第六列为输入序列的总长度</p> <p class="ql-block"><b style="font-size:20px;">2) 简介真核生物基因组非编码蛋白小RNA数据库和常用搜索软件。</b></p> <p class="ql-block">miRBase数据库是目前研究miRNA使用比较多的数据库,数据库网址:http://www.mirbase.org/</p> <p class="ql-block">miRBase数据库是一个可以搜索已发表的miRNA序列和注释数据库,其中的每一个条目代表miRNA转录物的发卡结构部分(数据库称为mir),以及成熟的miRNA序列的位置和序列信息。发卡序列和成熟序列都可用于搜索和浏览,条目也可以通过名字、关键词、引用和注释进行检索,所有序列和注释可供下载。21版的数据库中收录了223个物种的miRNA,根据phylum水平分成以下几类:1)Metazoa:后生动物,最常见的人,小鼠,大鼠,鸡,狗,牛,羊等等。2)Viridiplantae:绿色植物界最常见的拟南芥,水稻,玉米,小麦,大麦等等。3)Chromalveolata:囊泡藻界。4)Mycetozoa:黏菌。5)Viruses:病毒。</p><p class="ql-block">miRNA靶基因预测数据库归纳:</p><p class="ql-block">① TargetScan</p><p class="ql-block">TargetScan数据库是大家比较常用的预测miRNA靶基因数据库,主要通过搜索和每条miRNA种子区域匹配的保守的8mer和7mer位点来预测靶基因。该数据库提供人、小鼠、大鼠、奶牛、狗、猩猩、恒河猴、负鼠、鸡和青蛙等动物信息。链接:http://www.targetscan.org/</p><p class="ql-block">②PITA</p><p class="ql-block">该数据库基于靶位点的可接性(target-site accessibility)和自由能预测miRNA 的靶标,是著名的生物信息学家Segal实验室开发的。主要包含human、mouse、fly和worm的信息,使用者可以通过miRNA预测靶基因,也可以通过mRNA预测miRNA信息,无论是miRNA还是mRNA均可通过提供name或ID进行分析。</p><p class="ql-block">链接:http://genie.weizmann.ac.il/pubs/mir07/mir07_dyn_data.html</p><p class="ql-block">③miRBase</p><p class="ql-block">miRBase数据库是一个提供包括已发表的miRNA序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。该数据库于2014年6月更新为最新版本V21.0,包含223个物种的35828个成熟的miRNA序列。该数据库提供便捷的网上查询服务,允许用户使用关键词或序列在线搜索已知的miRNA和靶标信息(仅包含已有的靶标信息,所以会出现部分miRNA靶标信息无的现象)。该数据库用于miRNA信息查询较多,靶关系预测较少。</p><p class="ql-block">链接:http://www.mirbase.org/</p><p class="ql-block">④microRA.org</p><p class="ql-block">该数据库提供了关于人类、小鼠、大鼠、果蝇和斑马鱼基因组的microRNA靶目标的预测信息以及miRNA在不同组织的表达谱,支持通过miRNA预测靶基因,也支持通过mRNA分析相关的miRNA。最新更新时间为2010年,好久不更新啦~</p><p class="ql-block">链接:http://www.microrna.org/</p><p class="ql-block">⑤miRTarBase</p><p class="ql-block">该数据库主要收集的是被实验验证的miRNA靶标,同时提供支持搜索结果的文献或方法,最新更新于2015年9月。该数据库支持浏览、搜索和数据下载。</p><p class="ql-block">链接:http://mirtarbase.mbc.nctu.edu.tw/</p><p class="ql-block">⑥starBase V2.0</p><p class="ql-block">该数据库采集了6000多份样本,14种癌症来自于37个独立研究的108份CLIP-seq数据,同时辅助降解组实验数据搜寻miRNA的靶标,提供了各式各样的可视化界面去探讨miRNA靶标。除了miRNA和靶标mRNA之间关系,该数据库还进行lncRNA、circRNA、protein与mRNA之间的相互作用分析,并分析了ceRNA机制。该数据库主要包含人、小鼠、线虫3个物种信息。</p><p class="ql-block">链接:http://starbase.sysu.edu.cn/</p> <p class="ql-block"><b style="font-size:20px;">3) 简介功能基因组学研究内容及组学研究最新进展(如宏基因组学,空间组学等)。</b></p> <p class="ql-block">功能基因组学</p><p class="ql-block">什么是功能基因组学</p><p class="ql-block">基因组是组成生物体的蛋白质集合。功能基因组学是对DNA及由DNA编码的核酸蛋白质的功能(包含基因和非基因成分)的全基因组研究,我们可以通过考虑近年来它的一些特征来探讨功能基因组学的意义。</p><p class="ql-block">1. 功能基因组可以应用到生物体中DNA、RNA和蛋白质的完整采集,对在不同发育时期或不同身体区域表达的RNA转录的评估构成了功能基因组学的一个示例。</p><p class="ql-block">2. 功能基因组学意味着要使用高通量筛选,这一点与传统生物学方法不同,传统生物学方法通常深入地标定出单个基因或蛋白质。这些传统方法是高通量方法的补充,例如,在某些典型生物体中执行酵母双杂交筛选,识别出成千上万个蛋白质伙伴,随后对这些选定的结合伙伴进行进一步验证。</p><p class="ql-block">3. 功能基因组学通常涉及基因功能的扰动,以研究对基因组内其他基因功能的影响。例如在酿酒酵母中,每个基因都在单独敲除并赋予“条形码”。</p><p class="ql-block">4. 现代生物学最具挑战性及基础性的问题之一是理解基因型和表型之间的关系,将这二者联系起来是功能基因组学的基本内容。</p> <p class="ql-block">变异不是可传递的,因此每一个胚胎获取的永久变化,都一定呈现出主要成分的改变。“如此一来,后天性状就不能遗传下去。</p><p class="ql-block">生物学的一项重大挑战是理解基因型和表型之间的关系。我们可以从任何一边收集信息。就基因型而论,我们现在已经测序了成千上万个基因组(包含病毒和细胞器基因组),并定义了许多的编码基因和非编码基因。DNA的信息被储存在GenBank、EMBL和DDBJ中,也可以更深入地描述编码RNA和非编码RNA,蛋白现在有成千上万的从智力迟钝到学习障碍被诊断出来,从表型开始,我们如何发现具有遗传基础的障碍的相应基因型。像RETT综合征这种已知表型和基因型的病例中,我们如何将它们联系起来?通过理解细胞表型,我们或许能够合理地设计治疗策略,以纠正突变基因产品的异常。</p><p class="ql-block">功能基因组领域涉及实验和计算策略,从而在细胞、组织或生物体水平上阐明与表型相关的DNA和染色体的功能。</p><p class="ql-block">基因组(Genome)是指一个细胞或者生物体所携带的一套完整的单倍体DNA(部分病毒是RNA)序列。基因组学(Genomics)则是指对所有基因进行基因组作图、核苷酸序列分析、基因定位和基因功能分析的一门学科。</p><p class="ql-block"> 功能基因组学(Functuional genomics)又被称为后基因组学(Post-genomics),它利用基因组所提供的信息,发展和应用新的实验手段,在基因组或系统水平上全面分析基因的功能,生物学研究因此从对单一基因或蛋白质的研究转向对多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列被测定之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育生物学功能,如参与形态建成等。采用的手段包括基因表达的系统分析(serial analysis of gene expression, SAGE)、cDNA微阵列(cDNA microarray)、DNA 芯片(DNA chip)等。</p><p class="ql-block">宏基因组</p><p class="ql-block">宏基因组(Metagenomics),也称元基因组,利用新一代高通量测序技术( NGS)以特定环境下微生物群体基因组为研究对象,在分析微生物多样性、种群结构、进化关系的基础上,可进一步探究微生物群体功能活性、相互协作关系及与环境之间的关系,发掘潜在的生物学意义。与传统微生物研究方法相比,宏基因组测序技术规避了绝大部分微生物不能培养、痕量菌无法检测的缺点,因此近年来在环境微生物学研究中得到了广泛应用。</p><p class="ql-block">空间组学</p><p class="ql-block">2020年5月,来自美国的研究人员在《Matrix Biology》发表综述论文,概述了目前可用的空间转录组学和空间蛋白质组学方法,并进一步描述了应用这些方法来提高对细胞外基质(ECM)和成纤维细胞生物学的理解的最新研究。</p><p class="ql-block">最近在技术和工艺上的进步使得组织切片中RNA转录物的原位可视化成为可能。空间转录技术将多重成像扩展到100~1000s转录本,并可以通过测量预先确定的目标或收集全局表达数据来区分。</p> <p class="ql-block"><b style="font-size:20px;">4) KEGG数据库简介并举例说明某一基因相关通路的搜索和分析方法。</b></p> <p class="ql-block">具体请见第一题答案,已经有详细解答了哦٩( 'ω' )و 。</p> <p class="ql-block"><b style="font-size:20px;">5) 简介比较基因组学主要内容,意义及举例介绍VISTA软件应用</b></p> <p class="ql-block">随着基因组测序爆炸性增长,比较基因组学已逐渐成为每个物种尤其是首次被破译基因组的物种的必备研究内容之一。那么什么是比较基因组学呢?比较基因组学是通过对系统发育中的代表性物种之间的基因和基因家族的比较分析、构建系统发育图谱, 来揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制。比较基因组学研究有助于进一步阐明物种进化的分子基础, 探索基因起源机制, 从基因进化的角度研究基因序列与功能的关系。物种选择这么多的物种中该选择哪些来进行研究呢?又应该怎么挑选呢?“好的”比较基因组研究一般需要遵循以下几点:</p><p class="ql-block">(1)顾名思义,最重要的是这些物种要有参考基因组(即需要有蛋白质序列文件以及基因注释文件);基因组常用的数据下载网站有以下三种:NCBI(https://www.ncbi.nlm.nih.gov/);ENSEMBLE(http://asia.ensembl.org/index.html);Phyzome(https://phytozome.jgi.doe.gov/pz/portal.html)。(2)为了研究的准确性,尽量选择基因组组装连续性好的物种。若要用作共线性分析,则该物种的基因组需要为染色体水平。(3)与研究目的物种的亲缘关系不宜太远、数目不宜过多(通常在6-10个左右)。物种越多,物种间亲缘关系越远,将使得可获取的单拷贝直系同源基因数目越少,影响进化树的准确性。(4)可从分类系统选择,将更好的从亲缘关系水平寻找近缘物种。</p> <p class="ql-block">分析内容</p><p class="ql-block">(1)基因家族聚类基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。对物种的蛋白序列进行家族分类,对获得基因家族进行注释;对本物种的特有基因家族进行GO和KEGG富集分析。物种共有基因家族中的单拷贝同源基因数目,用于系统发育树的构建等分析。Veen图中非重叠区与重叠区的数量分别表示几个物种间特有基因家族和共有基因家族的数量</p> <p class="ql-block">系统进化分析通过与其它种基因组进行比较,挖掘目的物种与不同种间的系统进化关系。利用单拷贝蛋白序列建进化树,通过外群的加入,使无根树转为有根树。</p> <p class="ql-block">(3)分化时间分析通过与其它种基因组进行比较,挖掘不同种间的系统进化关系。根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。借助于化石时间矫正,可以得到有分化时间的物种树,从而获得物种之间的亲缘关系和分歧时间,有利于阐明物种的进化历史。</p> <p class="ql-block">(4)基因家族扩张收缩在比较基因组学中往往要研究具有某一类功能或者控制某性状的基因家族在所研究的物种上是变多了还是变少。这就需要对基因家族进行收缩与扩张分析。通过目标物种和近源物种之间的进化关系,模拟推算共同祖先的状态,然后两者都和祖先比较,进而确定收缩和扩张的基因家族使用带有分歧时间的进化树和基因家族聚类之后的结果,通过出生死亡率模型估计每个分枝的祖先的基因家族成员个数,从而预测出该物种基因家族相对于祖先的收缩和扩张情况。</p> <p class="ql-block">(5)选择压力分析选择压力是指外界施加给某物种生物进化过程中的压力,使得物种适应自然环境。在遗传学中,Ka/Ks或者dN/dS表示的是异意替换(Ka)和同意替换(Ks)之间的比例。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。如果Ka/Ks>1,则认为有正选择效应。如果Ka /Ks=1,则认为存在中性选择。如果Ka/Ks<1,则认为有纯化选择作用。如2019年百迈客合作发表于《Molecular Plant》文章杂草稻基因家族聚类图例所示:ka/ks值在1.4到1.5之间,杂草稻(WR04-6)比野生稻(w1943)含有更多的基因;明杂草稻基因组中的基因可能积累了比栽培稻更多的功能突变,这意味着杂草稻的半驯化导致了杂草的进化</p> <p class="ql-block">(6)基因组共线性分析线性暗示两个物种来源与共同的祖先序列,有着相似的功能。通过对物种内或者物种间共线性相关联,来确定物种内部或者物种间的结构变异,揭示物种染色体进化,研究物种内部多倍化等事件。主要应用:结构变异的挖掘、基因组组装准确性验证(与已发表比较验证)、观察全基因组复制事件、功能基因组学研究(有相同生物学功能)。如2018年百迈客合作发表于《Nature Genetics》陆地棉与海岛棉基因组文章图例所示:海岛棉染色体D05和陆地棉D12中均存在大的染色体臂间倒位,暗示这些变异出现在多倍化之后;两个四倍体相对于G. raimondii共有一些结构变异,例如染色体D09中两个四倍体发生了大的反转。</p> <p class="ql-block">VISTA http://genome.lbl.gov/vista/in</p> <p class="ql-block">以叶绿体为例</p><p class="ql-block"><br></p><p class="ql-block">输入要比对的序列数量,输入email地址,上传要比对的序列并上传,需要是fasta格式。</p> <p class="ql-block">这里有三种模式:AVID,LAGAN,Shuffle-LAGAN。</p><p class="ql-block">AVID:全局的成对的对比,如果选择这种模式,其中一种的序列必须已经完成,其他的不必完成或仅有草稿。这是三种模式中唯一一种可以用于草图的。</p><p class="ql-block">LAGAN:全局的成对的或多序列比对,要求全部完成。这种模式是三种中唯一可产生多序列比对的。</p><p class="ql-block">Shuffle-LAGAN:全局比对,这可以发现基因重排和倒位这是三种模式中唯一可以发现重排和倒位的。选择Shuffle-LAGAN 模式。</p> <p class="ql-block">然后用txt编辑序列的注释文件,格式如下:其中>表示正向转录,小于表示反向转录,gene表示基因,exon表示外显子,utr可以表示内含子,最后图例换一下就可以了。</p> <p class="ql-block">打开邮件的链接,进入结果页面</p> <p class="ql-block">先打开pdf图片,可见以LF为参考基因组,横坐标为序列的位置,纵坐标为相似度,最低为50%,高于70%才会有颜色显现,上面的基因为LF基因的位置,灰色箭头为基因,方向表示正向或反向转录,蓝色的为外显子,青色的为内含子,红色的为基因间隔区。</p> <p class="ql-block">最终结果</p> 小组问题 <ul><li>什么是基因组注释,基因组注释有哪些意义?</li></ul> <p class="ql-block">基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。</p> <p class="ql-block">基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分必要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于PCPLinux 系统并以免费数据库管理系统、免费软件和公共数据库资源为主的基因组信息注释系统。</p>