第一组 生物信息学

Whale

一、小组成员介绍 <p class="ql-block"><span style="font-size:15px;">组长:王歌嫚琴;</span></p><p class="ql-block"><span style="font-size:15px;">组员:陈栏栏,朱楚瑜,黄晶。</span></p> 二、班级问题 <p class="ql-block"><b>1) 简介NCBI平台资源。</b></p> <p class="ql-block"><span style="font-size:15px;">答:NCBI (National Center for Biotechnology Information),美国国家生物技术信息中心。NCBI开发有Genbank等公共数据库,提供 Pubmed、BLAST、Entres、OMIM、Taxonomy、Structure等工具,可对国际分子数据库和生物医学文献进行检索和分析,并开发用于分析基因组数据和传播生物医学信息的软件工具。</span></p> <p class="ql-block"><b style="font-size:18px;">2) Genbank序列数据注释包括哪些内容?</b></p><p class="ql-block"><br></p> <p class="ql-block"><span style="font-size:15px;">答:在讲参考基因组之前,需要提到一个组织参考基因组联盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。</span></p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:15px;">人基因组官名叫 GRCh38 (Genome Reference Consortium Human Build 38),GRCh38 在UCSC基因组浏览器中还有个小名 hg38,这个小名对于大多数人来说是更亲切熟悉的。GRCh38 在 GenBank 中叫 GCA_000001405.15,在 RefSeq 中叫 GCF_000001405.26,虽然 GRC 组织建议在所有出版物和工具中使用该编号,但事实是前两种 GRCh38 和 hg38 对生信分析更常见。</span></p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:15px;">在不更改染色体坐标的情况下,向参考基因组添加或替换新序列,这种打补丁的方式,会在基因组版本后加 .p (patch)来命名。</span></p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:15px;">这就像在王者荣耀,英雄联盟中,为了维持游戏热度,会大幅修改游戏架构,流程,世界观,图片,叫大版本更新,而定期对某些英雄的面板属性修正,作为补丁。</span></p><p class="ql-block"><span style="font-size:15px;"></span></p><p class="ql-block"><span style="font-size:15px;">举个例子,GRCh38 的第九个补丁,正式版本叫做 Genome Reference Consortium Human Build 38 patch release 9,简称 GRCh38.p9。在 GenBank 编号为 GCA_000001405.24,RefSeq 编号为 GCF_000001405.35。在 Ensemble 编号为 GRCh38,NCBI 编号为 GRCh38。</span></p> <p class="ql-block"><b style="font-size:18px;">3) 什么RefSeq,它与Genbank序列有和区别?</b></p> <p class="ql-block"><span style="font-size:15px;">答:RefSeq(reference sequence),即参考序列,Genbank是一个序列的存储池,而RefSeq数据库则是一个参考序列的非冗余(non-redundant)集合。RefSeq是NCBI将Genbank的序列再做详细的整理的非冗余序列资料库,一般可信度较高,是NCBI数据库的参考序列。RefSeq分为几个板块,第一个为“mRNA and Protein”区,可以找到连续编码mRNA序列和蛋白序列;第二个板块是Reference assembly,它下面显示Genomic,点击后可以得到对应的编码DNA序列(包括内含子,不包括5’非编码区)。如果输出文件中有ref, 就代表找到的是RefSeq资料库的序列,例如:gi|4557284|ref|NM_000646.1|[4557284]</span></p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:15px;">(格式说明:gi :”GenBank Identifier的缩写”, 是序列的ID号,标识符。4557284 是该序列的gi号。ref :标示该序列是参考序列。NM_000646.1 是该序列的Accession号和版本号 )</span></p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:15px;">RefSeq的序列格式和Genbank几乎完全相同,但是因为是完全不同的独立资料库,为了与Genbank区别,RefSeq的Accession Number格式和Genbank不同,前缀是两个字母+“-”,例如:</span></p><p class="ql-block" style="text-align:center;"><span style="font-size:15px;">NT_123456 constructed genomic contigs</span></p><p class="ql-block" style="text-align:center;"><span style="font-size:15px;">NM_123456 mRNAs</span></p><p class="ql-block" style="text-align:center;"><span style="font-size:15px;">NP_123456 proteins</span></p><p class="ql-block" style="text-align:center;"><span style="font-size:15px;">NC_123456 chromosome </span></p><p class="ql-block" style="text-align:center;"><br></p><p class="ql-block"><span style="font-size:15px;">Genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。Genbank的数据可能重复或者不准。</span></p><p class="ql-block"><span style="font-size:15px;"> </span></p><p class="ql-block"><span style="font-size:15px;">RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。Refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。</span></p> <p class="ql-block"><b>4) 如何利用Entrez Gene进行序列查询(举例说明)?</b></p> <p class="ql-block"><span style="font-size:15px;">1、Entrez Gene数据库以NCBI的参考序列为数据来源,为人类以及其他物种的基因提供非冗余Gene ID以及该基因的官方命名,染色体定位等注释,在基因规范中起着较大作用。Entrez Gene以每个基因的信息作为一条记录,典型的一条记录包括该基因官方名(official symbol)、全称(official full name)、别名(other aliases)、染色体定位(chromosome location)、注释(annotation)以及GeneID等基本信息。</span></p><p class="ql-block"><br></p><p class="ql-block"><span style="font-size:15px;">2、以查询人的p53抑癌基因为例,介绍如何用Entrez Gene进行序列查询:</span></p><p class="ql-block"><span style="font-size:15px;">输入网址:http://www.ncbi.nlm.nih.gov/ </span><a href="http://www.ncbi.nlm.nih.gov/" target="_blank" style="font-size:15px; background-color:rgb(255, 255, 255);">网页链接</a></p><p class="ql-block"><span style="background-color:rgb(255, 255, 255); font-size:15px;"></span><span style="font-size:15px;">http://www.ncbi.nlm.nih.gov/Entrez/</span><a href="http://www.ncbi.nlm.nih.gov/Entrez/" target="_blank" style="font-size:15px; background-color:rgb(255, 255, 255);">网页链接</a></p> <p class="ql-block"><span style="font-size:15px;">输入关键词p53,选择想要查询的序列名称。</span></p> <p class="ql-block"><span style="font-size:15px;">得到人类肿瘤抑癌蛋白基因p53的Entrez Gene序列,可见TP53的官方名:TP53;全名:tumor protein p53; 别名:P53、BCC7、 LFS1、 BMFS5、 TRP53;染色体的定位:第17号染色体NC_000017.11 (7668421..7687490, complement)</span></p> <p class="ql-block"><b>5) 如何在NCBI提交新序列(举例说明,最后一步不能提交啊!!!)?</b></p> <p class="ql-block"><span style="font-size:15px;">答:1、进入Banklt主页;</span></p> <p class="ql-block"><span style="font-size:15px;">2、点击Start Banklt Submission;</span></p> <p class="ql-block"><span style="font-size:15px;">3、填写个人联系方式;</span></p> <p class="ql-block"><span style="font-size:15px;">4、自上至下,依次填写序列作者信息,文章未发表:填写文章草拟的标题,已接收或已发表:文章标题,作者;</span></p> <p class="ql-block"><span style="font-size:15px;">5、选择测序平台,上传序列是否已拼接,拼接软件名称与版本,Assembly Name:拼接样品名称,Coverage:覆盖度(测序深度,测序Raw data的大小/线粒体基因组大小);</span></p> <p class="ql-block"><span style="font-size:15px;">6、上传序列信息,选择审核通过后立即发布或者发布日期,序列类型选择基因组DNA,序列结构选择是线状或者成环,选择是否为完整的基因组序列,序列信息可以粘贴在该页面的文本框中,也可以在本地编辑好之后上传;</span></p> <p class="ql-block"><span style="font-size:15px;">7、如果同时上传2条及以上序列,需要选择上传的序列用于哪种类型的研究中;</span></p> <p class="ql-block"><span style="font-size:15px;">8、所提交序列是否为首次上传;</span></p> <p class="ql-block"><span style="font-size:15px;">9、选择细胞器类型,线粒体。提供样品来源信息,采集地等等,可点击Source modifier list查看官方说明。测序中如果设计PCR引物,可勾选并补充,引物的填写要求参考primers table;</span></p> <p class="ql-block"><span style="font-size:15px;">10、上传.tbl/ .txt格式的注释文件;</span></p> <p class="ql-block"><span style="font-size:15px;">11、填写邮箱,完成上传,将收到上传成功邮件,2-3个工作日内会得到答复。</span></p> <p class="ql-block"><b>6) 小组内自学时主要问题的提出及解答情况:如何利用NCBI设计引物?</b></p> <p class="ql-block"><a href="https://www.bilibili.com/video/BV17T4y1f7JN/?vd_source=bc74c8f1c34755b183c312aedb158772" target="_blank">如何用NCBI设计引物</a></p> 三、小组学习情况 <p class="ql-block"><span style="font-size:15px;">组员们经过认真讨论,精心准备后,完成了这次任务,希望大家都能有所收获!</span></p>