hello年夜家好,我是健康百科网网小航来为年夜家解答以上题目,ncbi,sci官网,美国国度生物手艺信息中间良多人还不知道,此刻让我们一路来看看吧!
NCBI,The National(美国国度)Center for Biotechnology(生物手艺) Information)旨在经由过程供给biomedical(生物医学)和genomic(基因组)信息供拜候来推动科学和健康事业。这是网站首页正中的先容,短短的一句话表白网站的资本包括两年夜部门,biomedical和genomic。
1. 中间的归纳综合性先容性部门
最早能看到的网站中的归纳综合性先容就是关于NCBI页面,点进去后可以看到。
1.1我们的任务
一般先容
理解年夜天然静默而优雅的说话,生物细胞的说话,是现代份子(molecular)生物学的寻求。从代表DNA的化学亚基(subunits)的4种字母,显现出了生命的进程的语法,复杂至人。这些『字母』的解开和用来构成新『单字和短语』恰是份子生物学范畴的焦点核心。份子数据的惊人体量和它们神秘而奥妙的模式(cryptic and subtle patterns),使得对计较机数据库(computerized databases)和计较机阐发东西的需求成为必定。我们面对的挑战在于发现新的处置数据的量和复杂度的新体例,在于供给给研究者们阐发和计较东西更好的拜候性,以此来鞭策我们对基因的遗传(genetic legacy)的理解,对它在健康和疾病中起感化的理解。
建立NCBI
已故的Claude Pepper参议员熟悉到计较机信息处置方式对生物医学研究展开的主要性,在1988年11月4日提案,成立National Center for Biotechnology Information(国度生物手艺信息中间),作为在National Institutes of Health(国立卫生研究院)中的National Library of Medicine(国度医学藏书楼)的一个部分。国度医学藏书楼由于在建立和保护生物医学数据库方面的经验被选中,而且由于属于国立卫生研究院,可以在计较份子生物学范畴成立一个院内研究打算。国立卫生研究院的研究部分调集在一路,组成了世界上最年夜的生物医学研究机构。
根本研究
作为供给份子生物信息的国度资本,NCBI的任务是,为更有助于理解节制健康和疾病的根本份子和遗传进程,而研发新的信息手艺。更明白的说,国度生物手艺信息中间负责:开辟主动化系统,用来存储和阐发各类常识,包罗份子生物学、生物化学(biochemistry)和遗传学(genetics);增进这些数据库和软件被研究者和医学集体利用;展开基于计较机的信息处置高级方式的研究,来阐发主要份子的生物学布局和功能。
为实行这些责任,国度生物手艺信息中间:
利用数学和计较机方式在份子层面上展开根本生物医学题目的研究
和多个国立卫生研究院,学术界(academia),产业界(industry)和其他当局部分连结合作
经由过程举行学术会议、学术钻研和系列课程增进科学交换
经由过程美国国立卫生研究院研究打算(NIH Intramural Research Program),撑持博士后研究生在计较生物学范畴的根本和利用研究培训
经由过程科学拜候打算(Scientific Visitors Program)礼聘国际科学集体的成员展开信息研究和培训
为科学和医学集体开辟、发布、撑持和确保一致性的到多个数据库和软件的拜候
研发和增进数据库尺度、数据存储和互换和生物学定名法(nomenclature)
1.2 组织架构
计较生物学分支(Computational Biology Branch)
在以下方面展开根本和利用研究:在份子生物学和基因学范畴内的计较机学、数学和理论题目,包括基因组学、序列比力、序列搜刮方式、高份子(macromolecular)布局、动态和交互,和成果和功能展望。
简历协作的研究项目在计较份子生物学范畴,包括生物学、化学、数学和计较机科学在国立卫生研究院院内尝试室,其他的当局机构,学术界和产业界。
咨询和建议为了当局机构和研究尝试室在计较机根本的阐发东西的利用法式为了研究份子生物学
互动份子生物组织为了加强wet-bench,基于尝试室的研究经由过程计较机学的利用和理论进修方式。
信息工程分支(Information Engineering Branch)
履行利用的研究在数据表达和阐发,包括基于计较机系统存储、办理和常识获得和份子生物学、基因学和生物化学
为表达份子生物信息的多种情势设计数据库布局和规格,包括核酸、卵白质和机构信息。这些数据库都是国度资本
为从原型到操纵层面设计和开辟可发布的软件系统,利用当地和长途的计较办事供给研究
一致化公然的拜候到序列、基因学、布局和参考数量,方式是构建筹谋和整合的数据库,尽量的成立到外部数据库的毗连。
成立合作的信息研究项目,和国立卫生研究院院内尝试室一路,和其他院外的学术组织
咨询和建议其他的当局机构和研究尝试室为了更好的软件和数据库设计高级方式
开辟和供给尺度为了数据库,数据互换和生物学定名
信息研究分支(Information Resources Branch)
打算、指点和办理手艺操纵,属于美国国度生物手艺信息中间的,包括计较机系统用来研究和开辟的,犹如用来拜候公然数据库的计较机系统
供给手艺辅助给美国国度生物手艺信息中间人员,供给撑持给外部的用户属于美国国度生物手艺信息中间收集办事
有监视的收集操纵为了美国国度生物手艺信息中间和共同其他的当局机构为国度和国际拜候到美国国度生物手艺信息中间
组织讲授示范和讲习班为了生物医学的社区来培育美国国度生物手艺信息中间信息办事的用户
打算、开辟和办理当局和谈和合作和谈来促进装备和办事撑持美国国度生物手艺信息中间信息功能
联系员为用户撑持办事到机构包括到全基因组项目
实行利用研究和研发,供给手艺的咨询和指点,明白用户需求。展开查询拜访来改良美国国度生物手艺信息中间开辟的软件的在生物用户社区的进展
协同其他当局机构和生物信息资本来增进数据资料库(repositories)在美国国度生物手艺信息中间的开辟。
1.3 打算和勾当(Programs & Activities)
根本研究(Basic Research)
美国国度生物手艺信息中间具有一个多学科(multi-disciplinary)研究组织,该组织由计较机科学家,份子生物学家,数学家,生物化学家,研究医师和布局生物学家,聚焦到根本和利用研究在计较机份子生物学范畴。这些研究者不但做出了重年夜的进献到根本科学,也供给了利用的研究行动的新方式的源泉。一路尽力,他们研究根本的生物医学题目在份子层面上,利用数学和计较机方式。这些题目包罗基因组织(gene organization),序列阐发(sequence analysis)和布局展望(structure prediction)。一个例子,当前的研究项目包罗:基因组织的发现和阐发,反复序列模式,卵白质布局域和布局要素,绘制人类基因组的基因舆图,HIV传染的动力学(kinetics)数学模子,序列毛病致使结果的阐发供给数据库搜刮,数据库搜刮新算法的开辟,多序列对齐,非冗余(non-redundant)序列数据库的机关,用于评估序列类似性统计学意义的数学模子,用于文本检索的向量模子。还有,美国国度生物手艺信息中间研发者连结延续的合作和多个机构在国立卫生研究院,也和浩繁的学术和当局研究尝试室。
数据库和软件(Databases and Software)
美国国度生物手艺信息中间负责GenBank DNA 序列数据库在1992年10月。美国国度生物手艺信息中间职工有着杰出的练习在份子生物范畴机关数据库为序列被自力尝试室供给的,国际核苷酸(nucleotide)序列数据库,欧洲份子生物尝试室(European Molecular Biology Laboratory (EMBL)),日本DNA数据库(DNA Database of Japan (DDBJ))供给的。和美国专利商标局放置,使得可以纳入专利的序列数据。
除GenBank以外,美国国度生物手艺信息中间撑持和分发多个数据库为医学和科学社群。这些包罗在耳目类孟德尔遗传数据库(Online Mendelian Inheritance in Man (OMIM)),3D卵白质布局的份子建模数据库(Molecular Modeling Database (MMDB)),独一人类基因序列集(Unique Human Gene Sequence Collection (UniGene)),人类基因组的基因图谱(Gene Map of the Human Genome),分类阅读器(the Taxonomy Browser),癌症基因组剖解学项目(Cancer Genome Anatomy Project),和美国国度癌症研究所(National Cancer Institute)合作。
Entrez是国度生物手艺信息中间的搜刮和检索系统,供给用户完全的到序列,映照,分类和机构化的数据的拜候。Entrez也供给序列和染色体映照的图象视图。Entrez的一个壮大和怪异的特征是检索相干的序列、布局和援用的能力。期刊文献(The journal literature)可以经由过程PubMed,网页搜刮接口供给了拜候到跨越11百万期刊引文(journal citations)在MEDLINE中,包括到完全文本文章的链接到介入出书商的网站。
BLAST是法式为了在国度生物手艺信息中间进行序列类似性检索开辟的,是辨认基因和遗传特点的东西。BLAST能针对全部DNA数据库在少于15秒钟内履行序列检索。附加软件东西被国度生物手艺信息中间供给的包罗:开放浏览框架查找器(Open Reading Frame Finder (ORF Finder)),电子摹拟聚合酶链式反映(Electronic PCR),序列提交东西(sequence submission tools),Sequin 和 BankIt。所有国度生物手艺信息中间的数据库和软件东西从WWW或经由过程FTP可用。国度生物手艺信息中间也有电子邮件办事器供给可选的方式来拜候数据库,为了文字搜刮或序列类似的搜刮。
推行和教育(Outreach and Education)
国度生物手艺信息中间培育科学社区在计较机范畴,如利用到份子生物学和基因学,经由过程援助会议,钻研会和演讲集。科学拜候打算已被放置来搀扶院外科学家合作。博士后研究生学位可以作为国立医学研究所院内研究打算的内容。
1.4 国度生物手艺信息中间计较生物学分支(NCBI Computational Biology Branch)
在国度生物手艺信息中间计较生物学分支中的研究集中于理论、阐发和利用计较体例到普遍的根本题目在份子生物和医学中。
研究概述(Research Overview)
研究打算在计较生物分支正在展开被高级研究员(Senior Investigators),毕生研究员(tenure track Investigators),职业科学家(Staff Scientists),博士后研究生(Postdoctoral Fellows),学生们。打算聚焦在理论,阐发和利用体例到普遍的根本题目在份子生物学中。
群组的专业常识集中于序列阐发,卵白质布局及功能阐发,化学信息,基因组阐发。研究乐趣更笼盖于普遍的主题在计较生物学和信息科学。这些包括,可是不限于数据库搜刮算法,序列旌旗灯号辨认,演变的数学模子,病毒学统计学方式,化学反映系统的动态行动,统计学文本检索算法(statistical text-retrieval algorithms),卵白质布局和功能展望,比力基因组学,分类树,生齿遗传学,系统生物学。
良多根本研究项目被CBB研究员指点,方针加强和强化的国度生物手艺信息中间的公然有用数据库和软件利用东西套装。合作研究尽力,在国度生物手艺信息中间研究员中,也在外部的研究集体中,方针是立异算法(BLAST, PSI-BLAST, VAST, and COGs)的开辟,新的研究方式(相邻文本(text neighboring))和根本资本(PubChem and CDD)革新了计较生物学的范畴。算法和利用在当前开辟下有潜力到加倍高级的科学研究。
CBB的成员明显的进献到有用和可托赖的国度生物手艺信息中间的在线资本,经由过程回首数据库中的沉积的数据的质量和有用性,也有信息的切确性用来注释数据的。成员也经由过程计划和组织科学同盟来肯定最有用地操纵公共序列资本进行年夜范围(large-scale)或高通量(high-throughput)尝试生物学的带领和指点赐与到院外社群(extramural community)。研究合作界说新的研究范畴和身份恰当的计较机制来解决题目。
此刻完成了归纳综合性内容的领会,下面,对具体资本的内容进行梳理。
2. 首页面看到的其他内容
在首页,我们可以看到上面的题目栏、跟在后面的检索框,中心的主体内容,和底部的良多链接堆。看了真让人紊乱,到底应当从哪里处所进入呢?我苍茫了好久,由于即便是中心的主体内容,精确的说是主体内容的目次也够复杂的。所以只有一个一个先看看究竟是个啥么,然后才能从头在脑筋中成立起一个整体概念。而事实上,也只有从这里面才能成立一个整体概念,若是跳过这一步调,直接进入后面的步调,很轻易就紊乱,并延续紊乱下去,所有,这一进程又是很主要的。
我们依照从左到右,再从上到下的挨次,顺次考查链接后,获得以下的架构系统。先吐槽一下,为何左上角会有两个logo?
好的,先看一个这个比原文加倍紊乱的表,我画的。不外最少到此刻我们大白了一件工作,为何NCBI要在首页上辣么多东东了,目标就是削减中心环节,你所要的所有工具,全数在页面上可以找到最好的路径直接拜候到。如许的益处不问可知,坏处就是不敷有层次,第一次看上去感受疾苦的不可。
2.1 左上角
言归正传,左上角的两个菜单别离叫资本(Resources)和若何(How To),名字起得不言而喻,出格注重的是,细心看上图可知,在左边的菜单栏中,也有资本这一超链接叫做所有的资本(All Resources),这两个实际上是一样的,而独一左上角菜单的资本菜单的感化在于,点击下拉三角图标后,可见子菜单,移动到菜单项上后,还可以看到二级子菜单。也就是说左上角的资本菜单可以直接到最底层项目,而左边菜单只能到中心的条理。我不烦琐,点击一下便可以知道了。内容都是一样的,这里我没有把菜单项的名称标识表记标帜上中文的缘由是,我健忘了:)比及截完屏做出来就欠好再添加上去了,但实在这反却是一件功德情,由于真正所有的资本,后面我们会年夜量触及的主体信息实在就是这些内容。熟习英文的名称比直接看翻译的成心义。
2.2 左边
固然后面会年夜量提到,可是仍是有需要先把内容梳理一遍,这里面包罗的内容从上到下来。主页就不说了,资本列表(Resource List)很成心思,是把所有的资本类,注重不是资本,的名称依照字母索引全数摆列出来。固然我们看到暗示完全无感,由于用的是英文首字母,而我们良多时辰只知道中文是啥。我连查啥都不知道好欠好。接下来的所有资本(All Resources)是把所有的资本类依照数据库(Databases)、下载(Downloads)、提交(Submissions)、东西(Tools)和若何做(How To)五个年夜类型全数进行分类。左边列表中单个资本类的揭示情势和这类揭示情势是不异的,也是五个年夜类型。
这些单个的资本类别离是:化学和生物测定(Chemicals & Bioassays),数据和软件(Data & Software),脱氧核糖核酸和核糖核酸(DNA & RNA),域和布局(Domains & Structures),基因和表达(Genes & Expression),遗传和医学(Genetics & Medicine),基因组和图谱(Genomes & Maps),同源性(Homology),文献(Literature),卵白质(Proteins),序列阐发(Sequence Analysis),分类法(Taxonomy),培训和教程(Training & Tutorials),变异(Variation)。
需要出格提示的是,这个单个资本类的分法,其实不是绝对的把资本们分成各类彼此隔离的种别,倒仿佛是供给了从各类角度把疏松的资本组织到一路的法子,其目标是便于人一次性的找到本身所需要的相干性比力年夜的资本子类的调集。例如说一个卖生果的网店,它可以把货色分成甜生果,酸甜生果,皮厚生果,贵的生果四个资本类。西瓜资本可能既属于甜生果有属于皮厚生果的分类。
化学和生物测定(Chemicals & Bioassays)这里面包括的和化学有关的资本,生化生化,生物和化学从一起头就是分不开的。
数据和软件(Data & Software)无疑这一条应当排到第二,信息化的利用是依托年夜量的数据库和数据检索手艺根本之上的。这里面就从计较机信息化的角度供给了各类数据库和检索东西。
脱氧核糖核酸和核糖核酸(DNA & RNA)这里面包括了和DNA、RNA有关的所有资本容,这些都可以在这个分类里面找到,良多的。
域和布局(Domains & Structures)这里面包括了和布局相干的资本,好比卵白质的布局构成。
基因和表达(Genes & Expression)基因经由过程某种方式表达出物种的各个形态,好比头发的色彩,同党的年夜小,这里面包括了基因和表达相干的所有资本,这里包括着几近所有的内容。
遗传和医学(Genetics & Medicine)这里面包括了基因和疾病彼此有关系的资本。
基因组和图谱(Genomes & Maps)这里面包括了基因组和图谱的资本,基因组是生物完全基因的构成情势,这里包括着几近所有的内容。
同源性(Homology)基因组的转变是在遗传的不变性根本长进行的,所以可以追溯他们的泉源,这里有这方面的资本。
文献(Literature)和文献有关的资本。
卵白质(Proteins)卵白质必定比基因的条理要高,究竟结果构成人体嘛,这里有卵白质相干的资本。
序列阐发(Sequence Analysis)这里面就一个流感病毒的数据库,加上一些通用的分类方式,不知道为何叫这个名称。
分类法(Taxonomy)万物同源可是跟着演变产生了良多的转变,所以要分成良多类型,这就是相干的资本。
培训和教程(Training & Tutorials)相干资本链接
变异(Variation)遗传老是有变异,这里是相干的资本。
这些分类实在其实不是分类,而是某一类资本的归类。我相信这些内容必定是从现实动身,对用户和研究者来讲都很有用果的。到此为止,内容已全数提到,后面的内容无外乎是这些资本的细分或是相干信息和东西。今朝不需要有太深切的领会,有个粗浅熟悉,为后面的深切摸索,供给一个年夜脑中的印象。
2.3 中心部门
一般来讲,但凡放到中心的,都是焦点。全都如斯,首页上在中心部门的除接待词以外,下面的一排链接,在前面的第一章中已有了具体翻译,不再赘述。重点是中心部门的程度中心部门六个块。其主要性和左边列表的分歧的地方在于他们的功能性,也就是功能性最主要的六个块,六个功能吧。别离是提交(Submit),下载(Download),进修(Learn),开辟(Develop),阐发(Analyze)和研究(Reserch)。不管你想要用这个中间的资本来干甚么,这里都供给,而最经常使用的就是这六种。我们别离先容:
2.3.1 提交
存储数据或草稿(manuscripts),这个草稿指的是未经同业评断(peer-reviewed)的发现,到国度生物信息中间数据库中。具体的种类包罗:
核苷酸序列(Nucleotid Sequences)包罗GenBank和Sequence Read Archive(SRA)两个数据库;
基因组变异(Genome Variations)包罗单核苷酸多样性(SNP),变异数据库(dbVar),临床变异数据库(ClinVar),遗传检测注册表(Genetic Testing Resgistry(GTR));
尝试研究和数据集(Experimental Studies & DataSets)包罗基因表达综合库(合适微阵列尝试最小信息(MIAME)格局)(Gene Expression Omnibus(GEO)),序列读档案(Sequence Read Archive(SRA)),基因型和表型数据库(dbGap(The Database of Genotypes and Phenotypes)),生化实验数据库(PubChem BioAssay)
生物研究项目数据(Biological Research Project Data)包罗生物数据调集(BioProject)和生化实验原材料数据库(BioSample)
核苷酸和化学试剂(Nucleotide & Chemical Reagents)包罗核酸试剂盒注册表(Probe)和样本描写数据库(PubChem Substance)
其他数据类型(Other Data Types)包括国立医学研究院草稿提交系统(NIH Manuscript Submission System(NIHMS))
选择响应种类后,可以提交数据,而且可以查到若何提交的领导文档。这部门可以发现良多内容仍是彼此重合的,有些和前面提到的内容也都相干。实在也简单啊,就是那几个关头的数据库嘛。
2.3.2 下载
先容文字为:传输国度生物信息中间的数据到你的电脑上。
这里供给了三个首要部门的内容和一些辅助链接文档
起首是FTP,可以从中打开文件夹,下图就是我电脑上打开的内容,速度有些慢,可是可以看到里面的年夜致组成。可以直接下载哦。
第二个内容就是Aspera。这原本是IBM公司的一个高速传输软件,利用了fasp传输手艺。感受利用了这个神器,就秒杀迅雷的感受,到达只要担忧你存储空间的年夜小的境地。
这个我安装了一个在电脑上,可是没用过,由于没机遇用,空间已满了。究其底子缘由,由于最起头我比力傻,又没有老司机领路,利用了ftp往我的办事器上wget的时辰,把我的磁盘空间都占满了。我用的是阿里云,值得夸赞的就是,我常常思疑会传输到一半就垮台,没想到吭哧吭哧的居然把如斯年夜的数据库文件都渐渐下载下载了,可见人家办事器的健旺,和我阿里云的收集通顺。可是最后一个毛病,怎样试都不可的时辰。我才发现本来是硬盘占满了。
总之,总关系图中有一个截屏,可以看到这个软件把数据库文件目次组织的很好。趁便说这个软件已插件的体例起感化,打开网页便可以阅读和处置文件了。
第三个就是下载东西,特定在于定制能力强,可以定制某些数据集。
包罗Entrez法式集(Entrez Programming Utilites(E-utilities)),SRA(Sequence Read Archive)东西包(SRA Toolkit)和GEO2R,最后这个怪名字东西的怪名字暗示它是一个基于R说话的GEO数据库下载东西。GEO前面说过了,可是必定没法轻易一会儿记住的名字,基因表达综合库(Gene Expression Omnibus):GEO是一个公然的基因组学(genomics)数据仓库(repository),它撑持合适MIAME(微阵列尝试最小信息)尺度的数据提交。接管基于数组和序列的数据。这个东西帮忙用户查询和下载尝试和筹谋(curated)的基因表达谱(gene expression profiles)。还有这三个东西的相干文档。
链接就是若何下载定制的数据调集,年夜数据下载的最好方式,SRA下载参考。
2.3.3 进修
先容文字为:找到有帮忙的文档,加入课程或不雅看教程。
进修嘛比力轻易理解,包括了四个部门的内容,收集钻研会和收集课程(Webinars & Courses),会议和展现(Conferences & Presentations),教程(Tutorials)和文档(Documentation)。总关系图中有截图。
2.3.4 开辟
先容文字为:利用国度生物信息中间的API们和代码库来建立法式。
这里面呢有三个部门和一个外部链接。起首是APIs,晓得就懂,不懂的估量对这一段也不感乐趣了。简单先容就是包罗E-utilities、BLAST URL API 和化学文献强力用户网关(PUG(PubChem Power User Gateway))等的法式接口。简单申明一下就是这些工具都是写好的法式,你可以经由过程挪用这些法式来获得一些数据,而且按照挪用这些法式时的参数,来定制你想要的数据。上面的等这个字,实在就是生化文献中间(PubMed Central(PMC))APIs,多是处所不敷用了的原因。
其次就是代码库(Code Libraries),用来保护国度生物信息中间数据的公然的软件库,就是良多软件啦。包罗:
国度生物信息中间C 东西包,C 是一种壮大的编程说话,这个东西包是一个利用法式的框架,既然是框架那就不简单是一些可挪用的函数和类啦,是一个脚手架,可以趴在上面用各类函数操纵数据库中的内容。
SRA 东西包,包括东西的可履行文件和源码,可以直接下载,这些东西首要是处置二代测序的成果,这些成果用国度生物信息中间SRA布局存储的,SRA是一种格局名称,犹如word文档,就是用特定格局存储的文本文件,和txt的文本文件的类型是纷歧样的,必定壮大了哦。
国度生物信息中间GitHub仓库(NCBI GitHub Repository),这个词要如许断,这是个在GitHub上面的仓库,里面放的国度生物信息中间的良多东西。GitHub是啥呢?是法式员们放本身写出来的代码的处所。放在那边有啥益处呢?就是可以做版本办理,每次点窜都给你存起来。若是利用免费的空间,那就必需要公然,谁都可以看和下载。有时辰年夜牛看到了,可以拷贝一份帮你改一改,悔改的你感觉太好了,就直接给年夜牛发一个「拉」要求,把年夜牛改的阿谁拷贝,拉过来笼盖你本身的版本。若是你利用私家的空间,或公司用的,那就花钱租一个,公司的人本身用。总之,这是一个法式员立名立万的处所。上面有良多好用的工具,Android的源码也在上面。
再次就是数据格局,因为各家的数据库利用分歧的格局存储数据,那彼此之间就没法主动读取,存储到另外一个库中。所觉得了同一尺度,就划定了这些工具。
最后的链接就是GitHub,和前面的代码库中的反复。我暗示始终对国度生物信息中间的分类之诡异服气的很。最后还俄然冒出来几个链接,开辟视频教程,指点若何利用来开辟利用E-UTILITIES的。
2.3.5 阐发
先容文字为:为你的数据阐发使命选择一个国度生物信息中间东西。额。。。
里面可以看到,我们供给了很多多少很多多少的阐发东西哦,你们都可以用来操纵(manipulate),摆列(align),可视化(visualize)和评估(evaluate)生物数据。
里面分了六个类:文献类、健康类、基因组类、基因类、卵白质类和化学类。基因组、基因和卵白质三个类的东西最多。
这里面的阐发东西和前面的提到的良多内容仍是反复的,也就是说,这里是供给了一个目次,把良多相干的内容搜集到一路,便于你利用。
2.3.5 研究
先容文字为:展现了国度生物信息中间的研究和协作项目。
额,此文前文完全翻译过,名为国度生物信息中间计较生物学分支(NCBI Computational Biology Branch)。再一次分类思惟点赞,我已晕了。
2.4 右边
右边上部门名为热点资本(Popular Resources),不问可知,是最多被拜候,最受接待的内容。
包括以下内容:生物医学文献(PubMed),册本和文件(Bookshelf),自有的生物医学文献(PubMed Central),临床疗效信息(PubMed Health),匹配序列的东西(BLAST),序列的调集(Nucleotide),基因组信息(Genome),单核苷酸多样性数据库(SNP),基因信息(Gene),卵白质序列调集(Protein)和化学数据库(PubChem)。
别离先容以下:
生物医学文献(PubMed):PubMed包罗来自MEDLINE,生命科学期刊和在线图书的跨越2700万次的对生物医学文献的援用。 引文可能包罗到(自有的生物医学文献)PubMed Central和出书商(publisher)网站的全文内容的链接。
册本和文件(Bookshelf):供给到生命科学和医疗保健册本和文件的免费的在线拜候。搜刮,浏览和摸索。
自有的生物医学文献(PubMed Central):PubMedCentral®(PMC)是美国国立卫生研究院/国度医学藏书楼(NIH / NLM)的生物医学和生命科学期刊文献的免费全文档案。
临床疗效信息(PubMed Health):临床有用性研究(Clinical effectiveness research )回覆了医疗(medical)和保健(health care)中“甚么有用”题目。感受中文中,保健这个概念已既污又low了。
匹配序列的东西(BLAST):屡次呈现了哦。发现生物(biological)序列(sequences)之间的匹配区域(regions of similarity)。 该法式将核苷酸(nucleotide)或卵白质(protein)序列(sequences)与序列数据库(sequence databases)进行比力并计较统计学意义(statistical significance)。简单说就是你有一段本身的基因序列,来这里用这个东西查一下,哦,我和人类的基因序列是匹配的呢。固然也能够比力两个基因序列的类似性喽。
序列的调集(Nucleotide):核苷酸数据库是来自几个来历的序列调集,包罗美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国度生物信息中间参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))和卵白质数据银行(PDB(Protein Data Bank)),基因组(genome),基因(gene)和转录本序列数据(transcript sequence data),为生物医学研究和发现供给根本撑持。这个库明显是最年夜的总和。
基因组信息(Genome):该资本组织基因组的信息,包罗序列(sequences),图谱(maps),染色体(chromosomes),装配(assemblies)和注释(annotaions)。这里面有人类基因组(Human Genome),微生物基因组(Microbial Genomes),细胞器基因组(Organelle Genome),病毒基因组(Viral Genomes),原核生物参考和典型基因组(Prokaryotic reference genomes)。
单核苷酸多样性数据库(SNP):单核苷酸多态性(SNPs)数据库和包罗插入/缺掉(insertions/deletions),微卫星(microsatellites)和非多态性(non-polymorphic)变体(variants)的多个小范围(small-scale)变异(variations)
基因信息(Gene):基因整合来自普遍物种的信息。 记实可能包罗定名法(nomenclature),参考序列(Reference Sequences)(RefSeqs),图谱(maps),路子(pathways),变异(variations),表型(phenotypes),和全球规模的基因组、表型和基因座特异性的资本的链接。
卵白质序列调集(Protein):该数据库是来自多个来历的序列调集,包罗美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国度生物信息中间参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))中注释的编码区(coding regions)的翻译,和注释的卵白质数据库(annotated protein database )Swiss-Prot,卵白质信息资本(PIR(Protein information resources)),卵白质研究基金会(PRF(Protein Research Foundation)和卵白质数据银行(PDB(Protein Data Bank))的记实。 卵白质序列是生物布局和功能的根基决议身分。
生化信息库(PubChem):供给小份子生物活性(biological activities)的信息,由三个首要数据库Pcsubstance、Pccompound、和PCBioAssay,别离包括物资(substance)信息,化合物( compound)布局和生物学活性(BioActivity)数据。
回到右边的内容,下面还有个供给了发布新闻和博客的链接(News & Blog),不赘述了。
2.5 底部
最后一个部门,我要先容的是底部的所有内容。这一部门总的来讲呢,应当是一个导航栏,就是告知你今朝处于全部站点的位置。可是现实上感受又是一个所有元素的分类,供给给用户便利的拜候。总之不管那末多首要有5个部门。
2.5.1 从这里起头(GETTING STARTED)
从这里起头,好吧,这里有5个内容:别离是教育(NCBI Education),帮忙文档(NCBI Help Manual),手册(NCBI Handbook),练习和培训(Training & Tutorials)和提交数据(Submit Data)。讲真哦,他人我不知道,归正若是我如果从这里起头的话,估量早就迷掉了。
需要说的是第一个教育和第四个练习和培训和上文中心功能区的进修(Learn)反复,不做先容。第五个内容提交数据和中心功能去的提交(Submit)反复。暗示不睬解。剩下的两个如字面意思。
2.5.2 资本(Resources)
哦,既然全部站点就是资本,接待词里面说的嘛。那末这明显是重中之重了,果不其然,我一看和左边列表中完全重合。其实不是,少了一个练习和教程(Training & Tutorials),今朝你有三种可能一会儿就进入到练习和培训页面,看国度生物信息中间是何等的但愿练习和培训你哦。其他完全一样,也就是所有的资本了。
2.5.3 热点(Popular)
唉,这个部门和适才提到的右边部门的热点资本(Popular Resources)完全一致,真的完全一致。不诠释。
2.5.4 特点(Featured)
恩,这个有趣了。因为前面的影响,我下意识的反映就是在寻觅,到底这一部门和哪个条目重合呢?事实上,并没有。没有想到吧,这一部门居然几近是新颖的哦。为何躲到这个犄角旮旯里呢?我又一次堕入了思虑。
遗传检测注册表(Genetic Testing Registry(GTR))这里供给了一个供给者自愿提交遗传检测信息的处所。从里面可以看到。测试(Tests)经由过程搜刮测试名称,疾病名称,表型(phenotypes),基因标识表记标帜和名称(symbols and names),卵白质名称,尝试室名称,主管和位置。情况/表型(conditions/phenotypes)经由过程搜刮疾病名称,特征(traits),药物(drugs),卵白质(proteins)和阐发(analytes)找到情况和表型。基因(Genes)经由过程搜刮基因标识表记标帜和名称,情况和表型来搜刮基因。尝试室(laboratories)经由过程搜刮尝试室名称,主管,人员,位置和办事,疾病名称和表型搜刮尝试室。基因评论(GeneReviews)这个很好的,是相干学科专家对基因的评论文章。中国有两家哦!一个是杭州的中翰金诺医学查验所,一个是江苏姑苏的健路基因。额,奇异的状态。
临床疗效信息(PubMed Health)向左看热点资本里面有这一条,上文中的右边也有这条。不诠释了。
美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database))前文屡次提到这个数据库,这里第一次呈现拜候链接。先容文字:美国国立卫生研究所遗传序列数据库,所有公然拜候的DNA序列的注释的调集。这里的注释很是主要哦,一堆atcg,那可是完全看不懂天书了。同时,GenBank又是另外一个库的一部门,这个库唤作国际核苷酸序列数据库(International Nucleotide Sequence Database),这个年夜库由几个库构成别离是:日本DNA数据银行(DDBJ),欧洲核苷酸序列档案(European Nucleotide Archive(ENA)),GenBank。这三个机构天天互换数据。可见霓虹国仍是很壮大的哦。下面先容了一堆,若何拜候,若何利用,保密和隐私之类。有几种方式可以从中获得数据:Entrez Nucleotide,BLAST,e-utilities,和直接看纯文本格局,多种方式各显神通,各有益弊。未来会具体先容。总关系图中有几个截图可以看看。
参考序列数据库(Reference Sequences):一个周全的,整合的,非冗余的,注释杰出的参考序列,包罗基因组,转录物和卵白质。关头在于参考这个词,那末多序列,哪一个才是尺度呢?这是个题目。简单来讲,这里的序列,就是可以用来对比的。恩,对比了发现,我是一小我类。就这类感受。
基因表达综合(Gene Expression Omnibus):撑持合适微阵列尝试最小信息(MIAME)尺度的数据提交的公共功能基因组数据库。 接管基于数组和序列的数据。 供给东西来帮忙用户查询和下载尝试和筹谋基因表达谱。也就是说年夜家把测序的成果提交到这个里面来,为啥呢?由于这个数据库存储基因组数据这类年夜数据出格善于,提交的方式简单还撑持各类通用的注释,很主要的哦,用户可以查询下载研究感乐趣的基因表达谱。
图谱(Maps)图谱查看器,Entrez的一部门,供给了多样的基因组图谱和序列数据的阅读功能。这个用了就知道咋回事了。
人类基因组(Human Genome),不消说了,这是焦点啊。里面有具体的零丁的操纵方式。可以下载,阅读,查看和进修。就全部资本来讲,这里有些像新浪网站弄了一个小专题。就如许的感受。趁便提一下人类基因组的版本是转变的哦,网站里面给出了两个版本GRCh37和GRCh38版本。暗示看不懂,颠末研究,本来是,以GRCh28为例,基因组参考同盟之人类基因组(38版)(GenomeReference Consorium human genome (build 38)),额,汗。
小家鼠(Mus musculus),不诠释了,老鼠的基因组。汗青上干死很多人类,此刻又被人类干死很多,谁也灭不失落谁。
流感病毒资本(Influenza virus),无需诠释了,流感是一种病毒,表吃抗生素,消炎药,那是杀菌的,对病毒没有卵用,附带宣扬。
引物寻觅器(rimer-BLAST),引物是一段核苷酸序列,可以在升温后DNA双链打开后,拼合到单链的特定位置上,用今后面降温时,肯定DNA补齐双链状况的肇端和竣事位置。如斯反复N次,就把特定区间的DNA复制了年夜量出来,若是用了荧光标识表记标帜,那末这时候就发出可见强度荧光。若是没有,不是你做错了,而是没有特定的DNA序列让你的引物去拼合。所以,有没有荧光就成为被测的DNA有没有特定序列的标识。便可以干良多工作了。这里就是若何设计一段用来检测特定dna序列的引物序列的法式。
序列浏览存档(Sequence Read Archive (SRA))这个里面存储序列数据。为何要存到这里呢?由于它设计来存储二代测序手艺测出来的原始序列数据的。除原始序列数据外,SRA此刻以参考序列中读取位置的情势存储对齐信息。也就是说我不消存每个位的信息,我存储相对参考也就是尺度列的位置,如许来存储对齐信息。固然实践方式不知道,不外明显会削减存储量。此刻,sra数据库数目逐步增添。里面罗列了良多信息。
率直说,看完这一段,发现这个特点下面的列表,固然位置很偏,可是感受用途都很年夜,很有研究价值,和它摆布列表比拟,完全不是一个档次的。
2.5.5 美国国度生物信息中间信息(NCBI INFORMATION)
这一部门有七个列表项目,可是我来分分钟解决。
美国国度生物信息中间概述(About NCBI),美国国度生物信息中间的研究(Research at NCBI)这两个看上去熟习吧,就是前文中,中心部门的概述(About the NCBI),那末,美国国度生物信息中间的研究呢?不消担忧,这实际上是概述的一个子内容。一个是另外一个的子内容,我真是醉了。
美国国度生物信息中间新闻和博客(NCBI News & Blog),很熟习吧,就在页面上不远的处所。
独一有一点价值的美国国度生物信息中间FTP站点(NCBI FTP Site),并没有任何新颖事,就是中心部门的下载(Download)里面的FTP。
后面三个,我们用不了,不诠释!
好了,到此为止,首页面上显现的概略性内容就已完全先容完了,固然说是概略性的内容,实在已触及到了首要的资本,和操纵资本的方式了。这就是全部美国国度生物手艺信息中间的资本架构。
后面,我会择其重点资本,逐一研究。
弥补一句,若是看完了,你仍是不知道要到哪里去找你要的工具,就到页面的正上部位置,我们一向没有提到的处所,有个空缺框,输入你想要的内容,固然若是你知道本身想要甚么的话,点击Search,搜刮便可。
任皓
2017年7月29日
授权生信菜鸟团,生信技术树平台发布,其余转载请联系作者获得授权,不然拜托维权骑士追责,感谢合作和理解。
本文就为年夜家讲授到这里,但愿对年夜家有所帮忙。