|
1.3 人类基因组计划和基因组信息
1.3.1 人类基因组计划简介
基因组研究又称基因组学(genomics),它是在人类迫切需要认识自身的前提下产生的。人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3×109个碱基对(bp,base pair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本任务,在此基础上人类才能解读和破译生物体生老病死以及与疾病相关的遗传信息。

人类基因组计划的具体任务可以概括为建立四张图谱,分别是遗传图谱、物理图谱、序列图谱和转录图谱。遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在基因组的一个遗传位点上具有一个以上的等位基因,它在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在细胞减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。

物理图谱(physical map)是指有关基因组中特异性序列排列和间距的信息,建立物理图谱实际上是为全基因组测序建立“路标”,是基因组测序的前一步工作。绘制物理图谱的目的是把有关特异性序列的信息及其在每条染色体上的相对位置线性而系统地排列出来。限制性酶切图谱是一种高分辨率的物理图谱,它显示的是各种限制酶切点的相对位置,限制性酶切点是物理图谱中最主要的界标。人类基因组计划中用的是基于序列标记位点STS(sequence tagged site)的物理图谱,在这一图谱中,基因组的某些区段比其它区段绘制得更详细。物理图谱中STS标记可以为寻找和分离目的基因以及DNA测序提供重要的基础。物理图谱是以核苷酸的长度为单位绘制而成的。完成遗传图谱和物理图谱是建立序列图谱的前提条件。

人类基因组全部DNA序列的测定是HGP的核心部分。随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作,而大规模测序技术的改进及分析大片段DNA序列的生物信息技术的进步,对完成人类基因组全部核苷酸序列的测定起着决定性作用。测序的完成依赖物理图谱上排序的DNA片段分子克隆,这些分子图谱通常是在较短的时间内由一个研究组从单一分离群体中获得的。为了充分利用所有的信息,要对全部标记进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。DNA序列分析技术是一个包括制备DNA片段及碱基分析、DNA信息翻译的多阶段的过程。现在多采用凝胶电泳法进行测序,但由于每次测序的DNA片段长度仅为几百到一千个碱基(kilobabse,kb) ,故大片段DNA测序必须分解为一系列小片段进行。因此,利用定向和随机测序方法获得连续的小片段是大规模DNA测序的关键。随着自动化技术的迅猛发展,测序反应的许多步骤已实现自动化,例如应用自动测序仪可将凝胶电泳、初始信息收集、碱基阅读等步骤自动化。测序过程的自动化具有手工测序不可比拟的可重复性和高效性,适用于人类基因组的大规模测序。通过测序得到基因组的序列图谱。
大规模测序基本策略:
| n逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划) |
 |
| 全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司) |
转录图谱(transcription map)是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。因为人类基因组中有许多不参与蛋白质编码的内含子,所以只有识别出其中的蛋白质编码序列,才能够做到基因识别(gene identification)。基因识别包括识别基因组编码区或称“开放阅读框 (open reading frame,ORF)”,和识别基因结构。基因识别是HGP的重要内容之一,其目的是识别人类全部的基因,即基因组在生命活动中发生转录表达的DNA片段,并对其结构进行研究。基因识别需采用生物信息学、计算生物学技术和生物学实验手段,并将理论方法和实验结合起来。基于理论的方法主要从已经掌握的大量核酸序列数据入手,发展序列比较、基因组比较及基因预测理论方法。将已知基因定位于物理图谱和DNA序列图谱是基因识别的另一个前提,定位时通常采用染色体荧光标记原位杂交的方法。除此之外,还必须确定特定基因在生物体的哪些组织、细胞里表达,也就是基因的表达模式问题,这是对基因可能具有的功能进行推测时必不可少的信息。DNA微阵列或基因芯片是进行基因表达分析的关键技术。下图显示了细胞、染色体和人类基因组计划的四张图。

对致病基因的克隆也是人类基因组计划的内容。疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或调控,即可取得治疗疾病的效果。如果掌握了与某种疾病相关的基因及其突变,则可以对该疾病进行预测、诊断,甚至治疗。人类基因组计划的实施将对医学事业、生物学的研究乃至人类生活的各个领域产生不可估量的影响,这一点已不容置疑。人类的任何疾病都与人类的基因有关,是人类基因组与病原基因组中的有关基因相互作用的结果。例如,所有癌症都是由于DNA序列的变化引起的。在人的一生中,细胞中的DNA不断受到癌诱导物质的侵扰,同时也处于自身复制错误的危险之中。每个细胞中DNA都可能发生变化,在大部分情况下,这些变化不会对人体产生太大的影响,但是在极端的情况下,DNA序列的变化可能会导致关键性基因功能的变化,引起细胞增殖的失控。20世纪中叶,特别是70年代,人类组织了攻克肿瘤的尝试,建立了“基因病”的概念,即不仅疾病与基因相关,而且所有药物都是通过基因起作用的,都是通过修饰基因的本身结构、改变基因的表达调控、影响基因产物的功能而起作用的。要认识疾病,就一定要认识致病基因。例如,比较正常细胞的基因组和癌细胞基因组可以发现引发癌症的基因突变、基因组紊乱。又如,通过家系寻找与疾病相关的基因,下图表示通过定位克隆技术寻找遗传疾病基因的过程。对疾病基因按产物功能分类,并进行统计分析,可以发现酶或者调控蛋白对疾病产生影响的可能性最大。人类基因组中每一个基因都是一个可能的药靶,因此,这3万多个基因具有重要的社会和经济价值,制药业面临着新的挑战。

人类基因组计划得到的是人类基因组的蓝图,但是个体基因组之间并非完全相同,存在着大约0.1%的差距,这就是所谓的基因多态性。这种基因组之间的差异规定了人与人的不同,根据基因多态性可以进行亲子分析,实现个人身份鉴别。对基因多态性的分析将会使我们能够揭示人体特征的遗传学基础,比如,个人能力的遗传学基础,这些个人能力包括计算能力,记忆能力,身体协调性,甚至可能是创造力。基因多态性在医学上表现为不同的人对疾病的易感性或抵抗性不一样,同时也表现为针对同样疾病进行同样的药物治疗而效果却不尽相同:有的人病愈,而有的人则治疗效果不明显,甚至产生强烈的毒副作用。基因组计划,特别是人类基因组单碱基多态性研究计划,将促进个体化治疗的发展,在不久的将来,我们可以根据不同患者的致病基因,研制出适合他们的治疗药物。如果真能做到“因人施药”,可能是基因组研究给人类带来的最大福音。人类基因组计划建立的人类基因组图,可以理解成“人体第二张解剖图”。人体解剖图告诉我们人体的构成、主要器官的位置、结构与功能,让我们了解所有组织与细胞的特点,这才有了现代医学。而人类基因组计划绘制成的第二张解剖图将成为疾病预防、预测、诊断、治疗及个体医疗的参照,为在分子层次上进行生物医学研究提供了科学依据。这张新的解剖图将使人类的医学水平迈上一个新台阶,并促进产生新的生物医学技术。人类基因组计划进行得非常顺利,已经于2003年提前两年完成,一些模式生物的基因组测序工作也已经完成。1999年底,科学家成功地确定了人类第22条染色体上所有核苷酸的成分,人类第一次破译出人的一对染色体的全部遗传密码。我国于1999年9月正式参与人类基因组计划,并承担了1%的测序任务,成为国际上承担HGP任务的6个国家之一。

人类基因组计划的实施还有着许多重要的意义。第一,人类基因组是用遗传语言书写的一本“天书”,为了研究遗传语言,我们必须首先要得到这本“天书”。人类基因组计划为我们提供了这本“天书”,为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便。通过人类基因组计划得到存在于天书中的控制人体生长、发育的整套指令,使人类对自身有根本的了解。第二,人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其他的生物就会容易得多。第三,同时研究多种模式生物基因组将有助于研究地球生物的进化史。
1.3.2 人类基因组计划给生物信息学提出挑战
随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。值得庆幸的是,人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。
早在人类基因组计划提出时人们就预示到生物信息学的重要性,当时成立了由几十位著名专家组成的生物信息学研究组;而在基因组计划实施后,生物信息学的重要性也真正地展示出来了。生物信息学应用于基因组研究,成为基因组信息学。基因组信息学的主要任务是收集和管理基因组数据,分析和处理DNA、RNA、基因表达等各类信息,对照比较基因组数据,发现新的基因,阐明基因的结构和基因的功能。信息的收集、储存、分发与分析是人类基因组计划最初提出时所确定的基本任务。计划实施后,每天都有成千上万条基因组数据,数据的取舍非常重要。数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。人类基因组计划的实施产生了多种信息,人们需要对大量原始数据进行分类,建立具有特定功能的数据库。处理原始的数据库,通过分析、分类,按照需要建立二级数据库。二级数据库是进一步研究开发基因组的重要手段。基因组数据必须提供给广大的科学工作者使用,基因组数据管理系统要提供友好的数据查询界面,使得一般科学工作者能够非常方便地获得相关生物分子信息,这样才能有效地利用已有信息,使人类基因组数据真正地造福于人类。另外,基因组数据复杂,为了便于理解这些数据,需要借助于计算机可视化技术,通过表格、图形、图像、动画等各种方式形象地表示基因组数据。当然,从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。我们需要开发分析软件。分析软件是有效利用基因组信息的工具,分析软件也是构建二级、三级数据库的条件和手段。同时,分析软件还可将不同性质数据库中的数据结合在一起,综合分析,如将基因组序列数据和蛋白质序列、结构及功能数据结合计算,可以推断结构和功能的关系,从而成为一种发现新信息的快捷方法。进行大规模基因组DNA序列测定的基本条件是构建能够覆盖每条人类染色体而重叠度又最小的连续克隆系。这些克隆系所包含的大片段DNA无法一次测序,需要随机剪切成有重叠区的小片段,然后逐段测序,最后根据各片段之间的重叠关系装配成全序列。全序列的装配涉及非常复杂的计算数学问题,因此研究可靠的、高性能的算法是解决DNA序列拼接自动化的关键。 从酿酒酵母的全基因序列测序,可以看出生物信息学在基因组信息数据分析的作用。20世纪90年代初,全世界600多名科学家联合起来,在短短几年内完成12Mb (Mega base)的酿酒酵母的全基因组测序,找出5885个编码蛋白质的基因,390个转录rRna、snRNA和tRNA的基因。这些基因大约60 %是通过信息分析得到的。如此迅速的研究进展得益于生物技术的发展,得益于信息科学的渗透,也得益于生物信息学方法和技术的发展与应用。

人类基因组计划已经完成,我们已经进入“后基因组学”(post-genomics)时代。当前,基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平上对基因功能的研究,这种转向的一个标志是产生了功能基因组学(functional genomics)这一新学科。基因组学实际上是为功能基因组学做准备,一旦功能基因组学进入实质性的发展阶段,人类将可以从中获得更大的利益。功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病之间的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学从基因组整体水平上对基因的活动规律进行阐述,这从根本上改变了传统生物学的思维方式。传统的“还原论”方法是一种假设驱动的方法,即反复验证已经存在的关于特定基因或蛋白质功能的假设,但是不能产生新的假设。随着生物学技术和计算技术的发展,逐渐形成一种新的全局方法:基因组表达图谱(转录分析,如在mRNA水平上通过DNA芯片技术检测大量基因的表达模式)和大规模蛋白图谱(蛋白组分析)方法。在使用全局方法进行研究时,研究人员同时检测大量基因的表达水平,从而在整体水平上获得关于基因功能及基因之间相互作用的信息。与还原论不同的是,这种研究方法能够积极地产生许多新的假设。如果说生物信息学在人类基因组计划中的着重点是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。在功能基因组时代,应用生物信息学方法,高通量地注释基因组所有编码产物的生物学功能是功能基因组研究的一个重要特征。
功能基因组学的研究主要包括以下几个方面的内容,并且这几方面都与生物信息学密切相关。(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢过程中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图;(4)比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。基因组是生物进化史的记录,是生物物种的数据库。目前,我们有了越来越多的模式生物全基因组序列数据,因而,对于基因的比较研究,也必须从单个基因的比较上升到在全基因组水平上对不同的生物的比较研究。这样的研究将会更为有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。利用生物信息学对不同进化阶段物种的基因组结构和功能进行比较分析,可以追溯一些基因的起源和演变过程,估算生物之间的亲缘关系或遗传距离,最终弄清人类3万多个基因的起源和进化,认识结构和功能的演变,发现其间的亲缘关系,从而找到生物学的“基因周期表”。完整基因组比较将会为我们提供更多的生物学信息:最小的独立生活的生命至少需要多少基因?基因在染色体上的分布如何决定生物体的表型?是什么将一个生物体同另一个生物体区别开来?人类特有的基因有多少?

人类基因组计划的实施结果将对药物研究产生重大影响。大量有关基因及其产物的结构和功能的信息、基因间相互作用的信息、基因调控的信息以及分子进化的信息都不断地涌现出来,为研制新药提供了丰富的信息。然而真正有效地利用这些信息还需要生物信息学。生物信息学和人类基因组计划为药物靶标的发现、新药的研制开创了新天地,未来的药物研究过程将是基于生物信息知识挖掘的过程。新药的研究将从计算机开始,首先通过数据处理和关联分析,发现药物作用对象,确定靶标分子,在此基础上针对靶标设计合理的药物分子。进行合理的药物设计,又必需了解药物分子和靶分子是如何在空间上相互作用的,而这方面的工作也是由生物信息学来完成的,如对药物分子或蛋白质分子的结构进行预测,利用分子图形学方法研究药物分子与蛋白质分子的相互作用。可以看出,未来的药物研究对生物信息学提出了非常高的要求。 基因与疾病密切相关,人类基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析和揭示。根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式。在不久的将来,医院通过基因芯片分析,在几分钟内就可以确定病人的疾病本质,从而对症下药。
生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学在最近10年迅速发展的历程证明了这一点。在过去的40余年中,仅仅围绕人类基因组中3%左右的编码序列的研究,就造就了几十名诺贝尔奖获得者。可以想象,人类基因组中另外97%的非编码序列,会有多少信息等待我们去发掘。
共8页: 上一页 [1] [2] 3 [4] [5] [6] [7] [8] 下一页
上一篇:基因表达参考文献 下一篇:生物信息学的生物学基础
|