设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1532|回复: 0

基因组DNA的奥秘

[复制链接]
发表于 2011-9-3 13:11:42 | 显示全部楼层 |阅读模式
生命是大自然最伟大的创造物,经过亿万年的进化,生命的形式从简单的有机物发展到现在高度复杂但有序的生物系统。蛋白质是构造生命机器的基本元件,大量结构不同、功能各异的蛋白质在遗传信息的控制之下,被不断地合成出来,并有机地组成复杂的生物体。遗传信息存贮在基因组中,具体说就是存贮在由4种字符组成的核酸序列中。随着分子生物学中心法则的确立,人们逐渐认识到,遗传信息的载体主要是dna(在少数情况下RNA也充当遗传信息载体),控制生物体性状的基因则是一系列DNA片段。一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息;另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成,基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的遗传密码。1961年,科学家Nirenberg使用信使RNA分子研究得到第一个遗传密码,1969年确定全部的遗传密码。遗传密码的发现拉开了在分子水平上的生命信息科学研究的序幕,启动了人类探索遗传语言奥秘的进程。许多科学家认为,基因组DNA序列并非是一种简单的生物分子序列,而可能是一种语言,该语言描述遗传信息,控制生物体的性状,规定生物个体的生老病死。为了深刻揭示这种遗传语言的奥秘,科学家们开始测序人类及其它模式生物基因组,希望解读和破译遗传信息,使人类在分子水平上全面地认识自我。由于生物技术的高速发展,人类基因组计划已经提前至2003年全部完成,我们已经得到了关于人类遗传信息的长达数百万页的“天书”。这本天书就是用遗传语言书写的人类遗传蓝本,是解读遗传语言的基础。之所以称它为天书,不单是因为它所包含的信息量巨大,更重要的是目前人类对它了解甚少,还无法读懂它。天书中只有4个字符(碱基ATGC),既没有段落,也没有标点符号,是一个长度为3×109的一维序列。迄今为止,科学家对这本天书了解最多的部分就是遗传密码,或者说掌握了DNA翻译成蛋白质的编码规律。遗传密码又称为三联体密码,它说明DNA序列三个连续的碱基为一个蛋白质的氨基酸编码。已知自然界中的蛋白质由20种不同的氨基酸所组成,究竟需要几个连续的碱基为1个氨基酸编码呢?显然,1个碱基不行,1个碱基最多只能编码4种氨基酸。那么,2个碱基是否能够完成编码任务呢?2个碱基最多能产生1642)密码子,只能为16种氨基酸编码,也不行。而3个连续碱基可能形成的密码子共有6443)个,完全满足编码的需要,所以遗传密码是三联体密码。由于三联体密码的密码子数目大于氨基酸种类数目,所以,对于一种氨基酸,可能存在多个密码子,同义密码子一般在第三位发生变化。例如UCUUCCUCAUCG均为丝氨酸的密码子。显然,这种编码方式具有一定的容错性,一位密码发生错误可能不会对蛋白质翻译结果产生影响。假设丝氨酸密码子的最后一位发生变化,其变化结果仍然是同义密码子,对信息传递影响不大。遗传密码具有通用性,在生物界除了线粒体等细胞质基因外,密码子几乎是通用的,因而,可以说生物界中的遗传语言也是通用的。密码子的使用是非随机的。如果密码子的第一、第二位碱基分别是AU,那么,第三位将尽可能使用GC;反之亦然。由于GC之间可以形成三对氢键,而AU之间只能形成两对氢键,因此,如果三位都用GC,则配对容易,分解难;三位都用AU,则相反。一般地说,高表达的基因,要求翻译速度快,密码子和反密码子配对快、分手也快。密码子的第一位和第二位极少有选择的余地,所以,只能在第三位进行取舍。密码子的使用具有一定的统计规律。基因对同义密码子的使用存在着偏爱,但不同种属偏爱的密码子不同,并且偏爱程度也不同。特别的是,根据统计,在人类基因组中,密码子第三位取AU的情况占90%,而第三位取GC仅占10%密码子中三个碱基所处的位置,与它所编码的氨基酸性质存在着某种联系。例如,如果密码子的第一位是U,则该密码子编码的是芳香族氨基酸。又如,密码子的第二位与氨基酸的亲疏水性有关,编码疏水氨基酸的密码子,其第二位碱基是U;编码亲水氨基酸的密码子,其第二位碱基是A;第二位碱基是GC的密码子所编码的氨基酸,其亲水性和疏水性均居中。人类基因组是科学家研究的第一个脊椎动物染色体基因组,人类基因组已成为其它脊椎动物中的代表。它比线虫和果蝇基因组大30倍左右,比酵母的大250倍左右。尽管它的长度比较大,它的基因数目似乎只有果蝇和线虫基因组基因数目的两倍或三倍。人类基因组大约有3万多个基因,这些基因分布在染色体中的DNA序列上,或者说就隐藏在“天书”中。到目前为止,已明确定位的基因仅占3万多个基因中的一部分。那么如何在“天书”中找到其它的基因呢?一种方法是通过分子生物学实验确定基因的位置和序列,另一种方法就是通过信息分析寻找基因。科学家已经发现在基因的前后两端存在一些特殊的信号,基因的蛋白质编码区域与非编码区域在序列的统计特征上有明显的差异,因此,可以用数学方法、人工智能的模式识别方法或神经网络方法识别DNA序列上与基因相关的信号,区分统计特性,从而识别基因。
虽然我们已经了解基因的结构,掌握了遗传密码,但是相对于庞大的基因组,我们了解得还很少。就人类基因组而言,编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等。卫星(satelliteDNA、小卫星(mini-satelliteDNA、微卫星(micro-satelliteDNA就是一些典型的重复序列。移动元件有:以DNA为基础的移动元件(DNA based transposable element)、自主的逆转录转座子(autonomous retrotransposon)、非自主的逆转录转座子(non autonomous retrotransposon)等。科学家们通过分析人类基因组,发现四种主要的重复元件覆盖了43%的人类基因组,这四种重复元件包括短散布序列(SINEs)、长散布序列(LINEs)、长末端重复元件(LTR elements)以及DNA转座子。除此之外,在基因组序列中还有各种顺式转录调控元件,如启动子、增强子、沉默子等,也都属于非编码序列。
我们知道基因组有GC碱基含量相对较高的区域和AT含量较高的区域,然而,是什么使得基因组中GC/AT比值不调和仍然是一个未被解答的问题。我们所了解的事实是:在基因组中富含GC碱基的区域,其基因密度较大且内含子的平均尺寸较小。
虽然对97%的非编码区的含义和作用人们还不清楚,但是,从生物进化的观点来看,这部分序列肯定具有重要的生物学功能。人类是大自然完美的创造物,难以想象在人类基因组中存在那么多无用的东西。目前对非编码区普遍的认识是,它们与基因在四维时空的表达调控有关,即控制各个基因在什么时间、在生物体的什么部位表达。基因的表达调控必定存在着一套严格的规律,这些规律有待我们去探索、发现。我们确实也了解一小部分非编码区域,如,与基因转录和翻译有关的调控区,像基因的启动子、增强子等。
内含子自1977年被发现以来,逐渐被明确地定义为:基因中间插着的若干段序列,在RNA转录物水平上经剪接除去,不参与该基因在蛋白质水平上的表达。那么,内含子是如何来的?内含子的存在究竟有何意义?它担负着什么样的功能?内含子又何以能在一些真核生物中非常广泛地分布呢?关于内含子起源的问题,还没有确定的说法。一直有两种假说。一种假说认为,内含子与它所在的基因一样古老,在装配第一个这样的基因时,内含子就已存在。早期的内含子具有自催化、自我复制等能力,因此,它们是原始基因和基因组的组织与复制必不可少的部分。而今天的原核生物和少数低等的真核生物,由于它们需要进行快速的DNA复制从而进行快速的细胞分裂,因而失去了内含子。现代的内含子是一类进化遗迹,它们之所以能继续存在,是因为具有重新组合基因组中的外显子以形成新的基因的能力,即内含子能赋予其携带者更大的进化潜力。另一种假说认为,内含子不是基因原有的,而是在进化的某一过程中通过转座作用插入到连续基因中去的,内含子在较高级的功能基因或在真核生物出现之后才产生。这种假说必须面对一个难题,即内含子最初如何能插入到连续编码的基因中而保持基因的功能不变?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-1-19 02:20 , Processed in 0.096835 second(s), 20 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表