垃圾的逆袭

“垃圾DNA完全有可能在某些复杂遗传调控机制的快速进化中起着极其重要的作用,而这些作用对高等生物是不可缺少的。”
   
    ——— Francis crick (DNA之父,中心法则的创立者)

1972年,加州理工学院的大野乾(Susumu Ohno)提出了一个假说。他认为哺乳类动物的基因不可能超过三万个。理由相当的简单,基因越多,任意一个基因发生突变的概率就越大,而绝大多数突变是有害的。在大野乾的模型中,超过三万个基因的哺乳动物,纯粹是自取灭亡。然而,相对于当时已知的哺乳类动物基因组的大小而言,三万个基因实在是太少大量的不用来编码蛋白质的DNA序列,则被他称为垃圾DNA。

 

不过,这个词要进入大众文化,还得等待数十年。毕竟,那时候连DNA这个词都还相当的专业,但到DNA的双链双螺旋出现在2000年悉尼奥运会上时,我们必须承认DNA已经成为流行文化中的一个元素。正是在2000年前后,对人类基因组草图的初步分析显示,人类拥有的基因数量最多不超过三万五,这个数字很快下降到两万左右,而不是此前被广泛看好的五万到十万个,这意味着一个人甚至比一颗水稻所拥有的基因都要少,这样劲爆的发现,立刻震动了新闻界。相对于人类所拥有的30亿碱基对而言,两万个基因实在是太少,大野乾发明的垃圾DNA这个词迅即从各个渠道进入关注者的视线。

人类基因组中,垃圾DNA的泛滥程度,常见的类比是,就像一个仅两分钟的电视节目内,竟然被丧心病狂的插入了总长达九十八分钟的广告。如今,时隔约十年后,垃圾DNA一词再次登上各大报纸头版。不过,这次对于广告部是个好消息,因为研究这些垃圾DNA长达十年的422位科学家说,如果没有这九十八分钟的广告,你就休想看到那两分钟的精彩节目。要想对人类基因组研究中爆出的轰动性新闻,有所理解,我们或许需要回顾一下关于DNA和蛋白质的历史。

 在很早很早以前,当人们进入生命的分子世界中时,他们很快遇到了两类分子量巨大的物质————核酸和蛋白质。由于某种未知的原因,对核酸(DNA)进行的初步分析显示,这似乎是个相当无趣的线状分子,它仅仅由四种基本配件组装而成,而且每种配件的需要量都是完全相同的,这就意味着它的组装,很可能是一个高度规律的无聊过程,比如类似ATCG这样的即冗长又单调的循环,大多数研究者就此失去了对DNA的兴趣。而蛋白质则完全不同,它由大约20种配件组装,并且使用多少种类和数量的配件也没有任何限制,这就意味着,即便是仅仅10个配件长度的一小段蛋白质,其可能的种类也高达惊人的10的20次方。同时,人们也发现,正是蛋白质提供了发酵所需的催化活性,如果没有相关的蛋白质来加速化学反应,葡萄糖在我们的细胞里得需要一千年的时光才能被彻底氧化。人们对生命的分子世界了解得越多,就越发现蛋白质的重要性,因为,生命赖以存在的根基正是环环相扣的化学反应,而这颗星球上最杰出的化工厂的产品正是千姿百态的生命本身。

但是蛋白质这个生命世界中唯一主角的光环下,始终存在一个幽灵般的阴影。蛋白质解释不了它自己的来源,蛋白质如何复制它自己?要知道蛋白质的能力依赖于它复杂的形状,但成也萧何败也萧何,没有人能提出一个至少看起来合理的复制蛋白质复杂形状的机制。蛋白质如果不能代代相传,那我们怎么才能种瓜得瓜种豆得豆呢?这个恼人的问题,不知让多少人白头。

也许是时机已经成熟,有机化学家查戈夫(chargaff)再次研究了DNA,他发现组成DNA的四种配件的数量并不需要全都相等,只需要A=T和C=G即可,这被称为查戈夫规则。这个新发现,帮助crick和watson破解了DNA结构的奥妙。基于DNA的结构和查戈夫规则(碱基配对),DNA就可以通过一个异常简洁的机制,复制它自己,而这正是蛋白质做不到,但同时要求任何一种候选的遗传物质必须能做到的事。自此,DNA正式登上了和蛋白质争霸的道路,十五年后,大多数行业内人员,承认DNA是遗传物质,蛋白质作为生命世界中唯一主角的历史就此宣告结束。在随后的岁月中,生命世界进入双主角时代,DNA负责储存如何建造蛋白质的信息,并通过自身的复制将此信息代代相传,同时蛋白质的重要性并没有因此受到任何冲击,随后的研究表明,正是蛋白质肩负着保证DNA代代相传的重任,由此产生了生命分子世界中的鸡和蛋的问题,不过,那是另外一个故事了。总之,在种种因缘际会之下,DNA和蛋白质在生命的源头处结成同盟后,就如同传说中的双剑合璧。DNA保存着构建蛋白质的蓝图,蛋白质则肩负起让DNA传代的使命。我们身处的这颗宇宙微尘,就此进入了一场生命的奥林匹克游戏,在这个传代的竞赛中,产生了出了一些拥有更长的DNA、更多种类的蛋白质,并且更复杂的生命形式,最终它们甚至创造出了一种能够理解生命本身乃至给宇宙赋予意义的‘终极’生命。

这种将DNA视作蛋白质信息仓库的单纯想法,在研究原核生物时,没有遇到什么障碍。原核生物的DNA堪称简洁高效的典范,它基本上没有什么可以被误会的多余序列。每一段序列的功能都相当明了,它们要么是基因要么是控制基因表达的管理序列。甚至为了高效完成特定任务,原核生物的DNA中功能相关的基因会排列整齐,并共用同一个管理序列,这样可以确保相关的蛋白质信息会被细胞同时转录和翻译出来。因为对于一条化工流水线而言,少了任何一种蛋白质,这条流水线就只能陷入瘫痪的境地。从管理的高效性和成本上考虑,这些蛋白质应该被同时制造出来,或者干脆一种都不要制造,免得浪费有限的资源和能量。在原核生物上取得的一系列重大成就,更加固化了关于DNA和蛋白质关系的观念。直到人们开始研究真核生物,才发现对于大肠杆菌合适的,对于大象也合适的格言,仅仅是一个美好的愿望。

和真核生物DNA的初次接触,就迎来了一个下马威。研究发现,真核生物中的大多数基因的信息排列是不连续的,而是像电视连续剧般,中间插播了若干广告。细胞将相关的基因转录完成后,必须将这些多余的广告剪掉并拼接好其余部分,才能得到一个最终用来指导蛋白质合成的信息。这种奇特的现象,立刻引来相关学科的关注,如何理解那些被剪切的“多余”序列?难道它们就是早有传言的自私的DNA,只顾自己传代,对细胞毫无用处的自私的DNA或者DNA序列级别的寄生虫?种种猜测,直到人们发现,广告有时候会成为连续剧中的情节,而情节也有可能成为广告,才算是得到初步解决,至少这些镶嵌在基因中的序列是有用的,传统因此得到维护。然而,真正麻烦的是,真核生物的DNA总大小与及其所含有的基因数量和生物体的复杂性之间没有明显的关系,这个现象被称为DNA的C值和G值矛盾。在这里,DNA大小、基因数量、生物复杂性之间的简单正比关系,开始消失。比如虽然我们的基因数量比水稻少,但恐怕没有人会认为水稻是一种比人类还复杂的生物。一句话,对于真核生物基因组的研究越多,我们的问题也就越多。但无论如何,DNA仅仅是蛋白质信息仓库的观念,在真核生物的世界中,遇到的问题越来越多。

如果DNA远不止蛋白质信息仓库这么简单,那使用是否编码了蛋白质这样的标准,来判断一段序列是有用还是垃圾,就显得十分荒唐。我们不妨来看一个实例,手对于人之为人的重要性是不言而喻的,手的演化长时期来被公认为,人类演化路上的关键性事件。2011年,一篇发表在顶级学术期刊《细胞》上的论文指出,影响我们四肢形成的遗传机制中,传统的编码蛋白质的基因仅在其中发挥了次要作用,真正对手指形成起决定性作用的是7个垃圾DNA片段,通过形成相当独特的涡轮式的折叠形状,控制着相关基因的表达活性,当这些垃圾DNA片段发生突变,能直接影响手指的长短和数量。事实上,在行业内垃圾DNA这个词基本上已经被放弃,代之以更中性的非编码DNA这样的名称,当然,从新闻的角度看,它没有垃圾DNA那么吸引人,显得十分学究气。

但最近的大量新发现,告诉我们要么彻底革新基因这个概念,抛弃它和蛋白质间的简单联系,要么彻底抛弃垃圾DNA这个词,因为它存在明显的误导。无论是在人类的基因组中还是在任何别的生物的基因组中,当然可能存在一些毫无功能的DNA序列,但即便如此,也无需特意的用垃圾DNA一词来描述它们,因为这个词有着蛋白质唯我独尊的陈腐味道。

让我们用,1994年,哈佛大学的沃尔特?吉尔伯特博士回应时代杂志记者的采访来结束本文。“我不相信关于垃圾DNA的说法,我一直认为所有的信息都包含在编码区之内的观点是浅薄的,这反应了蛋白质化学家对待DNA的偏见。编码区可能产生化学家们所重视的蛋白质,但是,真正的生物学家们知道,对于这些蛋白质的大部分的精密控制都是在幕后发生的,存在于非编码的‘垃圾’区域内。”

(本文转载自健康中国人网)

~~~欢迎转发~~~

!!!转载请联系我们获取授权!!!