设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1646|回复: 1

分子进化

[复制链接]
发表于 2011-5-11 00:55:07 | 显示全部楼层 |阅读模式
自然选择检验方法iHS的原理及其使用,有人会吗?它需要准备什么样格式的文件,我怎么也看不懂英语文献说的
发表于 2011-5-11 14:08:27 | 显示全部楼层
检验分子水平自然选择的方法

在选择主义与中性主义的争论中,中性理论提出了很多的假设,其中的许多涉及到群体内等位基因频率分布,以及种内-种间遗传变异的关系。因此,可以利用统计学模型来验证中性学说的正确性,即把中性理论作为统计学检验的零假设(null hypothesis),非中性选择作为选择性假设(alternative hypothesis),如果这个零假设被显著地拒绝(significantly rejected),那么中性假设将被认为是不合适的(Kimura and Ohta 1971)。
关于在分子水平验证选择的方法,Garrigan和Hedrick(2003)认为可以按照种群的当前世代,种群的短期历史和物种的长期演化历史三种时间尺度来划分为三类。然而,选择是一个长期作用的过程,种群的当前世代体现出来的临时状态无法真实反映选择的作用;并且这种时间尺度的划分也不利于寻找种内-种间遗传变异所反映的选择信号。Nielsen(2005)则把选择检验分为群体遗传学检验(population genetic approaches)和比较数据检验(comparative data approaches)。Biswas和Akey(2006)从基因组学的角度出发,将选择检验的方法分为种内多态性,种内多态性与种间分歧,和种间检验三类。事实上,不论如何划分,不同的检验方法都有不同的数据类型作为检验对象。因此,在这篇综述里我将按照数据类型的不同对目前常用的统计检验方法进行整理和归纳。

(1)基于群体内等位基因频率分布的中性检验
在核酸的碱基测序时代之前,群体遗传多样性的研究手段主要是对遗传标记的电泳图谱进行分析,其中等位基因的杂合度(allele heterozygosity)曾经是一个普遍用于描述遗传多样性的指标。以某单一等位基因位点为例,在一个个体数为1000的群体里,如果其中50个个体在该位点是杂合子,那么我们可以简单地把(Ho)=50/1000=0.05作为该位点的表观杂合度;说明该种群在以这个位点为遗传标记时得到的遗传多样性程度不高,即仍有95%的个体是纯合子。这种评估方式适用于小片段的蛋白质或核酸序列(如几十或者几百个氨基酸或碱基),但不适用于较长片段的研究。事实上,在自然状态下,核酸水平上的变异是比较丰富的,尤其从大片段的尺度来看。例如比较两条长度为10,000 bp的等位基因,如此长度的序列几乎可以肯定他们是杂合的,因为序列越长,里面的变异越丰富,那么可以想象该位点在群体里杂合度Ho接近1。因此,在对核酸序列进行群体遗传多样性分析时,考虑两条序列间存在多少差异所获得的遗传多样性信息要远远大于判断他们是纯合子还是杂合子(Li 1997)。
在后来发展起来的群体遗传学研究中,有三个重要指标被运用于评估核酸遗传多样性(Nei 1987; Li 1997)。第一个是∏,即将所研究群体的所有核酸序列中任意两条不同序列的碱基差异数取平均值;这个指标对等位基因频率依赖很大。第二个是K,即分离位点数(number of segregating sites),现在也被称为SNP(single nucleotide polymorphism),是指所有序列排列比对后存在变异的碱基位点数目;这个指标依赖于等位基因数目而与等位基因频率无关。第三个是Na,即等位基因数(number of alleles)。此外,有一个非常关键的反映种群动态的参数θ将以上三个指标在数学上联系起来;这里θ=4Neμ,其中Ne为有效种群大小,μ为每一代的序列突变率(Watterson 1975; Tajima 1983)。有两种公认的θ估值,一个是Watterson估值(Watterson’s estimator, θW),把θ与K联系起来,即θW=K/a,其中a=[1+1/2+1/3+ ??? +1/(n–1)](Watterson 1975);另一个是Tajima估值(Tajima’s estimator, θT),即θT=∏(Tajima 1983)。从理论上说,在中性条件下,应当有θT=θW=4Neμ的平衡状态。因此,Tajima(1989)设计了D值检验(Tajima’s D),即D=[(θT–θW)/Var(θT–θW)],通过统计学模型来验证中性突变假说。
Tajima’s D值检验的作用原理是(Tajima 1989):在原有的平衡状态中(θT=θW=4Neμ),所以D=0。但是,如果群体中存在许多低频率的等位基因(稀有等位基因),可以期望K/a不断增大而∏并未受到严重影响,因为后者主要是由高频率等位基因决定的。于是有θT<θW,则D<0。相反,当群体中是中等频率的等位基因占主导时,可以期望∏增大而K/a不受影响;这时θT>θW,D>0。Tajima(1989)把过多低频率等位基因的存在归咎为定向选择时,选择性清除下选择性清除会削弱原有等位基因的在群体中的频率,而使新等位基因以低频率补充进来成为稀有等位基因。相反,如果是中等频率的等位基因占主导,则可能是平衡选择的结果,或者是种群大小在经历瓶颈时使稀有等位基因丢失。因此,当Tajima’s D显著大于0时,可用于推断瓶颈效应和平衡选择;当Tajima’s D显著小于0时,可用于推断群体规模放大和定向选择。由于平衡选择与定向选择都属于正选择的范畴,因此,只要D值显著背离0,就可能是自然选择的结果;而当D值不显著背离0时,则中性零假说则不能被排除。
之后,Fu和Li(1993)提出了与Tajima’s D略为不同的方法来检验中性进化,即Fu and Li’s D & F test。他们考虑的是可以获得外类群的情况,因而对一组给定的等位基因序列可以构建一颗有根树。在这棵树上,总突变数为y,内部分枝突变数为yi,外部分枝的突变数目为ye,则y=yi+ye。这里y和ye的数学期望值分别为E(y)=a*θ,E(ye)= θ,其中a=[1+1/2+1/3+ ??? +1/(n–1)]。如果发生了选择作用,那么外部分枝突变数将会偏离期望值,而内部分枝突变数并未受到严重影响。因此,可根据与Tajima’s D类似的策略,构建统计模型来验证中性零假说。此外,Fay和Wu(2000)构建了H检验(Fay and Wu’s H test),用以测试高频率变异与中等频率变异的差异。他们认为在中性占主流的状态下,并不期望会出现很多高频率的变异,因而仅仅根据少数存在的高频率的变异就可以推断“搭车效应”。在果蝇的一些低频重组的区域中,H检验观察到了许多高频率变异,因此,Fay和Wu(2000)推断果蝇中的这些高频变异可能是由于“搭车效应”时正选择保留了有利变异并使其以高频率在群体中存在。
到目前为止,Tajima’s D,Fu and Li’s D & F test和Fay and Wu’s H test,可能是针对群体内的等位基因频率被运用得最广泛的中性检验模型(Nielsen 2005)。

(2)基于连锁不平衡的中性检验
这里面首先涉及的参数是等位基因频率(allele frequency),基因型频率(genotype frequency)和单倍型频率(haplotype frequency)。在无视连锁的情况下,最简单的单一位点模型是“哈迪–温伯格平衡”(Hardy–Weinberg equilibrium)模式。假设在单一位点上有两种等位基因A和a,那么该群体存在三种基因型:AA,Aa和aa。如果用p表示A的等位基因频率,q表示a的等位基因频率,那么在经典的Mendel的基因分离定律和独立分配定律下,p2为AA的基因型频率,2pq为Aa的基因型频率,q2为aa的基因型频率,则有p2+2pq + q2=1。哈迪–温伯格平衡模式认为(Hardy 1908; Weinberg 1908),对于一个理想群体,即无穷大的随机交配且没有任何进化压力的群体,基因型频率将以p2,2pq和q2的比例存在于随机交配后的各代中,等位基因频率不会逐代发生改变,故而这个基因座位的基因库不会发生进化。
事实上,当两对性状或者考虑两个等位基因座位时,我们必须考虑有可能的连锁和重组现象。假设研究对象为两个基因座位A和B,每个座位上的等位基因分别是A1和A2,B1和B2,那么用x来表示四种单倍型的频率:
A1B1:x11     
A1B2: x12            
A2B1: x21            
A2B2: x22              
而每一个等位基因的频率表示为:
    A1: p1 = x11 + x12
A2 :p2 = x21 + x22
B1: q1 = x11 + x21
B2: q2 = x12 + x22
假设两个座位上的等位基因是自由地独立地分配到后代中去,那么以A1B1为例,我们可以期望x11 (e)= p1q1。这时单倍型频率的观察值x11 (o)与期望值x11 (e)之间的差异,就可以用来反映连锁不平衡(linkage disequilibrium, LD):D= x11 (o) – p1q1。
连锁平衡(linkage equilibrium, LE)指的就是这种两个座位上的等位基因是自由地独立地分配到后代中去的现象,A与B的组合是完全随机的,因此有D=0,即LD为零的状态。我们其实可以把LE看作是双位点版本的“哈迪–温伯格平衡”,只不过这里是单倍型频率而不是基因型频率。当D≠0时,观察值与期望值不符,我们就说这两个等位基因处于连锁不平衡状态。
事实上,重组能打断连锁关系而使在很多代以后LD趋向于0。假设c(0<c<1)为两位点间的充重组率,则在第二代时A1B1的单倍型频率为:
x'11=(1–c)x11+c p1q1,也可以写成 x'11–p1q1=(1–c) (x11–p1q1),即 D1=(1–c)D0。扩展到第n代时,有Dn=(1–c)nD0。如果n趋向于+∞,则(1–c)n趋向于0,这时Dn=0。如果两位点在物理距离上越接近,连锁越紧密,被重组的可能性就越低,则Dn→0的速率就越慢。
在前面提到的“搭车效应”中,当一个有利突变开始产生时,它是处于完全LD状态的,即可视为与其构成单倍型的所有基因完全连锁,而其他单倍型因为不存在这个突变而被选择性清除所消灭(Ennis 2007)。因此,搭车效应,正选择,选择性清除,连锁不平衡,基因重组以及群体结构相联系组成了一种情况极为复杂的局面,使得基于LD检验统计模型的设计成为一个难度极高的挑战。尽管如此,近几年,已经发展出了一些检验方法用于检测与LD相关联的自然选择,包括LRH test(Sabeti et al. 2002),iHS test (Voight et al. 2006),LDD test (Wang et al. 2006)等。然而,这些检验效力如何,还需要更多的研究结果来提供证据。

(3)基于种群分化的检验
Wright(1931)首先给出了群体遗传分化系数Fst的计算公式,用以评估亚群体的分化程度。Cavalli-Sforza(1966)认为自然选择可能会对群体亚分化形成贡献,因此首次建议用群体间的分化程度来推断自然选择的作用。随后,基于这一想法,大致有两种类型的方法被用于自然选择的测试。一种是Lewontin-Krakauer test(Lewontin and Krakauer 1973),其作用原理是:群体间的基因流(gene flow)会使大多数位点形成较为平均的遗传分化程度,除了一些明显的异常值(outliers)。大体上,这些异常值可以反映两个方向上的选择:适应性选择能在某些位点上产生异常的高水平遗传分化,而平衡选择则有可能产生低于平均水平的遗传分化。因此,从异常位点与正常位点的遗传分化程度的比较可以推断自然选择。然而,最初的这种Lewontin-Krakauer test被Nei和Maruyama(1975)以及Robertson(1975)所批评,认为在许多群体模型中,该检验中Fst的期望方差无效。尽管如此,这种思想近年来有逐渐抬头的势态,尤其在运用到基因组大尺度数据的时候。例如Akey等(2002)在基因组尺度对人类不同群体的Fst进行了测算推断其中的选择作用;Beaumont与他的同事(Beaumont and Nichols 1996; Beaumont and Balding 2004)则设计了更为复杂的统计学模型来检测群体亚分化水平上的异常基因位点。另一种方法是检测不同位点在不同种群中的杂合度水平。例如Schlotterer等(1997)和Schlotterer(2002)认为在不同种群中通过比较多位点的杂合度,可以把选择的作用和种群统计学效应区分开来。两个不同群体大小的种群,小种群在基因组上的期望变异水平都应低于大种群。但是受到选择的单位点的变异程度则可能会比基因组水平的差异更低。因此,把群体结构与多个单位点变异联合考虑,则可能推断出基因组上的哪些区域有可能受到了选择。以上的基于种群分化的检验尽管还没有得到非常普及地应用,但事实上,最近的一些研究表明(Nielsen 2005),“选择性清除”会强烈地影响群体的亚分化水平,尤其是当“选择性清除”没有来得及涉及到所有研究群体的时候,这种作用更明显。因此,基于群体分化程度来寻找自然选择的信号,仍然是一种可行的思路。

(4)基于种内多态性和种间分歧度之间数据比较的检验
中性理论预言,在中性状态下,种内多态性(intraspecific polymorphism)与种间分歧度(interspecific divergence)之间呈正相关。基于这种预测,有两种检验方法先后被提出,分别是Hudson–Kreitman–Aguade (HKA) test和McDonald-Kreitman (MK) test。
HKA检验认为(Hudson et al. 1987),在中性状态下,对于不同的基因或者基因位点而言,即使他们之间的变异程度不同,但他们各自的种内多态性与种间分歧度之间的比率将是相同的。例如,组蛋白基因(histone)是一个相当保守的基因,突变率很低,因此组蛋白基因种内多态性程度很低,其种间变异度也很低。而对于某些非编码序列来说,其突变率很高,不论在种内种间都体现了很高的变异水平。但是,在中性条件下,不论对于组蛋白基因还是非编码序列,他们的种内多态性与种间分歧度之间的比率将是相当的。如果自然选择发生了作用,那么受选择的基因,其种内多态性与种间分歧度之间的比率将偏离中性状态下的期望值。因此,通过同时比较两个或者多个基因各自的种内多态性与种间分歧度之比,HKA检验可以检测到自然选择的作用。
但是,HKA的一个很大的限制就是所研究的基因或者基因位点之间必须是相互独立的,即不存在连锁关系。因为一些研究发现,连锁位点所受到的选择作用,影响的是种内多态性而不是种间的分歧度水平(Maynard-Smith and Haigh 1974; Birky and Walsh 1988),因此,除了选择作用之外,任何非中性的影响(如搭车效应或选择性清除)都会使种内多态性偏离期望值。也就是说,HKA所检测到的自然选择信号,有可能是所研究位点受到了选择,也有可能是与其连锁的位点受到了选择而通过某些非中性效应使所研究位点多态性发生了变化,尽管所研究位点仍然是遵循中性进化的。
随后发展起来的MK检验则避免了多基因或者多位点有可能存在的连锁效应所带来的假阳性信号。MK检验的基本原理是(McDonald and Kreitman 1991):仅仅考查某一基因分别在种内和种间的非同义(nonsynonymous)与同义突变(synonymous)的比值。具体而言,针对A与B这两个近缘物种,我们把基因G在这两个物种里能发现的所有等位基因进行汇总和排列比对后,关注其中存在变异的核苷酸替换位点而忽略无变异位点,即关注分离位点(segregating sites)或SNP(single nucleotide polymorphism)位点。在这些所有的变异位点中,假设某一位点如果在来自物种A的所有等位基因里都是碱基C,而在来自物种B的所有等位基因里都是碱基T,那么针对A与B这两个近缘物种而言,这个变异位点我们定义为被固定的替换位点(fixed substitution site);其余的变异位点称为多态性位点(polymorphic site)。如果用Sf,Nf,Sp和Np分别表示固定同义位点数,固定非同义位点数,多态同义位点数和多态非同义位点数(其中S代表synonymous,N代表nonsynonymous,f代表fixed,p代表polymorphic),那么在中性状态下,应当有Nf:Sf = Np:Sp。对应这四个参数的2×2列联表可以用χ2分布或者Fisher精准检验来验证零假设。一个显著高于Np:Sp的Nf :Sf比率意味着两个物种之间的某些非同义替换是由正选择引起的;如果Nf:Sf显著地低于Np:Sp,就意味着负选择降低了两个物种间的非同义替换数目。

(5)基于编码序列的比对中非同义与同义突变的比值
Kimura(1977)最先提出,在蛋白质编码基因中,每非同义位点的非同义替换数(dN)小于每同义位点的同义替换数(dS)。因为中性主义预言,在蛋白质编码区,大多数非同义突变造成的氨基酸变异会破坏蛋白质原有功能,因此发生在蛋白质编码区的大多数非同义突变都被视为有害突变而在固定过程中被净化选择所消灭;而同义突变由于不造成氨基酸改变,因此被认为是中性或近中性的而被随机遗传漂变所固定。所以,在固定后体现出来的替换数的差异上,将会有dN < dS。同理,如果没有任何选择作用,即所有突变都是中性或者近中性的,则会有dN = dS。所以,中性主义并没有排斥负选择(净化选择),当dN ≤ dS时,可以认为大多数“被固定下来的突变”是中性或近中性的。相反,如果观察到dN > dS,则认为非同义突变是有利突变而被正选择所固定。因此,考察比值dN:dS(也写为KA:KS)是否大于、小于或者等于1,成为了检测编码序列自然选择作用的有力工具。
以上五类是目前较为常用的在分子水平检测自然选择作用的方法,其统计学原理均以中性假设作为检验的零假设,当中性零假设被显著地拒绝时,则认为检测到了自然选择的信号。近年也发展了一些新的检验方法,但大多都是基于以上五类方法的改进或修正。当然,过去也曾有一些较为独立的其它方法,但是现在已经用得不多(Kreitman 2000)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-3-2 01:58 , Processed in 0.100530 second(s), 23 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表