设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1138|回复: 0

关于HGT的分析方法

[复制链接]
发表于 2011-3-25 15:22:34 | 显示全部楼层 |阅读模式
由于工作原因,HGT最近开始来找我麻烦了,一开始接触的时候感觉有点懵,后来交往下之下,发现还有点意思,特此写下个人心得一篇。          Horizontal gene transfer (HGT),有时候也称作later gene transfer (LGT),中文名叫做基因水平转移,讲述的是不同的物种间基因片段交流的故事,大多发生在宿原与宿主之间,是许多微生物进化的一种重要手段。相关的背景知识可以参见google或者baidu,此处不再赘述,但是个人推荐google英文搜索,至于原因,你懂的…… 下面还是来说一下通过何种手段来找到这种HGT的现象吧。
      首先假设你要找宿原A与宿主B之间的HGT现象,注意这里的主动者是宿原A,那么请准备好A和B的所有蛋白集,同时准备好与A近缘的相关物种(C、D、E、F ……)的所有蛋白集,材料就这么多了,下面开始操作:
      (1). 将A的蛋白集(proA,以此类推)分别与proB、proC、proD、proE、proF进行blast m8比对,设置E-value参数为1e-20(E-value值可以根据自己的需求来调整),得到结果*.blast.m8
      (2). 分别对(1)中的*.blast.m8结果针对每个proA的蛋白挑选一个最好的比对结果,得到*.blast.m8.besthit
      (3). 将所有的*.besthit文件合并为all.blast.m8.besthit
      (4). 然后根据第一列的query protein id(QP id)进行排序,生成*.besthit.sort文件
      (5). 然后将*.sort文件中的QP id和第二列的reference protein id(RP id)提取出来,每个QP id单独作为一个cluster,筛选出含有B protein的cluster
      (6). 针对每个cluster中的所有蛋白序列进行多序列比对,多序列比对可以使用clustalW或者MUSCLE,个人在此选择的是MUSCLE
      (7). 对多序列比对的结果进行处理,提取保守区域的比对情况,这里使用的软件是Gblocks
      (8). 根据保守区域的比对结果来构建进化树,构建进化树的软件有许多,比如PHYLIP、PHYML、PAUP、MAGE、TREEBEST …… 这里我选用的有两种:PHYML和TREEBEST。TREEBEST是根据cds的比对结果来构建进化树的,如果你选用这个软件的话,那你就还需要收集相关物种的cds集合,并将蛋白比对的结果转化为cds的比对结果。PHYML既可以根据蛋白的比对结果来构建进化树,也可以根据cds的比对结果来构建进化树,但是输入的比对格式必须是phylip格式,因此如果你的比对结果是fa格式的话,你还需要简单的处理下。这里边需要注意的参数主要有初始的进化关系和bootstrap值,关于具体的事项还请参照构建进化树的相关知识。
      (9). 最后一步就是根据构建的进化关系来进行筛选得到HGT了,将那些在一个分支上的A和B的蛋白提取出来,这些蛋白就是发生了HGT现象的蛋白。
     最后得到的HGT的蛋白集合只是一个候选集,可能由于蛋白集的不完善,造成一些错误,而且用蛋白比对结果和cds比对结果构建的进化树,最终得到的HGT集合差异甚大。相关文献上都是采用的蛋白比对结果来构建的进化树,可能是希望集合尽量全吧。

      PS: 如果谁有这方面的需求,或者其他生物信息分析相关的需求可以联系我,价格公道,童叟无欺!QQ:515919455 (请注明缘由)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-2-20 02:57 , Processed in 0.091189 second(s), 20 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表