设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2989|回复: 4

Gene Ontology Annotation总结

[复制链接]
发表于 2011-10-6 00:19:58 | 显示全部楼层 |阅读模式
GOA的一般步骤总结一下(针对大规模的数据):

1.测序文件的预处理,如果你的数据是已经处理好的cdna文库数据(或者蛋白序列),那这一步就没有必要了。
1.1 Convert chromat file to phd file (phred)
1.2 Convert  phd file to  fasta file (phd2fasta)
1.3 Screen out the vector sequences (cross_match)
1.4 Remove PolyA tail(PloyAmasker.pl)
1.5 Remove LOR below 100 (SeqCounter.pl)
1.6 Cluster and assemble (CAP3)
[其中PloyAmasker.pl和SeqCounter.pl为自己写的脚本,其他4个程序需要Google,有的需要跟程序作者Email索取]

2.blastX(如果是蛋白序列,当然是blastp了,用InterProScan的暂时还没有时间去尝试)
2.1 下载nr蛋白库(约3.5G),或者UniProt.Swiss(约170M)、Uniprot.TrEMBL(约2.5G),看你自己需要了。
2.2 构建本地BLAST服务器,并格式化数据库(formatdb)
2.3 选择合适的参数,执行blastx(blastall)
2.4 解析blast,获得命中的序列AC#(bioperl模块Bio:SerchIO)

3.将命中的序列AC#转换成序列ID.
很简单,关联一下就可以,需要下载的文件:
ftp://ftp.pir.georgetown.edu/pir_databases/nref/NREF2ids.dat.gz
解压后约124M.

4.用序列ID查询GO assocdb,获得GO term及raw annotation.
http://archive.geneontology.org/ ... YMM-assocdb-data.gz
以上的YYYYMM指六位年月,解压后约3.3G.
需要导入MySQL查询(我目前的薄弱环节).

5.GOA的后处理及Goslim的生成,结果汇总。
5.1 根据需要,可以生成human readable and computer minable go annotation,为了方便,宜最少生成两个文件,一个按序列输出,使得做实验的人知道那一条序列的GOA,另外一个文件按GOID输出,使得实验人员知道哪一个GO term下有那些序列(GoAnna_tail.pl)
5.2 根据goaslim.map及goslim_goa.go给出goslim统计结果(GoAnna_tail.pl)

大致如此了,我尝试过GoPipe,Gofact、Blast2GO,水平达不到,以失败而告终,最后找到了GoAnna,Mississippi State University的AgBase提供的工具(http://www.agbase.msstate.edu/GOAnna.html),只要你提交序列到他们的服务器,GoAnna就可以帮你完成2-4步了,第1步是在去年暑假时完成的,剩下的第5步这个寒假做的,由于基本上是处理GoAnna(巨蜥)的输出结果,所以我就给这个脚本起了个名字叫做GoAnna_tail.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-3-30 05:05 , Processed in 0.099682 second(s), 19 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表