设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 3566|回复: 0

主流的生物信息数据库模型

[复制链接]
发表于 2013-8-16 15:53:39 | 显示全部楼层 |阅读模式
什么是数据库,相关的概念

数据库充斥着生物信息的每个角落,要数清楚这个主题,首先要解释一下,在不同场合下“数据库”的不同含义,主要包含4个方面:
数据库管理系统

数据库管理系统(Database management systems , DBMSs)是管理数据的软件系统,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是数据库的容器,是管理数据库综合软件系统。
数据库模式(Database Schema)

数据库模式指特定数据库的设计,也就是其内容的组织方式,就关系型数据库来说,就是其表、表中的列,以及表之间关系的设计。其可以在不同的数据库管理系统中实现,可以重复使用,构建不同的数据库应用。
基于数据库的网站(Database Web Site)

常被我称为数据库信息系统,其后台以数据库作为支撑,所有信息都存储在数据库中,通过网页提供访问接口,实现对信息的查询管理,构成一个容易交互的信息系统。生物信息领域内常见的如s FlyBase (http://flybase.org) ,ParameciumDB (http://paramecium.cgm.cnrs-gif.fr)等。常说的生物信息数据库资源,也通常指的是该类别的数据库。
数据库(Database)

计算机中,其实任何以某种规则组织在一起的数据集,都可以称为数据库,比如经Formatdb格式化的fasta文件,就是blast程序中所指的数据库。不过许多情况下都使用一个数据库管理系统来组织数据,选择一个数据库管理系统,比如MySQL,设计好表、字段建立数据库模式,再将相关的数据存放进来,就是一个标准的数据库。
生物信息学中数据库模式

对于一个数据库,数据库管理系统是现成的,关键是学习如何使用,而对于业务本身,最为关键的就是数据库模式的设计,然后才是按照这种方式来组织数据,访问数据。数据库模式的设计关系到数据库的可扩展性,可维护性,设计的不会有时会非常影响数据库性能。所以其要符合相关的范式标准。
生物信息学领域,许多问题存在共性,比如基因组数据库,我们如何来考虑诸多的数据,包括数据的各种属性,数据之间的关联设计出符合关系数据库范式的模式来,是个很有挑战的事情,即便你是数据库专家,有是生物信息方面的专家。不过这样的问题,已经有人给我们解决了,并且经过了很多的实践,模式得到检验,也开发出了很多操作这些数据库的工具,比如将不同格式的数据导入到数据库中。
综合的数据库模式

Chado

GMOD旗下,访问地址http://www.gmod.org/wiki/Chado,使用  Postgres 数据库管理系统。主要包括的模块:



  • Audit – for database audits 审计
  • Companalysis – for data from computational analysis 数据分析
  • Contact – for people, groups, and organizations 联系人、组、机构
  • Controlled Vocabulary (cv) – for controlled vocabularies and ontologies 受控词汇与基因本体
  • Expression – for summaries of RNA and protein expresssion 基因表达
  • General – for identifiers 基因功能鉴定
  • Genetic – for genetic data and genotypes 基因型
  • Library – for descriptions of molecular libraries 基因文库
  • Mage – for microarray data 芯片数据
  • Map – for maps without sequence 图谱
  • Organism – for taxonomic data 物种分类数据
  • Phenotype – for phenotypic data 表型数据
  • Phylogeny – for organisms and phylogenetic trees 系统发育树
  • Publication (pub) – for publications and references 文献
  • Sequence – for sequences and sequence features 序列及其shujkctions 组织样本资源
  • WWW -
BioSQL

主页 [url=http://biosql.org/wiki/Main_Page]http://biosql.org/wiki/Main_Page[/url] ,支持MySQL, PostgreSQL, Oracle, HSQLDB等。
BioSQL is a generic relational model covering sequences, features, sequence and feature annotation, a reference taxonomy, and ontologies (or controlled vocabularies).
包含的模块:



  • Sequence 序列
  • Sequence annotation 序列注释
  • Phylogeny 系统发育
  • Publications 文献
ensembl

详细说明参见:http://www.ensembl.org/info/docs/api/funcgen/funcgen_schema.html

主流的生物信息数据库模型


领域内的数据库模式





  • GFF数据库,主要用于GBrowse


    • Bio::DB::GFF
    • Bio::DB::SeqFeature
      
  • GO Gene Ontology 基因本体论数据库,适合对于基因进行GO分类与统计;
  • Taxonomy NCBI的物种分类数据库,可以通过下载的DMP文件,反推得到;
  • PFAM
  • Gene NCBI基因数据库
  • KEGG
  • SRS
  • OBDA http://obda.open-bio.org
  • Pearson Lab databases (seqdb, egads):ftp://ftp.virginia.edu/fastardb/
还有哪些?欢迎添加及其评论。
  
   > 转载自:博耘生物 > 《主流的生物信息数据库模型》
 > 原文链接:http://boyun.sh.cn/bio/?p=1833
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-6-22 20:12 , Processed in 0.113069 second(s), 23 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表