设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 434|回复: 1

北京市计算中心首创生物信息分析一体机

[复制链接]
发表于 2016-7-13 15:11:50 | 显示全部楼层 |阅读模式
北京市计算中心介绍
北京市计算中心成立于1973年,是经北京市计划委员会、北京市科教组批复成立的一所科研服务型事业单位。北京市计算中心高性能计算服务平台拥有服务器近千服务器集群,计算CPU核数达到万核规模,总计算能力200万亿次/每秒,拥有国内领先的超级计算机系统能运行数千个处理器的并行计算程序,各类商业计算软件并行规模国内领先,同时高性能的存储系统裸容量达到1.5PB,拥有专业的技术团队为您使用计算和存储资源提供全方位的支持和服务。基于计算中心云超算平台大力发展生物信息分析领域,自主创新“宝创生信生物信息分析一体机”(以下简称宝创生信一体机)
宝创生信一体机
北京市计算中心首创生物信息分析一体机
为加速我国基因科学研究的进程,北京市计算中心正式推出“宝创生信生物信息分析一体机”(以下简称宝创生信一体机)。这一产品的问世,将使国内生命科学研究机构能够获得低成本、高效率的基因分析处理平台,更有效的开发和利用我国丰富的基因资源,加速我国基因战略的发展。
基因成为21世纪宝贵战略资源
21世纪是众所公认的生命科学的世纪,基因已经成为一种宝贵的战略资源和财富,是未来国际间竞争的焦点。而在基因研究领域,由生命科学和计算机科学相结合形成的生物信息(bioinformation)学,已经成为揭示大量复杂生物数据潜藏奥秘的支撑性学科之一,其发展关乎基因研究的速度和成果。
数据处理难题制约基因研究
目前,基因测序技术呈现快速发展的势头,第二代测序技术可以一次完成数万至数百万条dna分子的序列测定,使得研究人员在极短时间内对人类基因组进行细致研究成为可能。不过,这也改变了原本基因研究中“测序没有处理快”的局面,大量的测序数据得不到及时处理,严重影响了基因研究进程和成果涌现。造成这一瓶颈的原因,其中既有数据处理平台计算力和计算效率不足的因素,更重要的在于基因测序软件使用门槛较高。
   宝创生信一体机方案底层硬件分为工作站、塔式服务器、机架服务器、集群服务器四种类型。宝创生信一体机整体解决方案为用户定制所需的分析软件,免去了各种软件安装、调试、维护的过程,降低时间成本。中心开发出的BCC-Linux软件系统,优化了计算环境,省去了客户对计算环境的部署,专注于科学问题,定期实现对所有生物信息分析软件和数据库的更新升级。其特色是在本地资源不足时,该系统可切换至计算中心高性能计算平台,完成大型计算。
                              
宝创生信硬件解决方案
我们宝创生信一体机案底层硬件分为工作站,塔式服务器,机架服务器,集群服务器四种类型。其中工作站主要用来进行涉及到GPU运算的任务,塔式和机架服务器用来行使胖节点的功能,提供较大的内存配置,适合于内存密集型的计算任务。集群服务器主要用来进行跨节点的并行计算,对整个运算过程进行加速,并且配备了集群存储和并行文件系统,适合于计算密集型和IO密集型的任务。下面对这四类服务器产品进行简单介绍。
2.1工作站
工作站(见图1),一般支持两路CPU,同时适合进行依赖GPU的相关任务,内存最大可扩展至256G,噪音小适合在放在工作区域,不需要机柜。
图 1 工作站
2.2塔式服务器
塔式服务器(见图2),同工作站类似,支持两路CPU,内存最大可扩展至512G,噪音较小,不需要机柜。
图2 塔式服务器
2.3机架式服务器
机架式服务器(见图3),一般支持4路CPU,内存可扩展至2T,适合于已经有机柜的场景。
图3 机架式服务器
2.4集群服务器
集群服务器解决方案在传统高性能基础(见图4)之上,进行整合,把整个系统放置于一个机柜(见图5),标准配备8个计算节点,共计96核。最大可以扩容至80个计算节点,960核。采用集中式供电、集中式管理、共享散热,实现了整机柜的高密度、高效能、低功耗、易管理、一体化交付等特点,完全满足新型服务器的“绿色、节能、环保、高效”的特点。整个机器占用的空间小,同时噪音也很小。
宝创生信软件解决方案
目前,生物信息分析已服务于数十家企事业单位科研机构,在数据分析工作中,缩短了从产出数据到生成分析报告的时间,大大提升了其科研能力,同时与国内多家科研院所洽谈相关业务,预计会有良好的市场潜力。
自助在线下单系统:
选择个性化服务:
3.1系统软件
提供由计算中心整合的适用于生物计算的BCC-Linux系统平台(用户也可指定其他任何纯净版Linux发行版)。
3.2集群软件
    针对高性能集群服务器,提供RedHat HPC套件(图6)或者ROCKS集群系统(图7)两种解决方案。
图6 RedHat HPC套件软件内容
图7 ROCKS组件内容
3.3生物计算软件列表
我们提供的应用软件涵盖网络开发环境、序列比对、过滤和质控等诸多方面(见表1)。除此以外,我们可以根据用户需求整合更多的应用软件。
                      表1 宝创生信软件列表
网络环境
Mysql, PHP5, Apache,FTP服务器,J2EE
并行计算开发环境
OpenMP,OpenMPI,IntelMPI
编译器
GCC
编程语言
Perl、BioPerl;  R语言, Bioconductor库; python、BioPython; JAVA、BioJava
虚拟化软件
VirtualBox
序列比对
blast+, MUMmer, muscle, clustalw, blat
过滤和质控
FastQC, fastx-toolkit, NGS QC Toolkits
重测序分析
Bwa, SOAP, bowtie(bowtie2), Samtools,  picard-tools,GATK, SnpEff, vcftools, bedtools
转录组分析
Trinity, Oases, tophat, STAR,  cufflinks, RSEM, Express, DEseq, edgeR, HISAT, StringTie, Ballgown
基因家族聚类
OrthoMCL, TribeMCL
ncRNA分析
tRNAscan-SE, RNAMMER, INFERNAL
基因组注释
AUGUSTUS, SNAP, Glimmers, Genewise,  est2genome
功能注释
Blast2GO, Interproscan, PfamScan,  HMMMER
系统发生树构建
fastaTree, mrbayes, phyml, RAxML
全基因组甲基化
BSMAP, BSSeeker
微生物,16S
mothur, qiime
引物设计
primer3_core
可视化展示
JBrowse, Circos,IGV
  
在线数据分析
  
  
Galaxy,网页版blast等
  
3.4分析流程定制服务
除了基础的系统和软件平台,宝创生信还提供常见的分析流程,其中包括转录组分析流程,lncRNA分析流程,全基因组重测序分析流程,宏基因组学测序分析流程,染色质免疫共沉淀测序(ChIP-Seq)分析流程等,用户可以选择不同的流程进行部署。
下面对这几个流程做简单介绍:
3.4.1转录组分析流程
转录组分析(见图8)是指利用第二代高通量测序技术进行cDNA测序,全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。
图8 转录组分析
3.4.2lncRNA分析流程
长链非编码RNA(long noncoding RNA, lncRNA) 指的是长度在200-100000 nt之间的RNA分子。它们不编码蛋白,但参与细胞内多种过程调控。近年来的研究表明,lncRNA参与了X染色体沉默,基因组印记,染色质修饰,转录激活等多种重要的调控过程,lncRNA的这些调控作用也开始引起人们广泛的关注。lncRNA已经成为非编码RNA研究领域的一个热点。
图9lncRNA分析
3.4.3全基因组重测序分析流程
基于新一代测序技术的全基因组重测序是根据已有参考基因组序列的物种进行的不同的个体之间的测序,通过全基因组的重测序的序列与参考基因组进行序列比对,可以检测发现单核苷酸多态性位点(SNP),基因序列变异如:插入和缺失(Indel)和结构变异位点(SV),并且可以通过生物信息学方法对找到的变异进行统计和注释分析。主要应用于对动植物的遗传育种,检测疾病相关联的基因等方面。
图10 全基因组重测序分析流程
3.4.4宏基因组学测序分析流程
宏基因组学(Metagenomics)就是将环境样品中的微生物群落作为一个整体进行研究的学科,对环境中微生物的物种多样性及微生物功能进行研究。与传统微生物个体研究相比,宏基因组学的研究手段是直接从环境样品中提取基因组DNA进行测序分析,主要优势体现在以下几点:(1)对于不能在实验条件下分离培养的微生物,宏基因组学也可以进行研究,从而扩展了微生物的研究范围;(2)引入了宏观生态的研究理念,可以对环境中微生物组成及功能进行整体分析,更加准确的反映出微生物生存的真实状态。
图11 宏基因组分析流程
3.4.5染色质免疫共沉淀测序(ChIP-Seq)分析流程
染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)是研究体内蛋白质与DNA相互作用的有力工具。ChIP-Seq的原理:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
图12 Chip-Seq分析流程
案例展示:
销售及部署方式
销售方式:线上平台下单,在线付款;线下直接签订合同约束合同内容。部署方式:合同签订之日起40个工作日内硬件设备可部署到位。通过我们提供的安装脚本,全自动部署。
联系电话:13311562445

邮箱:946326605@qq.com

售后服务
合同签订之日起1年内服务器远程维护,安装更新软件、数据库,解决问题。(细节问题参考合同约定)合同签订之日起一年内赠送2个免费参加北京市计算中心生物信息培训名额,学习服务器的使用。
商标注册、知识产权
从2016年5月30日起“宝创生信”商标和logo已注册并使用。

 楼主| 发表于 2016-7-18 16:45:53 | 显示全部楼层
欢迎大家咨询交流
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-2-19 22:42 , Processed in 0.099624 second(s), 19 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表