设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 967|回复: 0

基因芯片数据的分析方法

[复制链接]
发表于 2015-8-21 22:48:53 | 显示全部楼层 |阅读模式
基因芯片数据的分析方法
研究背景:
  基因芯片可以通过探针和荧光标记对某个时间点生物体的全部基因表达量进行检测,探针代表的基因荧光强度通过仪器转换成基本数据。这些数据的背后隐藏着很多的生物学意义,这就需要我们通过生物信息学的方法去分析和挖掘。不同实验设计方案产生的海量芯片数据,其分析方法和思路都大同小异,这里分享一个多组实验设计的乳腺癌侵袭性研究芯片数据分析方法。
实验设计:
  主要通过芯片数据筛选与乳腺癌侵袭性相关的基因和分子生物通路来研究乳腺癌侵袭性的分子机制。实验分为正常对照组2a,非侵袭性乳腺癌组2b,侵袭性乳腺癌组2c。正常对照组2a 2a_12a_2两个样本,非侵袭性乳腺癌组2b2b_12b_22b_3三个样本,侵袭性乳腺癌组3c3c_13c_23c_3三个样本,其中每个样本都使用Aglient 芯片进行检测,仪器输出的数据通过归一化后进行接下来的数据分析。
研究方法:
1.     芯片数据质控
1.1   数据PCA分析
使用OmicsBean组学数据分析系统(www.omicsbean.com:88) 将基因芯片的原始矩阵数据和分组文件进行上传,使用其PCA功能模块进行分析得到各组表达量数据的分布图(如图1.1)。图中可以看出2a组和3b组的数据分布比较合理,样本间的数据差异比较小,3c组的样本数据中3c_1样本与3c_3样本的数据差异较小,而这两个样本与3c_2的数据差异较大,为保证数据的可靠性可以根据需要考虑将3c_2 这组数据剔除,再做进一步的分析。

pca.PNG
                                                                                                                                            1.1   PCA 分析图
1.2   Clustering分析
使用OmicsBean的Clustering功能模块对基因芯片的原始矩阵数据进行Clusering分析,得到各组数据的簇分析分布图(如图1.2)。图中可以看出2a组两个样本的数据比较接近,3c组样本数据差异比较大,3c组样本的数据需要进行调整。
cluster.PNG
1.2 Cluster 分布图
1.3   HeatMap分析
使用OmicsBean的HeatMap功能模块对基因芯片的原始数据进行HeatMap分析得到各组基因表达量数据的HeatMap分布图(图1.3),从图中可以看到每个基因在不同分组中的表达量差异分布。针对分组和基因在热图的基础上又进行了簇分析。
heatmap.png
                                                                                                                                            1.3 HeatMap 分布图
2.     差异基因筛选
使用OmicsBean分析系统将基因芯片的原始矩阵数据和分组文件进行上传,使用T-test方法和FoldChange进行差异数据的计算。FoldChange设置参数为2,T-test 设置参数P-value为0.05,同时在分组矩阵中选择进行差异比较的两个组进行分析。系统会根据参数设置和进行比较的分组进行差异基因筛选,这样会得到差异筛选的分布图(如图2.1)和差异基因的列表。接下来还可以针对多个差异列表再进行分析。这里选择了非侵袭性乳腺癌与正常组比较,侵袭性乳腺癌与正常组比较,非侵袭性乳腺癌与侵袭性乳腺癌比较。图中横坐标为Log2(FoldChange),纵坐标为-Log10(P-Value),图中越靠近左下角和右下角的数据P-value值越小,FoldChange值越大,差异越显著。
vol.PNG
2.1  差异筛选分布图
3.     利用Venn分析构建模型
使用OmicsBean分析系统将非侵袭性乳腺癌(相对于正常组)的差异表达基因与侵袭性乳腺癌(相对于正常组)的差异表达基因进行Venn分析,得到Venn分析结果图(图3.1),从图中可以看出只在侵袭性乳腺癌中差异表达的基因有722个,只在非侵袭性乳腺癌中差异表达的基因942个,同时在侵袭性乳腺癌和非侵袭性乳腺癌中差异表达的基因共281个,而在这281个差异基因中有34个基因在侵袭性和非侵袭性两个组中又存在差异表达,这34个基因是用来研究乳腺癌的侵袭性分子机制的关键基因,这些基因参与的生物通路和生物过程也将进一步阐明乳腺癌侵袭性分子机制。
  为了更深入的研究乳腺癌侵袭性分子机制使用OmicsBean分析系统将只在侵袭性乳腺癌中表达的722个差异基因与34个关键基因进行合并构建出了乳腺癌侵袭性分子模型。该模型共756个基因。
venn02.PNG
3.1Venn分析图
4.     功能富集分析
使用OmicsBean分析系统将乳腺癌侵袭性分子模型中的756个基因进行功能富集分析,其中包括GO富集分析与Pathway富集分析,其中GO富集包括BiologicalProcess(生物过程),CellComponent(细胞组成),MolecularFunction(分子功能)。 Pathway富集分析主要指KEGG富集分析。
4.1   GO 富集分析
使用OmicsBean分析系统将乳腺癌侵袭性分子模型中的756个基因进行GO富集分析。 富集到的比较显著的生物过程包括multicellularorganismal process,single-multicellular organism process,single-organismprocess,single-organismcellular process,developmentalprocess,single-organismdevelopmental process,anatomical structure development,systemdevelopment,cellcommunication,multicellularorganismal development 等(如图4.1.1), 这些生物过程都与细胞的生长相关,这些生物过程与侵袭性癌细胞向周围组织扩张性生长的特性是一致的。其中生物过程Positiveregulation of cell adhesion,regulation ofcell communication 更能说明侵袭性乳腺癌细胞通过分泌一些特殊物质或降解正常组织的防御屏障使得与周围细胞粘附,破坏正常的组织(如图4.1.2)。
                                                                                                 go.PNG
                                                                                                                图4.1.1  GO 富集分析
                                                                                                      bp.PNG
                                                                                                            4.1.2Biological Process 富集分析
4.2生物过程HeatMap分析
使用OmicsBean分析系统将参与cellcommunication这个重要生物过程的差异基因进行HeatMap分析(图4.2),可以看到在这个过程中不同基因的差异分布。从这个分布中可以快速的找到一些相对比较关键的基因。
bp_heatmap01.png
                             图4.2     生物过程HeatMap分析
4.3  Pathway富集分析
使用OmicsBean分析系统将乳腺癌侵袭性分子模型中的1820个基因进行KEGG富集分析。富集到的比较显著的生物通路包括Neuroactiveligand-receptor interaction,ABC transporters,Nitrogenmetabolism,TypeII diabetes mellitus,ErbB signaling pathway,Proximal tubulebicarbonate reclamation,Dorso-ventral axis formation,Arginineand proline metabolism,ECM-receptor interaction,Thyroidcancer等(图4.3.1)。其中生物通路Insulinsecretion,Proteindigestion and absorption,EMC-receptor interaction与侵袭性癌细胞可以伸出伪足插入到周围的组织间隙,或通过分泌特殊物质等方式入侵周围的组织相一致。
                                                                                                    kegg.PNG
                  图4.3.1  Pathway 富集分析
4.4生物通路HeatMap分析
使用OmicsBean分析系统将参与EMC-receptorinteraction这个重要生物通路的差异基因进行HeatMap分析(如图4.4),可以看到在这个通路中不同基因的差异分布。从这个分布中可以快速的找到一些相对比较关键的基因。
path_heatmap.png
                                                                                                              4.4生物通路HeatMap分析
5.     网络调控模型构建
使用OmicsBean分析系统进行PPI模型构建,系统通过String数据库建立基因相互作用关联,在根据选择的生物通路进行模型构建。在这里选择cellcommunication 和 EMC-receptor interaction这两个重要的生物通路构建网络调控模型(如图5)。从图中可以看到与cellcommunication 和EMC-receptorinteraction相关联的关键基因VWF,CD44,SPP1,ITGB6,SDC4,ITGB3。这些基因就是乳腺癌侵袭性研究应该重点关注的,这个基因可能是使癌细胞具有侵袭性的关键基因.
                                                                                                                   a.PNG
                                                                                                                   5 PPI 网络调控模型
研究结论
  通过PCA分析,Cluster分析,HeatMap分析对芯片数据进行质量控制,了解不同组之间的数据分布和差异,然后使用T-testFoldChange对矩阵数据进行了差异筛选,根据差异筛选的基因进行Venn分析构建了乳腺癌侵袭性模型,对模型中的基因进行功能富集找到了重要的生物通路cellcommunication EMC-receptorinteraction,针对通路进行PPI网络调控模型的构建找到了重要的基因VWFCD44SPP1ITGB6SDC4ITGB3

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-2-20 18:48 , Processed in 0.113174 second(s), 25 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表