MWASTools
安德里亚·罗德里格斯·马丁内斯,约拉姆·m·波斯马,拉斐尔·阿亚拉,安娜·l·内维斯,玛丽安·安瓦尔,杰里米·k·尼克尔森,马克-伊曼纽尔·杜马斯
2017年5月26日,
“MWASTools”是一个R包,旨在提供一个集成的和用户友好的管道,以分析大规模流行病学研究背景下的代谢组数据。软件包的主要功能包括:质量控制分析;metabolite-phenotype关联模型;数据可视化工具;用统计全相关光谱(STOCSY)进行代谢物分配;MWAS结果的生物学解释。
代谢组学是一种强大的系统生物学方法,它针对生物液体(如尿液或血浆)或组织中的代谢物,提供与有机体的代谢状态相对应的代谢模式,作为遗传和环境影响的功能(尼科尔森et al。2002).由于最近高通量平台(即核磁共振(NMR)和质谱(MS))的发展,代谢图谱现在被用于大规模的流行病学应用,如全代谢组关联研究(MWAS)。(福尔摩斯et al。2008;艾略特et al。2015).
定制的统计建模方法和数据可视化工具对于大规模代谢表型研究中的生物标志物发现是必不可少的。已经开发了几个软件包来检测和可视化感兴趣的条件(如疾病)之间的代谢变化vs控制)使用多元统计方法(例如OPLS-DA)(Gaudeet al。2013;Thevenotet al。2015).然而,从流行病学的角度来看,这些多变量模型的一个主要局限性是它们没有恰当地考虑共同因素(如年龄、性别),这可能会扭曲所观察到的代谢物和研究条件之间的关联。在这里,我们提出了一套使用单变量假设检验和有效处理流行病学混杂因素来执行MWAS的方案。我们的包提供了一个多功能和用户友好的MWAS管道,具有以下关键功能:质量控制(QC)分析;代谢物-表型关联模型(部分相关,广义线性模型)调整流行病学混杂因素(如年龄或性别);关联模型的自引导;统计结果可视化;使用统计全相关光谱(STOCSY)进行代谢物分配(Cloarecet al。2005);MWAS结果的生物学解释(Kanehisa & Goto 2000).
假设R(>=3.3)和Bioconductor已经正确安装,MWASTools可以安装在:
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")
FGENTCARD队列研究是一项黎巴嫩冠状动脉疾病(CAD)患者临床队列研究。(普拉特et al。2015).这群人的血浆样本由1H NMR,识别与CAD危险因素相关的代谢物。在本案例研究中,我们描述了“MWASTools”包是如何被用于识别与II型糖尿病(T2D)相关的代谢产物的。
1在随机设计中,在Bruker Avance III 600 MHz光谱仪上采集H NMR等离子体谱。质量控制(QC)样品,由具有代表性的实验样品池的相同等分组成,在整个测试过程中定期注射。在TopSpin 3.2软件中进行相位和基线校正后,将光谱校准到δ 5.23处葡萄糖α反常信号(皮尔斯et al。2008)并使用递归分段峰值对齐(Veselkovet al。2009).为了简化,本案例研究集中在δ 1.60 - 0.80光谱区域的分析
对队列中的每个患者,记录有关年龄、性别、T2D状态和体重指数(BMI)的信息。
首先,我们加载“MWASTools”包:
库(MWASTools)
然后我们加载执行分析所需的数据集:
metabo_SE数据(“metabo_SE”)
## class: summarizeexperiment ## dim: 595 516 ## metadata(0): ## assays(1): metabolic_data ## rownames(595): 0.80006656 0.80141232…1.59810224 1.599448 ## rowData names(0): ## colnames(516): P1 P2…QC9 QC10 ## colData names(5):年龄性别T2D BMI sample_type
metabo_SE是一个summarizeexperiment对象,由函数" mwas_summarizeexperiment() "生成,包含以下信息:
-metabolic_data:包含1实验样品(n = 506)和质控样品(n = 10)的H NMR谱(δ 1.60 - 0.80)。
-clinical_data:包含临床数据(年龄、性别、T2D和BMI)和样本类型信息(即实验样本或QC样本)的矩阵。
为了保证分析运行的稳定性和可重复性,我们在整个QC样品中基于主成分分析(PCA)和变异系数(CV) (sd/mean)进行QC分析(小仲马et al。2006).
# PCA模型PCA_model = QC_PCA(metabo_SE, scale = FALSE, center = TRUE) # Plot PCA评分(PC1 vs PC2 & PC3 vs PC4) par(mfrow = c(1,2)) QC_PCA_scoreplot(PCA_model, metabo_SE, main = "PC1 vs PC2") QC_PCA_scoreplot(PCA_model, metabo_SE, main = "PC3 vs PC4")
在两个评分图中,QC样本都紧密聚集在霍特林椭圆的中心,证实了批处理效应的不存在,并确保了分析运行的可重复性。
以下质量控制分析通过PCA,我们计算了核磁共振信号在QC样本中的cv。请注意,CV = 0.30和CV = 0.15分别是FDA(美国食品和药物管理局)为生物标志物的发现和量化设定的阈值。
#计算metabo_CV = QC_CV(metabo_SE, plot_hist = FALSE) #核磁共振谱根据CV着色CV_spectrum = QC_CV_specNMR(metabo_SE, ref_sample = "QC1")
CV分析结果表明,大多数代谢特征的CV值都很低(99%的CV < 0.30, 92%的CV < 0.15),进一步证实了数据集的可重复性。然后对代谢基质进行cv过滤,去除不可复制的特征:
#基于CV截断值0.30筛选代谢基质metabo_SE = CV_filter(metabo_SE, metabo_CV, CV_th = 0.3)
为了识别与T2D相关的代谢物,我们在T2D和每个NMR变量之间运行逻辑回归模型,并根据年龄、性别和BMI进行调整。为了校正多重检验的p值,我们使用了Benjamini-Hochberg (BH)校正。
#运行MWAS MWAS_T2D = MWAS_stats(metabo_SE,疾病id = "T2D", confounder_ids = c("年龄","性别","BMI"), assoc_method = "logistic", mt_method = "BH")
MWAS_T2D为三列矩阵,列中为代谢特征(ppm值)。这些列包含以下信息:估计值(即beta系数)、原始p值和bh校正p值(pFDR)。这些结果使用函数“MWAS_skylineNMR()”可视化。
#可视化MWAS结果skyline = MWAS_skylineNMR(metabo_SE, MWAS_T2D, ref_sample = "QC1")
然后我们使用STOCSY来分配与T2D相关的未知核磁共振信号。下面是一个使用δ 1.04作为驱动信号的例子。
stocsy = STOCSY_NMR(metabo_SE, ppm_query = 1.04)
STOCSY图显示了每个核磁共振信号与驱动信号的协方差(高度)和相关性(颜色)。图中最突出的信号是δ 1.04和δ 0.99处的两个双态信号,表明未知信号对应缬氨酸。
最后,我们将MWAS分析检测到的一些感兴趣的代谢物(缬氨酸“cpd:C00183”和异亮氨酸“cpd:C00407”)映射到KEGG通路上。
kegg_pathways = MWAS_KEGG_pathways(metabolites = c("cpd:C00183", "cpd:C00407")) head(kegg_pathways[, c(2,4)])
## compund_name pathway_name ## cpd:C00183" cpd:C00183" "缬氨酸、亮氨酸和异亮氨酸降解" ## cpd:C00183" cpd:C00183" "缬氨酸、亮氨酸和异亮氨酸生物合成" ## cpd:C00183" cpd:C00183" "青霉素和头孢菌素生物合成" ## cpd:C00183" cpd:C00183" "氰基氨基酸代谢" ## cpd:C00183" cpd:C00183" "泛酸盐和辅酶a生物合成" ## cpd:C00183" cpd:C00183" "硫代葡萄糖苷生物合成"
该函数还导出了一个网络文件,允许在Cytoscape中生成基于路径的代谢网络(香农et al。2003),如下图所示。在这个网络中,人类路径被突出显示,边缘的颜色表示路径类别。
Cloarec, O., Dumas, M.E, Craig, A., Barton, r.h., Trygg, J., Hudson, J., Blancher, C., Gauguier, D., Lindon, j.c., Holmes, E. & Nicholson, J.K.(2005)。统计全相关光谱:从代谢1HNMR数据集中识别潜在生物标志物的探索性方法。分析化学,77, 1282 - 1289。从检索http://pubs.acs.org/doi/10.1021/ac048630x
大仲马,迈鲍姆,E.C,上岛,H,周,B,林登,J.C,尼克尔森,J.K,斯坦勒,J,艾略特,P,陈,q和霍姆斯,e(2006)。基于1HNMR光谱的代谢组学在大规模流行病学研究中的分析重现性评估:间图研究。分析化学,78, 2199 - 2208。从检索http://pubs.acs.org/doi/10.1021/ac0517085
埃利奥特,P.,波斯马,j.m.,陈,Q.,加西亚-佩雷斯,I., Wijeyesekera, Bictash, M., Ebbels, t.m., Ueshima, H.,赵,L., Van-Horn, L., Daviglus, M., Stamler, J., Holmes, E. & Nicholson, J.K.(2015)。人类肥胖的尿代谢特征。科学转化医学,7285 ra62。从检索http://stm.sciencemag.org/content/7/285/285ra62
高德,R., Chignola, F., Spiliotopoulos, D., Spitaleri, A., Ghitti, M., Garcia-Manteiga, J., Mari, S. & Musco, G.(2013)。Muma,一个代谢组学单变量和多变量统计分析包。当前代谢组学,1, 180 - 189。从检索http://dx.doi.org/10.2174/2213235X11301020005
霍姆斯,卢,r.l.,斯坦勒,J.,比克塔什,M.,雅普,i.k.,张,Q.,埃贝尔斯,T.,德- iorio, M.,布朗,i.j.,维塞科夫,K.A,达维卢斯,m.l.,凯斯特洛特,H.,上岛,H.,赵,L.,尼克尔森,j.k &埃利奥特,P.(2008)。人类代谢表型多样性及其与饮食和血压的关系。自然,453, 396 - 400。从检索http://www.nature.com/nature/journal/v453/n7193/full/nature06882.html
卡内久,M.和后藤,S.(2000)。京都基因和基因组百科全书。核酸的研究,28的观众。从检索http://nar.oxfordjournals.org/content/28/1/27
尼克尔森,J.K,康奈利,林登,J.C.和霍姆斯,E.(2002)。代谢组学:研究药物毒性和基因功能的平台。《自然》评论药物发现,1, 153 - 161。从检索http://www.nature.com/nrd/journal/v1/n2/full/nrd728.html
皮尔斯,阿瑟萨奇,t.j.,埃贝尔斯,t.m.d.,林登,j.c.,尼克尔森,j.j. &基恩,H.C.(2008)。分析化学,血清1HNMR光谱自动化学位移校正的鲁棒算法。分析化学,80, 7158 - 7162。从检索http://pubs.acs.org/doi/10.1021/ac8011494
Platt, d.e., Ghassibe-Sabbagh, M., Youhanna, S., Hager, J., Cazier, J., Kamatani, Y., Salloum, A., Haber, M., Romanos, J., Doueihy, B., Mouzaya, F., Kibbani, S., Sbeite, H., Deeb, M.E, Chammas, E., El-Bayeh, H., Khazen, G., Gauguier, D., Zalloua, P.A.和Abchee, A.B.(2015)。一大批接受冠状动脉造影的患者的循环脂质水平与冠状动脉疾病的风险血栓与溶栓杂志,39,第15 - 22。从检索http://link.springer.com/article/10.1007%2Fs11239-014-1069-2
香农,马基尔,奥齐尔,巴利加,n.s.,王,j.t., Ramage, D,阿明,N. &艾德克,B.S.T.(2003)。Cytoscape:生物分子相互作用网络集成模型的软件环境。基因组研究,13, 2498 - 2504。从检索http://genome.cshlp.org/content/13/11/2498
thevennot, E., Roux, A., Xu, Y., Ezan, E. & Junot, C.(2015)。通过实现单变量和opl统计分析的综合工作流,分析人类成人尿代谢组随着年龄、体重指数和性别的变化。蛋白质组学研究杂志,14, 3322 - 3335。从检索http://pubs.acs.org/doi/abs/10.1021/acs.jproteome.5b00354
维塞尔科夫,k.a.,林登,j.c.,埃贝尔斯,t.m.,克罗克福德,D.,沃林金,W.,霍姆斯,E.,戴维斯,D.B.和尼克尔森,J.K.(2009)。生物1HNMR光谱的递归分段峰值对齐,以提高代谢生物标志物的回收率。分析化学,8156 - 66。从检索http://pubs.acs.org/doi/10.1021/ac8011544