metabolomicsWorkbenchR 1.9.0
代谢组学工作台(链接)宿主代谢组学数据存储库。它包含超过1000个公开的研究,包括原始数据,处理数据和代谢物/化合物信息。
可以使用REST服务API搜索存储库。metabolomicsWorkbenchR包使该服务的端点在R中可用,并提供了搜索数据库和将数据集和代谢产物信息导入常用格式(如数据帧和summarizeexperiment对象)的功能。
在这篇小短文中我们将使用metabolomicsWorkbenchR
检索上传的峰值矩阵进行研究。然后我们将使用structToolbox
应用基本的工作流程来分析数据。
要安装这个包,输入:
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("metabolomicsWorkbenchR")
对于旧版本,请参考相应的Bioconductor发行版。
代谢组学工作台的API端点可以使用do_query
函数metabolomicsWorkBenchR
.
的do_query
函数有4个输入:-上下文
一个有效的上下文名称(字符)-input_item
一个有效的input_item名称(字符)-input_value
一个有效的input_value名称(字符)-output_item
一个有效的output_item(字符)
上下文指的是API中可用的不同数据库搜索。读者可以参考API手册了解每个上下文的详细信息(链接).在metabolomicsWorkBenchR
上下文存储为列表,可以使用的名字
功能:
名称(上下文)
“研究”“化合物”“refmet”“基因”“蛋白质”“moverz”##[7]“精确质量”
input_item
特定于某个上下文。上下文的有效项可以使用context_inputs
功能:
猫(“有效的输入:\ n”)
##有效输入:
context_inputs(“研究”)
##[5]“study_id”“study_title”“institute”“last_name”##[5]“analysis_id”“metabolite_id”
猫(“\ nValid输出:\ n”)
## ##有效输出:
context_outputs(“研究”)
[1]“summary”“factors”“analysis”“metabolites”##[5]“mwtab”“source”##[7]“species”“disease”##[9]“number_of_metabolites”“data”##[11]“datatable”“untarg_studies”##[13]“untarg_factors”“untarg_data”##[15]“metabolite_info”“summarizeexperiment”##[17]“untarg_summarizeexperiment”“DatasetExperiment”##[19]“untarg_DatasetExperiment”
首先,我们查询数据库以返回一个非目标研究列表。我们将“study”上下文与“untarg_studies”输出项所需的名为“ignored”的特殊情况输入项结合使用。
US = do_query(context = 'study', input_item = '忽略',input_value = '忽略',output_item = 'untarg_studies') head(US[,1:3])
1 ST000009 AN000023 LC/电喷雾/QTOF正离子模式## 2 ST000009 AN000024 LC/电喷雾/QTOF负离子模式## 3 ST000010 AN000025 LC/电喷雾/QTOF正离子模式## 4 ST000010 AN000026 LC/电喷雾/QTOF负离子模式## 5 ST000045 AN000072 MS正离子模式/C18 ## 6 ST000045 AN000073 MS正离子模式/HILIC
我们将抽取研究“ST000009”的数据。我们可以使用“summary”输出项获取摘要信息。
S = do_query(‘研究’,‘study_id’,‘ST000010’,“总结”)t (S)
## [,1] ## study_id "ST000010" ## study_title "肺癌细胞4" ## study_type "MS分析(非靶向)"##研究所“密歇根大学”## last_name“Keshamouni”## first_name“Venkat”## email“vkeshamo@umich.edu”## submit_date“2013-04-03”## study_summary“在癌细胞中,上皮-间充质转化(EMT)的过程赋予迁移和侵袭能力,抗凋亡,耐药性,逃避宿主免疫监测和肿瘤干细胞特征。接受EMT的细胞可能代表有转移潜力的肿瘤细胞。描述EMT的分泌组可以识别生物标志物来监测肿瘤进展中的EMT,并提供预测患者生存的预后特征。利用转化生长因子-β诱导的EMT细胞培养模型,我们通过gelc串联质谱定量分析了差异分泌蛋白。结合相应的转录组,我们得到了一种emt相关的分泌表型(EASP),由蛋白质和mRNA水平均有差异上调的蛋白质组成。采用随机生存森林(random survival forests, RSF)方法,对4个独立的肺癌原发肿瘤基因表达数据集进行生存分析。97基因EASP在人肺腺癌肿瘤中的表达与淋巴结转移、肿瘤晚期和组织学分级呈正相关。RSF分析建立在训练集(n = 442)上,以年龄、性别和分期为变量,将三个独立的肺癌数据集分层为总生存期有显著差异的低、中、高危组。基于RSF分析的可变重要性评分,我们进一步将EASP细化为20个基因签名(rEASP)。 Similar to EASP, rEASP predicted survival of both adenocarcinoma and squamous carcinoma patients. More importantly, it predicted survival in the early-stage cancers. These results demonstrate that integrative analysis of the critical biological process of EMT provides mechanism-based and clinically relevant biomarkers with significant prognostic value.\nResearch is published, core data not used but project description is relevant:\nhttp://www.jimmunol.org/content/194/12/5789.long\n" ## subject_species "Homo sapiens" ## department NA ## phone NA
由于每项研究有多个数据集,分析ID需要非目标数据。我们将请求DatasetExperiment格式,以便我们可以直接使用数据structToolbox
.
DE = do_query(context = 'study', input_item = 'analysis_id', input_value = 'AN000025', output_item = 'untarg_DatasetExperiment') DE
## DatasetExperiment对象## ---------------------------- ##名称:##描述:## data: 39行x 3569列## sample_meta: 39行x 4列## variable_meta: 3569行x 1列
现在,在应用PCA之前,我们构建了一个由质量过滤、归一化、归一化和缩放组成的最小代谢组学工作流。
#模型序列M = mv_feature_filter(threshold =40, method='across', factor_name='FCS') + mv_sample_filter(mv_threshold =40) + vec_norm() + knn_impute() + log_transform() + mean_centre() + PCA() #应用模型M = model_apply(M,DE)
## knnimp中的警告(x, k, maxmiss = rowmax, maxp = maxp): 198行中有超过50%的条目缺失;用于这些行的平均imputation
# pca_scores_plot(factor_name= C ('FCS')) chart_plot(C,M[长度(M)])