使用ClumsID从高分辨率DI-MS/MS数据中的聚类光谱

Tobias Depke

2022年4月26日

介绍

尽管最初用于液相色谱串联质谱法(LC-MS/MS)数据,但ClumsID也可以与直接输注串联质谱法(DI-MS/MS)数据一起使用。

通常,缺少的保留时间维度使代谢组学中的特征注释更加困难,但是如果只有直接输注数据就可以帮助概述DI-MS/MS测量的样品的化学多样性。

在此示例中,我们将使用类似的样本(1ul铜绿假单胞菌PA14细胞提取物)如一般教程中,在同一台机器上测量的Bruker Maxis高清QTOF在ESI-(+)模式下以自动-MS/MS进行操作,但没有色谱分离。

数据导入

我们从clumsiddata包裹:

图书馆(clumsid)图书馆(clumsiddata)difile < -system.file((“ Extdata”,,,,“ PA14_MAXIS_DI.MZXML”,,,,软件包=“ clumsiddata”

数据预处理

光谱的提取的工作方式与LC-MS/MS数据相同:

ms2list < -Extractms2spectra(difile)长度(ms2list)#> [1] 373

当没有保留时间时,冗余光谱的合并不太简单。根据MS/MS方法,几乎​​不可能决定是否具有相同前体的两个光谱m/z和类似的片段化模式源自同一分析物或两个不同但结构相似的分析物。

在此示例中,我们只有在接一个地记录下将光谱与相同的前体离子合并。我们可以通过设置来做到这一点rt_tolerance到1秒:

专长< -Mergems2spectra(ms2list,rt_tolerance =1长度(专长)#> [1] 349

我们看到我们几乎没有减少列表中的光谱数量。如果我们决定将所有光谱与相同的前体合并m/z从整个运行中,我们可以通过设置来做到这一点rt_tolerance到运行的持续时间,在这种情况下。250秒:

测试清单< -Mergems2spectra(ms2list,rt_tolerance =250长度(测试清单)#> [1] 75

所产生的光谱数量大大降低,但是合并光谱实际上并非来自同一分析物的危险也很大。

距离矩阵的产生

在这个探索性的示例中,我们跳过了以前的知识在特征身份上的集成,并立即生成距离矩阵:

distmat < -Distancematrix(专长)

数据探索

从这个距离矩阵开始,我们可以使用所有数据探索功能clumsid优惠。在此示例工作流程中,我们查看一个集群树状图:

HCPLOT(distmat,cex =0.5
图1:基于DI-MS/MS示例数据集的MS2光谱相似性,圆形层次聚类的圆形树状图作为集聚性群集聚类作为聚集标准的结果。每个叶子代表一个特征,颜色编码特征的群集隶属关系。叶标签显示功能ID,以及功能注释(如果存在)。距中心点的距离指示树状图的高度。

图1:圆形树状图是基于MS的聚集层次聚类,平均连接为聚集标准的结果2DI-MS/MS示例数据集的光谱相似性。每个叶子代表一个特征,颜色编码特征的群集隶属关系。叶标签显示功能ID,以及功能注释(如果存在)。距中心点的距离指示树状图的高度。

很明显,我们有一些几乎相同的光谱,因此很可能来自同一分析物,例如具有前体的许多光谱m/z270.19。但是我们仍然看到具有不同前体的类似光谱的群集m/z,例如巨大的灰色簇,其中包含许多不同的烷基喹诺酮型代谢物(请参阅一般教程)。

总之,Clumsid对于提供DI-MS/MS运行中的频谱相似性的概述非常有用,但是无论注释焦点何时何地,就不应在没有色谱分离创建的其他信息层。

会话信息

SessionInfo()#> R版本4.2.0 RC(2022-04-21 R82226)#>平台:x86_64-pc-linux-gnu(64位)#>运行下:Ubuntu 20.04.4 LTS#>#>矩阵产品:默认#> blas:/home/biocbuild/bbs-3.16-bioc/r/lib/librblas.so#> lapack:/home/biocbuild/bbs-3.16-bioc/r/lib/librlapack.so#>#>语言环境:#> [1] lc_ctype = en_us.utf-8 lc_numeric = c#> [3] lc_time = en_gb lc_collat​​e = c#> [5] lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8#> [7] lc_paper = en_us.utf-8 lc_name = c#> [9] lc_address = c lc_telephone = c#> [11] lc_measurement = en_us.utf-8 lc_istentification = c#>#>附加的基本软件包:#> [1] Stats图形GRDEVICES UTILS数据集方法基础#>#>其他附件:#> [1] clumsiddata_1.11.0 clumsid_1.13.0#>#>通过名称空间加载(并且未连接):#> [1] NLME_3.1-157 Protgenerics_1.29.0 BitOps_1.0-7#> [4] httr_1.4.2#> [7] msnbase_2.23.0 tools_4.2.0 bslib_0.3.1#> [10] utf8_1.2.2 r6_2.5.1 affyio_1.67.0#> [13] kernsmooth_2.23-20 lazyeval_0.2.2 dbi_1.1.2#> [16] biocgenerics_0.43.0 colorspace_2.0-3 tidySelect_1.1.2#> [19] ggally_2.1.2 compiler_4.2.0 preprocesscore_1.59.0#> [22] CLI_3.3.0 BIOBASE_2.57.0 Network_1.17.1#> [25] plotly_4.10.0 sass_0.4.4.1 catools_1.18.2#> [28] scales_1.2.0 affy_1.75.0 stringr_1.4.0#> [31] digest_0.6.29 dbscan_1.1.1-10 rmarkDown_2.14#> [34] PKGCONFIG_2.0.3 HTMLTOOLS_0.5.2#> [37] fastmap_1.1.0 limma_3.53.0 htmlwidgets_1.5.4#> [40] rlang_1.0.2 Impute_1.71.0 jquerylib_0.1.4#> [43] generics_0.1.2 jsonlite_1.8.0 mzid_1.35.0#> [46] statnet.common_4.5.0 biocparallel_1.31.0 gtools_3.9.2#> [49] dplyr_1.0.8 magrittr_2.0.3 maldiquant_1.21#> [52] rcpp_1.0.8.3 munsell_0.5.0 s4Vectors_0.35.0#> [55] fansi_1.0.3 ape_5.6-2 mscoreutils_1.9.0#> [58] LifeCycle_1.0.1 VSN_3.65.0 Stringi_1.7.6#> [61] YAML_2.3.5 MASS_7.3-57 ZLIBBIOC_1.43.0#> [64] gplots_3.1.3 plyr_1.8.7 grid_4.2.0#> [67] Parallel_4.2.0 crayon_1.5.1 lattice_0.20-45#> [70] mzr_2.31.0 sna_2.6 knitr_1.38#> [73] Pillar_1.7.0 Codetools_0.2-18 Stats4_4.2.0#> [76] xml_3.99-0.9 glue_1.6.2 evaluate_0.15#> [79] data.table_1.14.2 pcamethods_1.89.0 biocmanager_1.30.17#> [82] vctrs_0.4.4 foreach_1.5.5 tidyr_1.2.0#> [85] gtable_0.3.0 purrr_0.3.4 clue_0.3-60#> [88] reshape_0.8.9 assertthat_0.2.1 ggplot2_3.3.3#> [91] XFUN_0.30 CODA_0.19-4 VIRIDISLITE_0.4.0#> [94] NCDF4_1.19 TIBBLE_3.1.6 iterators_1.0.14#> [97] iranges_2.31.0 cluster_2.1.3 Ellipsis_0.3.2