包:MsBackendMgf
作者:RforMassSpectrometry包维护者(cre)。劳伦与(aut) (https://orcid.org/0000 - 0002 - 1520 - 2268),约翰内斯·Rainer (aut) (https://orcid.org/0000 - 0002 - 6977 - 7147),塞巴斯蒂安·吉布(aut) (https://orcid.org/0000 - 0001 - 7406 - 4443),迈克尔·情报(施)(https://orcid.org/0000 - 0002 - 1462 - 4426)
最后修改:2023-04-20 00:27:38.903509
编译:2023年4月25日17:33:54星期二
的光谱包提供了一个中央基础设施的处理质谱(MS)数据。不同的包支持可互换使用后端进口女士来自各种数据源的数据(如mzML文件)。的MsBackendMgf
包允许进口从mgf MS / MS数据(吉祥物通用格式)文件。这个描述说明的使用MsBackendMgf
包中。
安装这个包,开始R
并输入:
如果(!requireNamespace (“BiocManager”,悄悄地= TRUE)) install.packages (“BiocManager”) BiocManager::安装(“MsBackendMgf”)
这最终将安装这个包和所有失踪的依赖关系。
Mgf文件存储一个到多个光谱,典型的质心和女士级别2。在下面的例子在我们的短,我们负载2 mgf这个包提供的文件。下面我们首先加载所有必需的包和定义mgf文件的路径。
库(光谱)库(MsBackendMgf) fls的< - dir(系统。文件(“extdata”,包=“MsBackendMgf”), full.names = TRUE, =美元mgf) fls的模式
# # [1]“/ tmp / RtmpwBALGj / Rinst14342e4e8bd81e / MsBackendMgf / extdata /光谱。mgf“# #”[2] / tmp / RtmpwBALGj / Rinst14342e4e8bd81e MsBackendMgf / extdata / spectra2。mgf“# #”[3] / tmp / RtmpwBALGj / Rinst14342e4e8bd81e MsBackendMgf / extdata / spectra3_empty_peaks。mgf“# #”[4] / tmp / RtmpwBALGj / Rinst14342e4e8bd81e MsBackendMgf / extdata / spectra4.mgf”
女士可以访问数据和分析光谱
对象。下面我们创建一个光谱
从这些mgf与数据文件。为此我们提供的文件名称和指定使用MsBackendMgf ()
后端为源使数据导入。请注意,下面我们也禁用并行处理注册串行处理作为默认。看到bpparam ?
更多细节在并行处理选项BiocParallel包中。
库(BiocParallel)注册(SerialParam ()) sps < -光谱(读者、源= MsBackendMgf ())
# #从4开始数据导入文件…完成
我们现在完全访问所有进口的光谱变量,我们下面的列表。
spectraVariables (sps)
# # [1]“msLevel”# #“rtime”[3]“acquisitionNum”“scanIndex”# # [5]“dataStorage”“dataOrigin”# #[7]“重心”“平滑”# #[9]“极性”“precScanNum”# # [11]“precursorMz”“precursorIntensity”# # [13]“precursorCharge”“collisionEnergy”# # [15]“isolationWindowLowerMz”“isolationWindowTargetMz”# # [17]“isolationWindowUpperMz”“标题”# # [19]“RAWFILE”“CLUSTER_ID”# # [21]“msLevel”
除了默认的光谱变量,如msLevel
,rtime
,precursorMz
,我们也有额外的光谱变量等标题
mgf文件中的每个光谱。
sps rtime美元
# # [1]1028.000 1117.000 1127.000 2678.940 2373.511 2511.030 162.070 NA # # 1028.000 - 1028.000 [9]
sps美元标题
# # [1]“File193 Spectrum1719扫描:2162 # # [2]”File193 Spectrum1944扫描:2406 # # [3]“File193 Spectrum1968扫描:2432 # # [4]”mzspec: PXD004732:01650b_BC2-TUM_first_pool_53_01_01-3xHCD-1h-R2:扫描:41840:WNQLQAFWGTGK / 2”# # [5]“mzspec: PXD002084: TCGA-AA-A01D-01A-23_W_VU_20121106_A0218_5I_R_FR15:扫描:5209:DLTDYLMK / 2“# # [6]“mzspec: MSV000080679: j11962_C1orf144:扫描:10671:DLTDYLMK / 2“# # [7]“CCMSLIB00000840351”# # [8]“blank_2-A 1 _01_29559.812.812.1”# # [9]“File193 Spectrum1719扫描:2162 # # [10]“File193 Spectrum1719扫描:2162”
默认情况下,mgf文件中的字段映射到光谱使用映射返回的变量名spectraVariableMapping
功能:
spectraVariableMapping (MsBackendMgf ())
# # rtime acquisitionNum precursorMz precursorIntensity # #“RTINSECONDS”“扫描”“PEPMASS”“PEPMASSINT”# # precursorCharge # #“充电”
这个的名字字符
向量是光谱变量名(如“rtime”
mgf文件,其中包含)和字段的值(如信息“RTINSECONDS”
)。注意,也可以覆盖这个映射(例如某些mgf方言)或添加额外的映射。下面我们添加mgf字段的映射“标题”
光谱变量“spectrumName”
。
地图< - c (spectrumName = "标题",spectraVariableMapping (MsBackendMgf()))地图
# # spectrumName rtime acquisitionNum precursorMz # #“标题”“RTINSECONDS”“扫描”“PEPMASS”# # precursorIntensity precursorCharge # #“PEPMASSINT”“充电”
我们可以通过这个映射backendInitialize
方法,或光谱
构造函数。
= MsBackendMgf sps < -光谱(fls的来源(),映射=地图)
# #从4开始数据导入文件…完成
我们现在可以访问频谱的标题与新创建的光谱变量“spectrumName”
:
sps spectrumName美元
# # [1]“File193 Spectrum1719扫描:2162 # # [2]”File193 Spectrum1944扫描:2406 # # [3]“File193 Spectrum1968扫描:2432 # # [4]”mzspec: PXD004732:01650b_BC2-TUM_first_pool_53_01_01-3xHCD-1h-R2:扫描:41840:WNQLQAFWGTGK / 2”# # [5]“mzspec: PXD002084: TCGA-AA-A01D-01A-23_W_VU_20121106_A0218_5I_R_FR15:扫描:5209:DLTDYLMK / 2“# # [6]“mzspec: MSV000080679: j11962_C1orf144:扫描:10671:DLTDYLMK / 2“# # [7]“CCMSLIB00000840351”# # [8]“blank_2-A 1 _01_29559.812.812.1”# # [9]“File193 Spectrum1719扫描:2162 # # [10]“File193 Spectrum1719扫描:2162”
此外我们还可以访问每个光谱的m / z和强度值。
mz (sps)
# # NumericList长度10 # # ([1])102.0548 103.00494 103.03531……1388.58691 1405.59729 1406.57666 101.07074 102.05486 103.00227 # # [[2]]…1331.56726 1348.58496 1349.59241 102.05556 103.00014 115.05058 # # [[3]]…1333.599 1334.61304 1335.64368 # # [[4]]101.07122 109.68925 115.86999 120.0811……1260.6073 1261.614 1272.6572 130.164459228516 - 144.150299072266 # # [[5]]…1019.23852539062 - 1020.52404785156 110.070594787598 - 120.080627441406 # # [[6]]…887.756652832031 - 998.447387695312 # # [[7]]51.022404 57.033543 57.060638……636.130188 660.481445 753.358521 # #[[8]]数字(0)# # [[9]]102.0548 103.00494 103.03531……1388.58691 1405.59729 1406.57666 102.0548 103.00494 103.03531 # # [[10]]…1388.58691 1405.59729 1406.57666
强度(sps)
# # NumericList长度10 # # ([1])753.738 385.376 315.441 413.206……3038.73 2016.43 1146.04 704.175 # # [[2]]1228.93 1424.66 1550.9 1455.45……7380.41 - 4960.92 5743.83 - 1780.76 # # [[3]]1340.44 1714.76 1938.82 1450.36 2019…5323.02 2265.43 4768.14 1532.12 # # [[4]]81011.57 4123.349 4006.9321 66933.17……22042.248 18096.48 12666.438 14.1766004562378 - 18.5806427001953 # # [[5]]…22.7096385955811 - 14.864013671875 1748.57495117188 - 8689.9951171875 # # [[6]]…2907.08422851562 - 2663.30908203125 # # [[7]]65.219513 178.758606 13.01786 119.898499……22.05921 30.57095 14.11111 # #[[8]]数字(0)# # [[9]]753.738 385.376 315.441 413.206……3038.73 2016.43 1146.04 704.175 # # [[10]]753.738 385.376 315.441 413.206……3038.73 2016.43 1146.04 704.175
的MsBackendMgf
后端也允许以mgf格式导出数据。下面我们的数据导出到一个临时文件。我们因此称出口
函数在我们光谱
对象指定后端= MsBackendMgf ()
使用这个后台的出口数据。再次注意,我们使用我们的自定义映射的变量,光谱变量“spectrumName”
将导出为光谱的标题。
fl < - tempfile()出口(sps,后台= MsBackendMgf(),文件= fl,映射=地图)
我们下一个读第一行从导出的文件确认标题是正常出口。
readline (fl) [1:12]
# #[1]“开始离子”# # [2]“msLevel = 2 # #”[3]“RTINSECONDS = 1028”# #[4]“扫描= 2162”# #[5]“重心= TRUE”# # [6]“PEPMASS = 816.33826”# #[7]“费用= 2 +”# # [8]“TITLE = File193 Spectrum1719扫描:2162 # # [9]“102.0548 - 753.738 # # [10]“103.00494 - 385.376 # #”[11]“103.03531 - 315.441 # # [12]“115.05001 - 413.206”
请注意,MsBackendMgf
出口所有光谱变量mgf文件中的字段。为了说明这一点,我们下面的一个新的光谱变量添加到对象和导出数据。
sps new_variable < - A出口美元(sps,后台= MsBackendMgf(),文件= fl) readline (fl) [1:12]
[1]# # # #[2]“开始离子标题= msLevel 2;retentionTime;scanNum“# #”[3] msLevel = 2 # # [4]”RTINSECONDS = 1028 = 2162“# #[5]”扫描“# #”[6]质心= TRUE”# # [7]“PEPMASS = 816.33826“# #”[8] = 2 +“# #”[9] spectrumName = File193 Spectrum1719扫描:2162年“# #”[10]new_variable =“# #”[11] 102.0548 753.738 103.00494 - 385.376“# # [12]
我们也可以看到,我们的新定义的变量是出口。另外,因为我们没有提供自定义变量映射这一次,变量“spectrumName”
是不用作频谱的标题。
有时可能需要不出口所有光谱变量因为一些导出字段可能不认可/外部支持的工具。使用selectSpectraVariables
我们可以减少我们的函数光谱
出口对象只包含相关光谱变量。下面我们的数据限制为只m / z,强度,保留时间,收购数量,前体m / z和前体和出口这些mgf文件。此外,一些外部工具不支持“标题”
MGF文件中的字段。禁止出口的ID /标题exportTitle = FALSE
可以使用。
sps_ex < - selectSpectraVariables (sps, c (“mz”、“强度”、“rtime”、“acquisitionNum”、“precursorMz”、“precursorCharge”))出口(sps_ex后台= MsBackendMgf(),文件= fl, exportTitle = FALSE) readline (fl) [1:12]
# #[1]“离子”开始“RTINSECONDS = 1028”“扫描= 2162”# # [4]“PEPMASS = 816.33826”“费用= 2 +”“102.0548 - 753.738 # #”[7]“103.00494 - 385.376 103.03531 - 315.441”“115.05001 - 413.206 # # [10]“115.08686 - 588.273 120.08063 - 800.016”“124.10555 - 526.761”
sessionInfo ()
# # R安装版本4.3.0 RC (2023-04-18 r84287) # #平台:x86_64-pc-linux-gnu(64位)# #下运行:Ubuntu 22.04.2 LTS # # # #矩阵产品:默认# #布拉斯特区:/home/biocbuild/bbs - 3.18 - bioc / R / lib / libRblas。所以# # LAPACK: /usr/lib/x86_64-linux-gnu / LAPACK liblapack.so.3.10.0 # # # #语言环境:# # [1]LC_CTYPE = en_US。utf - 8 LC_NUMERIC = C # #[3]而= en_GB LC_COLLATE = C # # [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 # # [7] LC_PAPER = en_US。utf - 8 LC_NAME = C # # [9] LC_ADDRESS C = C LC_TELEPHONE = # # [11] LC_MEASUREMENT = en_US。utf - 8 LC_IDENTIFICATION = C # # # #时区:美国/ New_York # # tzcode来源:系统(glibc)附加基本包:# # # # # # [1]stats4统计图形grDevices跑龙套数据集方法# # # # # #[8]基地其他附加包:# # [1]MsBackendMgf_1.9.0 Spectra_1.11.0 ProtGenerics_1.33.0 # # [4] BiocParallel_1.35.0 S4Vectors_0.39.0 BiocGenerics_0.47.0 # # [7] BiocStyle_2.29.0 # # # #通过加载一个名称空间(而不是附加):# # [1]cli_3.6.1 knitr_1.42 rlang_1.1.0 # # [4] xfun_0.39 clue_0.3 - 64 jsonlite_1.8.4 # # [7] htmltools_0.5.5 sass_0.4.5 rmarkdown_2.21 # # [10] evaluate_0.20 jquerylib_0.1.4 MASS_7.3-59 # # [13] fastmap_1.1.1 yaml_2.3.7 IRanges_2.35.0 # # [16] bookdown_0.33 MsCoreUtils_1.13.0 BiocManager_1.30.20 # # [19] cluster_2.1.4 compiler_4.3.0 codetools_0.2-19 # # [22] fs_1.6.2 digest_0.6.31 R6_2.5.1 # # [25] parallel_4.3.0 bslib_0.4.2 tools_4.3.0 # # [28] cachem_1.0.7