1简介

mzR软件包旨在为几种质谱数据格式提供一个通用的低级接口,即mzData(Orchard et al. 2007)mzXML(Pedrioli et al. 2004)mzML(Martens et al. 2010)对于原始数据,和mzIdentML(Jones et al. 2012),有点类似于用于affymetrix原始数据的Bioconductor包affyio。不进行任何处理mzR,这将留给包,如r BiocStyle:: Biocpkg(“xcms”)(Smith et al. 2006, Tautenhahn:2008)MSnbase(Gatto and Lilley 2012).这些包还提供了更方便的高级原始和识别接口。数据

最重要的是,对数据的访问应该是快速和高效的内存。这是通过允许磁盘上的随机文件访问实现的,即检索感兴趣的特定数据,而不必依次浏览完整内容或将整个数据加载到内存中。

读取和解析数据文件的实际工作由包含的C/ c++库或程序库处理后端.类的c++参考实现mzML是蛋白质巫师图书馆吗(Kessner et al. 2008)(简称pwiz),它反过来利用boost c++ (http://www.boost.org/)图书馆。最近,proteizizard (http://proteowizard.sourceforge.net/(钱伯斯等,2012)已完全集成使用mzRpwiz后端为原始数据,并不是默认选项。的mzRnetCDF后端提供以下支持提供的格式。最后,mzRident后端可访问识别数据(mzIdentML)通过pwiz。

mzR包本质上是c++代码包装器的集合,并受益于通过Rcpp包提供的c++接口(Eddelbuettel和François 2011)

重要的建议需要2021欧洲杯体育投注开户访问和操作原始质谱数据的新开发人员不要直接使用该基础设施。请他们使用相应的MSnExp(与在磁盘上模式)MSnbase包。后者支持一次读取多个文件,并提供了对光谱数据(m/z和强度)以及所有光谱元数据的访问,使用一致的接口。MSnbase基础设施本身使用了mzR中的低级类,因此提供了快速高效的访问。

2质谱原始数据

所有的质谱文件格式都类似地组织,其中一组关于运行的元数据节点后面是具有实际质量和强度的光谱列表。此外,每个光谱都有自己的元数据集,如保留时间和采集参数。

2.1光谱数据存取

对光谱数据的访问是通过山峰函数。返回值是一个由两列质量-电荷和强度矩阵组成的列表,如果查询一个光谱则为一个矩阵。

2.2色谱访问

对色谱图的访问是使用色谱图(或色谱图)函数,返回一个(或一个列表)data.frames。看到色谱?获取详细信息。方法提供此功能pwiz后端。

2.3识别结果访问

对识别结果的主要访问是通过psm分数而且修改psm而且分数将返回每个PSM和分数的详细信息。修改将返回在缩氨酸中发现的每个修改的详细信息。

2.4元数据访问

运行的元数据可通过几个功能,如instrumentInfo ()runInfo ().各个字段可以通过如下方式访问。探测器()等。

谱元数据可通过头(),它将返回一个列表(对于单次扫描)或一个包含信息的数据框架,例如basePeakMZpeaksCount,…或,对于高阶MSmsLevel以及前体信息。

标识元数据可通过mzidInfo (),它将返回一个包含信息的列表,如软件ModificationSearchedSpectraSource以及这个鉴定结果的其他信息。

这种元数据的可用性不能总是得到保证,它取决于转换数据的MS软件。

3.例子

3.1mzXML/mzML/mzData文件

从质谱仪读取数据的简短序列示例。首先打开文件。

库(mzR)
##加载所需的包:Rcpp
library(msdata) mzxml <- system.file("threonine/threonine_i2_e35_pH_tree. file ")mzXML, package = "msdata") aa <- openMSfile(mzXML)

我们可以获得不同类型的头信息。

runInfo (aa)
scanCount美元# # # # # # # # 55 [1]lowMz # #美元[1]highMz美元50.0036 # # # # # # # # # # $ 298.673 [1]dStartTime # # # # # # $ 0.3485 [1] dEndTime # # # # # # $ 390.027 [1] msLevels # # [1] startTimeStamp美元1 2 3 4 # # # # # # [1]NA
instrumentInfo (aa)
[1]“Thermo Scientific”## ## $model ##[1]“LTQ Orbitrap”## ## $电离##[1]“电喷雾电离”## ## $分析仪##[1]“傅里叶变换离子回旋共振质谱仪”## ## $检测器##[1]“未知”## ## $software ##[1]“Xcalibur software 2.2 SP1”## ## $sample ##[1]“## ## $source ##[1]“”
头(aa, 1)
# # seqNum acquisitionNum msLevel极性peaksCount totIonCurrent retentionTime # # 1 1 1 1 1 684 341427000 0.3485 # # basePeakMZ basePeakIntensity collisionEnergy ionisationEnergy lowMZ highMZ # # 1 120.066 211860000 NA 0 50.3254 - 298.673 # # precursorScanNum precursorMZ precursorCharge precursorIntensity mergedScan不详不详不详不详不详# # 1 # # mergedResultScanNum mergedResultStartScanNum mergedResultEndScanNum NA NA NA # # 1 # # injectionTime filterString spectrumId # # 1 0 < NA > controllerType = 0controllerNumber=1 scan=1 ## centroided ionMobilityDriftTime isolationWindowTargetMZ ## 1 TRUE NA NA ## isolationWindowUpperOffset isolationWindowUpperOffset scanWindowLowerLimit ## 1 NA NA 50.3254 ## scanWindowUpperLimit ## 1 298.673

从文件中读取一个频谱。

pl <- peaks(aa,10)
## [1] 317
头(pl)
## mz强度## [1,]50.08176 6984.858 ## [2,]50.62267 7719.419 ## [3,]50.70530 7185.290 ## [4,]50.73298 7509.140 ## [5,]50.83848 9366.624 ## [6,]50.88303 8012.808
Plot (pl[,1], pl[,2], type="h", lwd=1)

当不需要时,应该总是关闭文件。这将释放缓存内容的内存。

关闭(aa)

3.2mzIdentML文件

你可以使用openIDfile阅读mzIdentML文件(版本1.1),它使用pwiz后端。

library(mzR) library(msdata) file <- system. txtfile("mzid", "Tandem.mzid.gz", package="msdata") x <- openIDfile(file)

mzidInfo函数将返回关于此识别结果的一般信息。

mzidInfo (x)
## $FileProvider ##[1] "研究员" ## ## $CreationDate ## [1] "2012-07-25T14:03:16" ## ## $software ## [1] "xtandem x!串联旋风分离器(2010.06.01.5)“# #”[2]ProteoWizard MzIdentML 3.0.21263 ProteoWizard ModificationSearched美元“# # # # # #[1]“氧化”“Carbamidomethyl FragmentTolerance美元“# # # # # #”[1]0.8道尔顿ParentTolerance美元“# # # # # #”[1]1.5道尔顿“# # # # # # # #酶酶美元$ name[1]“胰蛋白酶“# # # #酶nTermGain # #美元[1]“H”# # # #酶cTermGain # #美元[1]”哦“# # # #酶minDistance # #美元[1]”0“# # # #酶missedCleavages # #美元[1]”1 " ## ## ## $ SpectraSource # #[1]“D: / TestSpace / NeoTestMarch2011/55merge.mgf”

psm将返回每个肽谱匹配的详细信息,包括spectrumIDchargeState序列modNum和其他人。

P <- psms(x) colnames(P)
[1]“spectrumID”“chargeState”##[3]“rank”“passThreshold”##[5]“experimentalMassToCharge”“calculatedMassToCharge”##[7]“sequence”“peptideRef”##[9]“modNum”“isDecoy”## b[11]“post”“pre”## b[13]“start”“end”##[15]“DatabaseAccess”“DBseqLength”##[17]“DatabaseSeq”“DatabaseDescription”## b[19]“spectrum。标题acquisitionNum”

可以使用。访问修改信息修改,该函数将返回spectrumID序列的名字质量而且位置

M <-修改(x)头(M)
# # # # spectrumID序列1指数= 12 LCYIALDFDEEMKAAEDSSDIEK # # 2指数= 12 LCYIALDFDEEMKAAEDSSDIEK # # 3指数= 285 KDLYGNVVLSGGTTMYEGIGER # # 4指数= 83 KDLYGNVVLSGGTTMYEGIGER # # 5指数= 21 VIDENFGLVEGLMTTVHAATGTQK # # 6指数= 198 GVGGAIVLVLYDEMK质量# # 1 # # peptideRef名字LCYIALDFDEEMKAAEDSSDIEK_15.9949@M 12美元;_57.0215@C 2美元;_ Carbamidomethyl 57.0215 # # 2 LCYIALDFDEEMKAAEDSSDIEK_15.9949@M 12美元;_57.0215@C 2美元;_氧化15.9949 # # 3 KDLYGNVVLSGGTTMYEGIGER_15.9949@M 15美元;__氧化15.9949 # # 4__氧化15.9949 ## 5 VIDENFGLVEGLMTTVHAATGTQK_15.9949@M$13;__氧化15.9949 ## 6 GVGGAIVLVLYDEMK_15.9949@M$14;__氧化15.9949 ##位置## 12 ## 2 12 ## 3 15 ## 4 15 ## 5 13 ## 6 14

由于不同的软件会使用不同的评分功能,我们提供了一个分数提取每个psm的分数。它将返回一个data.frame,其中包含不同的列,这取决于生成该文件的软件。

SCR <- score(x) colnames(SCR)
## [1] "spectrumID" "X.Tandem。预计X.Tandem.hyperscore”

4未来的计划

HUPO提供的其他文件格式,如mzQuantML对于定量数据(Walzer et al. 2013)在未来也是可能的。

5会话信息

钱伯斯,马修·C,布伦丹·麦克林,罗伯特·伯克,达里奥·阿莫代,丹尼尔·l·鲁德曼,斯蒂芬·诺伊曼,劳伦特·加托等,2012。“质谱和蛋白质组学的跨平台工具包。”Nat生物技术30(10): 918-20。https://doi.org/10.1038/nbt.2377

Eddelbuettel, Dirk和Romain François。2011.“Rcpp:无缝R和c++集成。”统计软件杂志40(8): 1-18。http://www.jstatsoft.org/v40/i08/

盖托,L, K S利利,2012。MSnbase -用于等压标记质谱数据可视化、处理和定量的R/生物导体包。生物信息学28(2): 288-9。https://doi.org/10.1093/bioinformatics/btr645

琼斯,A R, M Eisenacher, G Mayer, O Kohlbacher, J Siepen, S J Hubbard, J N Selley等。2012。“基于质谱的蛋白质组学结果的mzIdentML数据标准。”Mol细胞蛋白质组学11 (7): m111.014381。https://doi.org/10.1074/mcp.M111.014381

凯斯纳,达伦,马特·钱伯斯,罗伯特·伯克,大卫·阿古斯和帕拉格·马利克,2008。ProteoWizard:快速蛋白质组学工具开发的开源软件。生物信息学24(21): 2534-6。https://doi.org/10.1093/bioinformatics/btn323

马丁斯,伦纳特,马修·钱伯斯,马克·斯特姆,达伦·凯斯纳,弗雷德里克·勒凡德,吉姆·肖夫斯塔尔,威尔弗雷德·H·唐等,2010。“MzML -质谱数据共同体标准。”分子和细胞蛋白质组学:MCPhttps://doi.org/10.1074/mcp.R110.000133

奥查德,桑德拉,路易莎·蒙特齐-帕拉齐,埃里克·W·多伊奇,皮埃尔-阿兰·宾茨,安德鲁·R·琼斯,诺曼·佩顿,安吉尔·皮萨罗,大卫·M·克雷塞,Jérôme沃伊西克,亨宁·赫姆雅各布。2007。“蛋白质组学数据标准化的五年进展hupo -蛋白质组学标准倡议第四届春季研讨会,2007年4月23-25日,法国里昂国立大学Supérieure (Ens)。”蛋白质组学7(19): 3436-40。https://doi.org/10.1002/pmic.200700658

Pedrioli, Patrick G A, Jimmy K Eng, Robert Hubley, Mathijs Vogelzang, Eric W Deutsch, Brian Raught, Brian Pratt等,2004。质谱数据的通用开放表示及其在蛋白质组学研究中的应用生物科技Nat。》。22(11): 1459-66。https://doi.org/10.1038/nbt1031

史密斯,C A, E J Want, G O 'Maille, R Abagyan, G Siuzdak, 2006。XCMS:使用非线性峰比对、匹配和识别处理代谢物谱分析的质谱数据。肛门化学78(3): 779-87。https://doi.org/10.1021/ac051437y

Walzer, M, D Qi, G Mayer, J Uszkoreit, M Eisenacher, T Sachsenberg, F F Gonzalez-Galarza等。2013。蛋白质组学中基于质谱的定量研究的mzQuantML数据标准Mol细胞蛋白质组学12(8): 2332-40。https://doi.org/10.1074/mcp.O113.028506