1简介

RMassBank是由两部分组成的计算质谱工作流程:

在第一步中，从原始LC-MS数据文件中提取化合物的MSMS光谱，使用指定的片段公式重新校准MSMS光谱，并通过仅使用标注的峰(加上可以手动添加的峰)有效地去噪。
在第二步中，经过处理、重新校准和清理的数据准备提交到MassBank数据库。化合物首先使用化学翻译服务(CTS)的信息自动注释。在手动检查和修正注释后，信息与光谱数据一起编译成MassBank记录，然后可以上传到MassBank数据库。

本插图描述了标准工作流的基本用法。该包是灵活的，并允许不同的高级用例。的专门应用实例RMassBank可在RMassBank由代谢组学论坛主办的留言板:(http://www.metabolomics-forum.com/viewforum.php?f=29)．

2安装及装载

该库可从Bioconductor ((//www.andersvercelli.com))。除了库本身，建议安装OpenBabel化学工具包，可从(http://www.openbabel.org)适用于各种平台(或通过Linux包分发系统)。

库按如下方式加载

库(RMassBank)

##加载所需的包:Rcpp

##警告:替换以前的导入'MSnbase::header'由'R.utils::header' ##加载'RMassBank'

##警告:替换以前的导入'R.utils::reset'由'RCurl::reset'当##加载'RMassBank'

##警告:当##加载'RMassBank'时，替换之前的导入'R.utils::header'由'mzR::header'

以下示例中使用的数据可以作为包获得RMassBankData，必须单独安装，并使用

库(RMassBankData)

3.输入文件

3．1LC / MS数据

RMassBank在质心处理mzML格式的高分辨率LC/MS谱111这里的术语“质心”指的是任何类型的数据，这些数据不是剖面模式，即没有连续的m/z数据。它不是指(数学上的)质心峰值，即面积加权质量峰值。或者配置文件模式。

使用LTQ Orbitrap XL仪器在剖面模式下获取样本数据，并使用ProteoWizard的MSConvertGUI将剖面模式RAW转换为质心模式mzML。设置如下截图所示(注意“Peak Picking”过滤器)。无花果:proteowiz

图1:转换为mzML的ProteoWiz设置

在标准工作流中，文件名用于识别复合:文件名必须采用以下格式xxxxxxxx_1234_xxx.mzXML，其中xxx部分表示任何东西，1234部分表示复合列表中的复合ID(见下文)。可实现高级和替代用途;咨询实施msms_workflow而且findMsMsHR获取更多信息。

3.2化合物列表

需要一个CSV格式的化合物列表，以明确地识别所有化合物。CSV文件需要至少有以下列，用于进一步处理，并且必须正确命名(但以任何顺序出现):ID，名字，SMILES, RT, CAS．列ID而且微笑必须填写，其他列必须出现在文件中，但不需要填写。ID指定一个(任意)数字ID代码，长度必须小于4位;微笑指定带有化合物化学结构的SMILES代码(并用于提取分子式，计算分子质量，用于CTS数据库搜索等)名称，RT, CAS必须存在，列中的信息仅在单元格填充时使用。RT(如果存在)指定保留时间(以分钟为单位;\下午(\ \)在RMassBank选项中指定的窗口，见下文)，其中LC/MS文件用于搜索复合光谱。中科院而且的名字用作从CTS检索注释时的附加信息。复合列表不必以任何特定的方式排序。它可以包含大量化合物，甚至脚本不会主动使用的化合物(注意:未使用的化合物不需要SMILES代码，因为它们不会被访问)。

提供了一个示例列表RMassBankData包，并可以复制到本地文件夹，查看和编辑:

file.copy(system.file("list/NarcoticsDataset.csv"， package="RMassBankData")， "./Compoundlist.csv")

##[1]真

3．3设置

许多不同的设置会影响RMassBank。它们部分是用于数据处理的参数，部分是用于注释的常量。

一个设置模板文件，手动编辑，可以生成使用

RmbSettingsTemplate(“mysettings.ini”)

在哪里mysettings.ini将生成的文件。然后应该编辑该文件。重要设置如下:

deprofile:是否使用反分析算法处理配置模式数据。默认是NA用于质心模式数据。配置文件模式数据的允许设置包括deprofile.fwhm(全宽半极大值算法)，deprofile.spline(三次样条算法)，deprofile.localmax(局部最大值)。有关详细信息，请参阅相应的帮助页。
rtMargin:从原始数据文件中提取光谱时允许保留时间(分钟)的偏差。
rtShift: LC-MS数据中相对于复合列表中的值的系统保留时间偏移(单位:分钟)。
babeldir:指向OpenBabel二进制文件的目录。
use_version使用哪种MassBank数据格式。默认是更新的版本2;或者，可以为运行旧版本服务器软件的MassBank服务器指定(已弃用的)版本1。
use_rean_peaks:是否应使用再分析的峰值(详情见下文)。
add_annotation:片段是否应标注MassBank记录中的(暂定)分子式。
注释: MassBank记录中使用的注释数据列表。
- 作者，版权，出版，许可证，仪器，instrument_type，compound_class:对应MassBank字段的值
- confidence_comment:关于“复合信心”的评论字段，在MassBank记录中添加了“COMMENT:信心标准复合”。
- internal_id_fieldname: MassBank记录中存储复合ID(在复合列表中)的内部ID字段的名称。为internal_id_fieldname= " MY_ID "时，ID将以" COMMENT: MY_ID 1234 "的方式存储。
- entry_prefix: MassBank登录id的前缀。
- ms_type，电离，lc_ *: MassBank记录中LC和MS信息字段的标注。
- ms_dataprocessing:用于描述数据处理过程的标签。除了这里指定的标记之外，还将为该选项添加MS$DATA_PROCESSING: WHOLE RMassBank(对应于列表(" WHOLE " = " RMassBank ")项)。
注释器:对于高级用户:选择自己的自定义注释器的选项。查看? annotation .default和源代码了解详细信息。
spectraList:由MS1扫描触发的依赖数据的扫描列表，按顺序排列;用于批注MassBank记录。有关描述请参见模板文件。
accessionBuilderType:一个字符串(“standard”，“simple”或“self - defined”)，用于确定如何生成MassBank记录登录号(可选，默认为“standard”)。RMassBank为每条记录生成一个登录号。这个数字的结构和生成因accessionBuilderType．
- " standard ":生成由任意数量的字母和6位代码组成的登录号。字母代码定义为注释entry_prefix美元，前四位数字由复合ID给出。最后两位数字是根据频谱的位置生成的spectraList位移定义在accessionNumberShifts对于所选的离子类型(例如:ID为2112的化合物，在“pNa”模式下处理([M+Na]+)，如果“pNa”位移设置为32，则在依赖数据扫描的第一、第二光谱中将有编号XX211233、XX211234…等。)
- " simple ":生成由任意数量的字母和6位代码组成的登录号。字母代码定义为注释entry_prefix美元，则根据频谱的位置生成6位编码spectraList以及给定的位移accessionNumberStart．如果需要，前导零会被加上。(例如:在依赖数据的扫描if中，将为第一，第二…频谱生成接入号XX000043, XX000045accessionNumberStart设置为32。)
- " self -defined ":登录号由中给出的用户定义函数生成accessionBuilderFile．特别地，对前缀和没有约束注释entry_prefix美元将被忽略，如果选择此选项。函数定义必须为-函数(cpd, spectrm, subscan)．注意:这个功能相当高级。如果你真的想指定你自己的accessionBuilder我们强烈建议您熟悉函数的源代码，而不是使用“简单”或“标准”选项.buildRecord.RmbSpectraSet在buildRecord。R第一。
accessionNumberShifts:定义生成MassBank记录登录号的起始点的列表。如果accessionBuilderType是不明确的或“标准的”(见accessionBuilderType如上图所示)。
accessionBuilderFile:带有用户定义函数的文件，用于生成MassBank记录登录号。如果accessionBuilderType是“自我定义的”(看accessionBuilderType以上。）
accessionNumberStart: < 1000000的整数，定义MassBank记录登录号的起点。如果accessionBuilderType是“简单”。(见accessionBuilderType如上图所示)。
项目:给出项目标记的字符串，可选。如果出现，这将包括在项目字段的记录。
recalibrateBy:使用哪个参数进行重新校准:dppm(以ppm为单位重新校准偏差)或非军事区(重新校准m/z偏差)。
recalibrateMS1:是否将MS1数据点与MS2数据点分开重新校正(“独立”)，其重新校正曲线与MS2数据点(“普通”)或不吃(“没有”)．请注意，在所有情况下，MS1数据点将用于生成MS2重新校准曲线(因为这使得高m/z区域的重新校准曲线定义更好)，但如果需要，可以自行独立重新校准。
recalibrator:设置用于重新校准的函数。默认为列表(MS1 = "调整。黄土”,一份= " recalibrate.loess”)该方法使用黄土非参数拟合来生成重新校准曲线。可以指定任何自定义函数。该函数将接受一个包含变量的数据集recalfield而且mzFound并返回一个可用于的对象预测()．输入recalfield该值是否要通过重新校准来估计-它将包含delta PPM值或绝对质量偏差，这取决于设置recalibrateBy．除了recalibrate.loess，重新校准。MS1是预定义的，它使用GAM模型进行重新校准，对于纯MS1数据点似乎工作得很好。然而，一般来说，MS1和MS2的共同重新校准似乎是最佳选择。
multiplicityFilter:定义多重过滤级别。默认值为2,1表示关闭(不过滤)，>2表示更严格的过滤。
titleFormat: MassBank记录的标题是记录的一个小摘要，例如“恐龙呋喃;LC-ESI-QFT;一份;CE: 35%;R = 35000;[M + H) +”。默认情况下，第一个复合名称CH美元的名字，仪表类型AC INSTRUMENT_TYPE美元， MS/MS类型AC MASS_SPECTROMETRY美元:MS_TYPE，碰撞能RECORD_TITLE_CE,决议AC $ MASS_SPECTROMETRY:决议和前体FOCUSED_ION美元女士:PRECURSOR_TYPE使用。如果替代信息与区分获得的光谱相关，标题应进行调整。例如，许多tof没有分辨率设置。有关更多信息，请参阅MassBank文档。
filterSettings:影响MS/MS处理的设置列表。
- ppmHighMass，ppmLowMass:在重新校准之前用于预处理的值。默认设置(例如，Orbitrap)是10ppm的高质量范围，15ppm的低质量范围(由massRangeDivision）
- massRangeDivision:定义分隔的m/z值ppmHighMass而且ppmLowMass以上。对于orbitrap，推荐使用默认的m/z 120。
- ppmFine:这定义了ppm截止柱重新校准。建议orbitrap的默认值为5ppm。
- prelimCut，prelimCutRatio:用于预处理的强度截止和截止比(以最强烈峰值的%为单位)。仅影响重新校准时的峰值选择。注意:对于Orbitrap LTQ阳性的默认1e4可以删除TOF数据的所有峰值，并将删除Orbitrap LTQ负模谱的太多峰值!
- specOkLimit:质谱/质谱必须至少有一个峰值高于此极限才能进行处理。
- dbeMinLimit:指定公式所允许的最小环和双键当量(DBE)。假设具有多个可能价的元素的最大价。默认值为-0.5(考虑到片段峰值为离子)。
- satelliteMzLimit，satelliteIntLimit:卫星去峰截断m/z和强度值。在各自峰值的m/z(默认为0.5)和强度比(默认为0.05或5%)内的所有峰值将被删除。适用于傅里叶变换仪器(如Orbitrap)。
findMsMsRawSettings:调整原始数据检索参数。
- ppmFine:在MS1(父)谱中寻找前体的ppm误差。Orbitrap的默认值是10ppm。
- mzCoarse:在MS2频谱中搜索前体规格的错误。这通常只保存到小数点后2位，因此不准确，也可能取决于隔离窗口。默认设置(例如Orbitrap)为m/z=0.5mzCoarse．
- fillPrecursorScan:默认值(FALSE)假设mzML文件中所有必要的前导信息都可用。TRUE设置尝试填充丢失的前体数据扫描号。
  到目前为止只在一个案例研究中进行了测试。
logging_file:设置日志写入的文件。默认情况下,logging_file不指定，所有日志信息都写入STDOUT。注意:此设置将导致一个静态包变量包含日志文件。该变量由日志函数检查，而不是由设置检查。因此，随后手动更改设置不会更改日志文件。

参见manpageRmbSettings ?查看所有RMassBank设置的描述。

4工作流

4．1质谱工作流程

在工作流程的第一部分，从文件中提取光谱并进行处理。在下面的例子中，我们将处理来自RMassBankData包中。

为了使工作流正常工作，必须首先加载一个设置文件(如上所述生成并相应地编辑)。

loadRmbSettings(“mysettings.ini”)

(注:生成的模板文件RmbSettingsTemplate ()没有指定OpenBabel目录。相应地，RMassBank将使用CACTUS服务来生成MOL文件。对于您的实际使用，强烈建议安装OpenBabel并在设置中指定其安装目录!CACTUS结构在视觉上不那么吸引人，因为它们都是明确的氢原子，CACTUS只是一个备用方案。)

的工作空间msmsWorkflow：

w <- newMsmsWorkspace()

文件的完整路径必须加载到数组中的容器中文件：

Files <- list.files(system. Files)文件("spectra"， package="RMassBankData")， "。mzML"， full.names = TRUE)

##[1] " 1_3_氯苯_哌嗪_2818_pos. "mzML" ##[2] " 1_3_三氟甲基苯基哌嗪_2819_pos。1_Benzylpiperazin_2820_pos. mzML" ## [3] "1_Benzylpiperazin_2820_pos. "mzML" ## [4] "Amitriptylin_2821_pos。安非他命_ _ (## [5])mzML" ## [6] "Benzoylecgonin_2823_pos. mzML" ## [6] "mzML" ## [7] "Cocain_2817_pos。mzML" ## [8] "Dextromethorphan_2824_pos。mzML" ## [9] " eddp_2_ethyl_1_5_二甲基_3_3_二苯基吡咯啉um_2825_pos。mzML" ## [10] "Ephedrin_2758_pos。mzML" ##[11] "氯胺酮_2826_pos。mzML“##[12]”Mephedron_4_Methylmethcathinon_2827_pos。mzML“##[13]”Methadon_2828_pos。mzML" ##[14] "冰毒_2829_pos。mzML" ## [15] "Naltrexon_2830_pos.mzML"

#为了让这里的工作流程更快，我们只使用了2个化合物:w@files <- files[1:2]

注意复合id在文件名中的位置。从历史上看，pos的结尾用来表示极性;它现在已经过时了，但是ID必须以下划线结束。

此外，复合列表必须使用loadList(这里，使用以前复制的列表RMassBankData)：

loadList(“。/ Compoundlist.csv”)

这就创建了一个变量compoundList在全局环境中，该环境存储复合数据。现在，我们可以开始提取[M+H]+光谱数据的完整工作流。工作流标准工作流由8个步骤组成。

这个论点archivename指定存储分析结果文件的前缀。这个论点模式指定处理模式:pH值(正H)表示[M+H]+，机构指定[M + Na) +,点指定[M] +,mH而且mFA分别指定[M- h]-和[M+FA]-。(我为我的名字道歉pH值这和化学物质完全没有关系pH值值)。

基本上，这贯穿整个工作流程，下面将详细解释:*第一步:使用函数findMsMsHR，所有的文件文件寻找各自化合物的MS2光谱。发现的光谱存储在阵列中规格．*步骤2:以母体化合物的分子式为极限公式，利用函数，对每个峰尝试一个分子式拟合analyzeMsMs．结果存储在数组中analyzedSpecs．*步骤3:从阵列中分析光谱analyzedSpecs聚合到列表中aggregatedSpecs．这里使用了函数aggregateSpectra．*步骤4:使用函数recalibrateSpectra的峰值，计算出一条再校准曲线aggregatedSpecs的所有光谱规格用这条曲线重新校准。结果存储在recalibratedSpecs．重新校准曲线存储在钢筋混凝土．*第五步:重新校准的光谱(recalibratedSpecs)进行重新分析analyzeMsMs并将结果存储在analyzedRcSpecs．*步骤6:对重新分析的重新校准光谱进行聚合aggregateSpectra成aggregatedRcSpecs．无与伦比的高峰aggregatedRcSpecs使用时是否清除已知的电子噪音cleanElnoise．所有当前结果的备份副本保存为archivename ' '。RData．第七步:使用reanalyzeFailpeaks，所有不匹配的峰从光谱aggregatedRcSpecs重新分析，允许吗\ (N_2O \)作为附加元素(以说明氧化产物和$甲烷$加合物)。结果存储在reanalyzedRcSpecs．所有当前结果的备份副本保存为archivename“_RA。RData*步骤8:函数filterMultiplicity适用于峰:在化合物的所有分析光谱中只出现一次的峰被消除。过滤后的列表存储在refilteredSpecs，所有结果的最终版本保存为archivename“_RF。RData．此外,filterMultiplicity创建一个CSV文件，其中包含(相对)强度较高的未分配峰值archivename“_Failpeaks.csv，需要手动检查。要包含的峰值必须用OK = 1标记。

方法可以单独调用这些步骤步骤参数的msms_workflow．使用newRecalibration参数，可以指定RMassBank是否应该进行新的重新校准(默认为真正的)或使用储存于钢筋混凝土（假)．这对于在另一种模式下重新分析相同数据时重新使用重新校准曲线是有用的:在检测和处理所有[M+H]+光谱后，将出现大量化合物，可以重新运行工作流程newreccalibration = F, mode="pNa"并对Na加合光谱重复使用相同的校准曲线(对于足够好的重新校准曲线来说，它们本身太少了。)的useRtLimit参数在搜索光谱时激活或禁用保留时间约束的使用findMsMsHR．

分两个块执行工作流是很有用的，第一个是步骤1-4，第二个是步骤5-8。在步骤4之后，将显示一个图形，允许用户直观地评估重新校准的性能。上图为MS/MS碎片质量偏差与预测质量的分布以及由此计算出的重校正曲线;下面的图表显示了MS前驱体离子的质量偏差。左边的图形是一个完整的xy图形，而右边的图形是一个2D直方图(如果包gplots安装在用户的计算机上)。

待办事项:Chunk 10中的工作流执行目前是禁用的，我执行Chunk 11代替已经完成的步骤。

w <- msmsWorkflow(w, mode="pH"， steps=c(1:4)， archivename =" ph_")

重新校准也可以在后面的阶段绘制:

plotRecalibration (w)

如果您正在试验可能会给出错误的新数据集，建议一步一步地运行工作流。这是因为如果发生错误，您将丢失工作流中的所有中间结果，这可能会使查找错误变得复杂。(例如，如果你处理步骤2-4，在步骤3中发生错误，你将失去步骤2的结果。)

w <- msmsWorkflow(w, mode="pH"， steps=1) w <- msmsWorkflow(w, mode="pH"， steps=2) w <- msmsWorkflow(w, mode="pH"， steps=3) #等。

检查第1步是否检索了任何数据是有用的:

拉普兰人(w@spectra函数(s) s@found)

要通过工作流检查进度，可以调用例如:

findProgress (w)

注意，通常需要对>15个化合物进行重新校准，化合物越多，曲线就越平滑。为了显示完整数据集的曲线，我们可以从RMassBankData打包到另一个工作流容器中。

在真正评估的工作流中，我们执行以下操作:运行步骤1到步骤3，从存储的工作流中加载重新校准曲线，并使用该曲线重新校准数据。storedW <- loadMsmsWorkspace(system.file("results/pH_narcotics_RF. "RData”,包= " RMassBankData "))

##在. updateobject . rmbworkspace中警告。1拽着(w,…，verbose): You are ## loading an archive from an old RMassBank version. The aggregate tables are ## not loaded from the original object, but recomputed.

##在. updateobject . rmbworkspace中警告。1拽着(w,…，verbose): If you hand- ## edited any aggregate table, the information might not be retained in the ## new object.

##在. updateobject . rmbworkspace中警告。1拽着(w,…，verbose): You are ## loading an archive from an old RMassBank version. The aggregate tables are ## not loaded from the original object, but recomputed.

##在. updateobject . rmbworkspace中警告。1拽着(w,…，verbose): If you hand- ## edited any aggregate table, the information might not be retained in the ## new object.

##在. updateobject . rmbworkspace中警告。1拽着(w,…，verbose): You are ## loading an archive from an old RMassBank version. The multiplicity ## filtering results are not loaded from the original object, but recomputed.

##在. updateobject . rmbworkspace中警告。1拽着(w,…，verbose): If you hand- ## edited any multiplicity filtering results, the information might not be ## retained in the new object.

由于这条重新校准曲线是从整个15个文件数据集的MassBank运行中计算出来的，我们可以将其复制到我们的工作空间中，并使用它来重新校准我们的数据，而无需制作新的重新校准曲线:

#只是显示从#完整数据集计算的重新校准曲线:storedW <- msmsWorkflow(storedW, mode="pH"， steps=4)

#复制重新校准到工作区w并应用它#(这里没有图形显示)w@rc <- storedW@parent@rc w@rc.ms1 <- storedW@parent@rc.ms1 w <- msmsWorkflow(w, mode="pH"， steps=4, archivename =" ph_"， newrec校准= FALSE)

然后可以处理工作流的第二部分:

w <- msmsWorkflow(w, mode="pH"， steps=c(5:8)， archivename =" ph_")

如果工作流是手动执行的，结果可以在任何时候使用

archiveResults (w,文件名)

前者将结果写入一个文件，后者复制R对象，在它们的名称前加上前缀。(请注意，在整个工作流程中，如果不执行命令，结果将在步骤6、7和8之后自动存储archivename是给定的。因此,archivename)参数只是步骤1-5的形式，但是为了一致性可以添加。

的工作流中的结果文件RMassBankData麻醉品光谱数据集RMassBankData，包括已标记的Failpeaks.csv列表。

4.2MassBank记录工作流

分析后的光谱数据集可以被处理以生成MassBank记录。这主要分为两个步骤:首先，从互联网上检索所有化合物的注释，如果它们还没有出现在之前编译的光谱中(例如，如果一个互联网注释已经被用于创建[M+H]+光谱，它可以自动在[M-H]-光谱中重用)。

首先，必须从processed开始创建MassBank结果的工作空间msmsWorkflow必须加载结果和潜在的预先存在的infolist。

为了说明工作流程，其中包含了一个半完整的注释列表RMassBankData．

mb <- newMbWorkspace(w) mb <- resetInfolists(mb) mb <- loadInfolists(mb, system。文件(“infolists_incomplete”,包=“RMassBankData”))

通常，我们会用个人文件夹来调用这个函数:

mb <- resetInfolists(mb) mb <- loadInfolists(mb, my_folder_with_csv_infolists_inside)

如果我们检查Failpeaks.csv从前面的步骤中找到了一些我们想要手动添加的重要峰值，我们可以这样做，并将峰值加载到additional_peaks数组:

- addPeaks(mb, my_corrected_Failpeaks.csv)

现在，记录生成工作流可以开始了:

mb <- mbWorkflow(mb, infolist_path="./Narcotics_infolist.csv")

对于所有不存在于吲哚类化合物中的化合物infolists_incomplete文件夹中获取并写入一个条目Narcotics_infolist.csv(如果不指定infolist_path，则默认路径为。/ infolist.csv)。然后应该手动编辑和修复该文件。条目不必是完整的;必填字段为:至少1个名称、公式、确切质量、SMILES代码、InChI标准代码、InChI标准键。必须手动修复的常见错误:infolist中有两个几乎相同的名称;一个非常高的ChemSpider ID，而存在一个较低的ID(这是“更好的”)，一个ChEBI条目说“ChEBI”而不是实际的ChEBI代码。

注意:在此阶段，复合名称取自用户提供的复合列表和来自CTS的一个IUPAC条目。请仔细检查你的复合表!一旦评分系统重新纳入新服务，CTS原有的命名系统将恢复。

修复CSV infolist后，应该将其复制到infolist文件夹中，并重新加载infolist:

mb <- resetInfolists(mb) mb <- loadInfolists(mb, my_folder_with_csv_infolists_inside)

为了简单/易于测试，其中包括麻醉剂数据集的完整列表RMassBankData：

mb <- resetInfolists(mb) mb <- loadInfolists(mb, system. mb)文件(“infolists”,包=“RMassBankData”))

当我们再次运行工作流时，“没有添加新数据”这一行意味着infolist已经完成，因此工作流可以继续。

mb <- mbWorkflow(mb)

*步骤1:对于不在已加载infolist中的复合id，使用函数从CTS中获取新数据gather.data储存在mbdata树形结构。*步骤2:如果检索到新数据，则将其导出到infolist_path在平面表格格式中，工作流停止，否则工作流继续。*步骤3:infolists装载loadInfolists转化为树状的MassBank复合信息readMbdata存储为mbdata_relisted．*步骤4:使用函数compileRecords的复合信息mbdata_relisted结合光谱数据和峰值列表从aggregatedRcSpecs而且refilteredRcSpecs创建已编译记录(存储在编译)．所有已编译的记录中，每个化合物至少有一个良好的光谱compiled_ok．*步骤5:函数toMassbank将记录转换为文本文件数组，存储在mbfiles．*步骤6:为使用的所有化合物生成molfilecreateMolfile储存在molfiles．*步骤7:存储在R变量中的数据mbfiles而且molfiles写入物理文件使用exportMassbank在以MassBank条目前缀命名的子文件夹中。*步骤8:Alist.tsv文件是使用makeMollist．

随后，两个文件夹moldata而且recdata可以压缩和上传。这不是自动的，因为Windows版本的邮政编码需要额外安装的工具。

注意:这里，第6步使用CACTUS生成的molfile数据。如上所述，强烈建议安装OpenBabel并将其路径添加到配置文件中以供使用mbWorkflow步骤6。

5会话信息

sessionInfo ()

## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。utf - 8 LC_NAME = en_US。UTF-8 ## [9] LC_ADDRESS=en_US。utf - 8 LC_TELEPHONE = en_US。UTF-8 ## [11] LC_MEASUREMENT=en_US。utf - 8 LC_IDENTIFICATION = en_US。UTF-8 ## ##附加的基础包:## [1]stats graphics grDevices utils datasets methods base ## ##其他附加包:## [1]RMassBankData_1.35.0 RMassBank_3.9.0 Rcpp_1.0.9 ## [4] BiocStyle_2.27.0 ## ##通过命名空间加载(且未附加):## [10] png_0.1-7 vctrs_0.5.0 rvest_1.0.3 ## [13] string_1 .4.1 ProtGenerics_1.31.0 pkgconfig_2.0.3 ## [19] readJDX_0.6.1 utf8_1.2.2 rmarkdown_2.17 ## [22] preprocessCore_1.61.0 itertools_0.1-3 purrr_0.3.5 ## [28] ChemmineR_3.51.0 jsonlite_1.8.3 highr_0.9 ## [31][40] bookdown_0.29 assertthat_0.2.1 iterators_1.0.14 ## [43] knitr_1.40 base64enc_0.1-3 .utils_2.12.1 ## [46] IRanges_2.33.0 tidyselect_1.2.0 rcdk_3.7.0 ## [49] yaml_2.3.6 gplots_3.1.3 doParallel_1.0.17 ## [52] codetools_0.2-18 affy_1.77.0 curl_4.3.3 ## [55] lattice_0.20-45 tibble_3.1.8 plyr_1.8.7 ## [58] Biobase_2.59.0 evaluate_0.17 rJava_1.0-6 ##[61] xml2_1.3.3 pillar_1.8.1 affyio_1.69.0 ## [64] BiocManager_1.30.19 KernSmooth_2.23-20 DT_0.26 ## [67] foreach_1.5.2 stats4_4.3.0 MSnbase_2.25.0 ## [70] MALDIquant_1.21 ncdf4_1.19 generics_0.1.3 ## [73] RCurl_1.98-1.9 S4Vectors_0.37.0 ggplot2_3.3.6 ## [76] munsell_0.5.0 scales_1.2.1 gtools_3.9.3 ## [79] glue_1.6.2 webchem_1.1.3 tools_4.3.0 ## [82] mzID_1.37.0 data.table_1.14.4 vsn_3.67.0 ## [85] mzR_2.33.0 XML_3.99-0.12 grid_4.3.0 ## [88] impute_1.73.0 fingerprint_3.5.7 MsCoreUtils_1.11.0 ## #[91] colorspace_2.0-3 cli_3.4.1 rsvg_2.3.2 ## [94] fansi_1.0.3 dplyr_1.0.10 pcaMethods_1.91.0 ## [97] gtable_0.3.1 r.d astss3_1 .8.2 sass_0.4.2 ## [100] digest_0.6.30 BiocGenerics_0.45.0 rjson_0.2.21 ## [103] htmlwidgets_1.5.4 htmltools_0.5.3 R.oo_1.25.0 ## [106] lifecycle_1.0.3 httr_1.4.4 MASS_7.3-58.1

RMassBank:工作流示例

2022年11月1日

1简介