注意:这个小插图的最新版本可以找到在这里

注意:如果你使用systemPipeR而且systemPipeRdata在已发表的研究中,请引用:

贝克曼,T.W.H和格克,T.(2016)。systemPipeR:工作流和报表生成环境。BMC生物信息学, 17: 388。10.1186 / s12859 - 016 - 1241 - 0

1介绍

systemPipeRdatahelper包是否要使用单个命令工作流模板生成,以便由其父包使用systemPipeR(H Backman and Girke 2016).的systemPipeR项目提供了一套R/Bioconductor软件包,用于在本地机器、HPC集群和云系统上设计、构建和运行端到端分析工作流,同时生成发布质量分析报告。

为了快速测试工作流或根据现有模板设计新的工作流,用户可以使用单个命令工作流实例生成,其中完全填充了运行所选工作流所需的示例数据和参数文件。所使用的工作流环境的预配置目录结构和样例数据systemPipeRdata描述在这里

systemPipeRdata包提供了在工作流报告小插图中使用的演示示例FASTQ文件。所选的数据集SRP010938从中获得18个成对端(PE)读集Arabidposis芥(Howard et al. 2013).为了最小化测试期间的处理时间,每个FASTQ文件都被细分为90,000-100,000个随机采样的PE读取,映射到每个染色体的前100,000个核苷酸答:thalina基因组。相应的参考基因组序列(FASTA)及其GFF注释文件(在同一下载中提供)已被相应截断。这样,整个测试样本数据集所需的磁盘存储空间小于200MB。为了灵活性,我们选择了PE读取集作为测试数据集,因为它可以用于测试需要SE(单端)读取或PE读取的两种类型的分析例程。

2开始

2.1安装

systemPipeRdata套装可于Bioconductor可以从R中安装,如下所示:

如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("systemPipeRdata")

此外,还可以从。安装开发版本Bioconductor

BiocManager::install("systemPipeRdata", version = "devel", build_vignettes = TRUE, dependencies = TRUE) #从Bioconductor安装devel版本

2.2装载包和文件

library("systemPipeRdata") #加载包
library(help = "systemPipeRdata") #列出包信息小插图("systemPipeRdata") #打开小插图

3.从预先配置的工作流模板开始

将其中一个可用工作流加载到当前工作目录中。下面为rnaseq工作流模板。生成的工作流目录的名称可以在mydirname论点。默认的使用所选工作流的名称。如果名称和路径相同的目录已经存在,则发出错误。

genWorkenvir(工作流= "systemPipeR/SPrnaseq", mydirname = "rnaseq") setwd("rnaseq")

在Linux和OS X系统上,可以从终端的命令行使用以下命令实现相同的功能。

$ Rscript -e "systemPipeRdata::genWorkenvir(工作流='systemPipeR/SPrnaseq', mydirname='rnaseq')"

3.1构建、运行和可视化工作流模板

  • 从RMarkdown文件构建工作流

此模板提供了一些常用步骤RNAseq工作流。上的操作可以添加、删除、修改工作流步骤萨尔对象。

sal <- SPRproject() sal <- importtwf (sal, file_path = "systemPipeVARseq. "Rmd", verbose = FALSE)
  • 运行工作流

接下来,我们可以用一个命令在R中运行整个工作流:

sal <- runWF(sal)
  • 可视化工作流

systemPipeR方法可以可视化工作流实例plotWF函数。

plotWF (sal)
  • 报告生成

systemPipeR在一个中心位置编译所有工作流执行日志,使其更容易检查任何标准输出(stdout)或标准错误(stderr)用于工作流或R代码标准输出中使用的任何命令行工具。

sal <- renderLogs(sal)

此外,技术报告可以使用renderReport函数。

sal <- renderReport(sal)

4工作流模板收集

有一组可用的工作流模板,可以浏览当前可用性,如下所示:

availableWF(github = TRUE)

这个函数返回包和中可用的工作流模板列表systemPipeR组织在GitHub上。每个列出的模板都可以按照上面的描述创建。

从Github中选择的工作流模板将作为一个R包安装,并且它还创建了包含所有设置和文件的环境来运行演示分析。

genWorkenvir(工作流="systemPipeR/SPrnaseq", mydirname="NULL") setwd("SPrnaseq")

此外,可以选择不同版本的工作流模板,通过GitHub存储库上的其他分支定义。默认情况下,方法定义不同的分支,但是可以使用裁判论点。

genWorkenvir(workflow="systemPipeR/SPrnaseq", ref =" singleMachine") setwd("SPrnaseq")

4.1下载一个特定的R Markdown文件

此外,还可以为您的分析下载特定的工作流脚本。URL可以在url参数中的R Markdown文件名urlname论点。默认的复制所选模板中可用的当前版本。

genWorkenvir(工作流="systemPipeR/SPrnaseq", url =" https://raw.githubusercontent.com/systemPipeR/systemPipeRNAseq/cluster/vignettes/systemPipeRNAseq.Rmd", urlname =" rnaseq_V-cluster.Rmd") setwd("rnaseq")

5动态生成工作流模板

可以从RStudio菜单中创建一个新的工作流结构File -> New File -> R Markdown -> From Template -> systemPipeR新建工作流.此交互选项将创建与上面演示的相同的环境。

图1:在RStudio中选择工作流模板。

6目录结构

生成的工作流模板genWorkenvir包含以下预配置的目录结构:

  • 工作流/如。rnaseq /
    • 这是运行工作流的R会话的根目录。
    • 运行脚本(*。限制型心肌病)和样例注释(targets.txt)文件都在这里。
    • 注意,这个目录可以有任何名称(如。rnaseqvarseq).更改它的名称不需要在运行脚本中进行任何修改。
    • 重要的子目录
      • 参数/
        • 存储非cwl参数文件,如:* .param* .tmpl而且* .run.sh.这些文件只需要向后兼容,以便使用以前的自定义命令行界面运行旧的工作流。
        • 参数/ cwl /:存放所有CWL参数文件。要组织工作流,每个工作流都可以有自己的子目录,其中所有CWL参数而且input.yml文件需要在同一子目录下。
      • 数据/
        • FASTQ文件
        • FASTA参考档案(如。参考基因组)
        • 注释文件
        • 等。
      • 结果/
        • 分析结果通常写入此目录,包括:对齐、变体和峰值文件(BAM、VCF、BED);表格结果文件;以及图像/绘图文件
        • 注意,用户可以选择在单独的子目录中组织给定样本和分析步骤的结果文件。

请注意:目录名称表示为绿色.用户可以根据需要更改此结构,但需要相应地调整工作流中的代码。

图2:systemPipeR的预配置的目录结构。

6.1返回样本数据的路径

所提供的样例数据的位置systemPipeRdata可以作为一个列表

pathList () [1:2]
"/tmp/Rtmpp6Zot4/Rinst16f7061397e6e0/systemPipeRdata/extdata/param/targetsPE.txt" ## ## $targetsPE ## [1] "/tmp/Rtmpp6Zot4/Rinst16f7061397e6e0/systemPipeRdata/extdata/param/targetsPE.txt"

7版本信息

sessionInfo ()
## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils ##[6]数据集方法基础## ##其他附加包:# # # # [1] systemPipeRdata_2.3.0 systemPipeR_2.5.0 [3] ShortRead_1.57.0 GenomicAlignments_1.35.0 # # [5] SummarizedExperiment_1.29.0 Biobase_2.59.0 # # [7] MatrixGenerics_1.11.0 matrixStats_0.62.0 # # [9] BiocParallel_1.33.0 Rsamtools_2.15.0 # # [11] Biostrings_2.67.0 XVector_0.39.0 # # [13] GenomicRanges_1.51.0 GenomeInfoDb_1.35.0 # # [15] IRanges_2.33.0 S4Vectors_0.37.0 # # [17] BiocGenerics_0.45.0 BiocStyle_2.27.0 # # # #通过加载一个名称空间(而不是附加):## [1] gtable_0.3.1 xfun_0.34 ## [5] ggplot2_3.3.6 remotes_2.4.2 ## [11] htmlwidgets_1.5.4 latticeExtra_0.6-30 ## [9] lattice_0.20-45 generics_0.1.3 ## [11] vctrs_0.5.0 tools_4.3.0 ## [13] bitbbs_1.0 -7 parallel_4.3.0 ## [15] tibble_3.1.8 fansi_1.0.3 ## [17] pkgconfig_2.0.3 Matrix_1.5-1 ## [19] RColorBrewer_1.1-3 assertthat_0.2.1 ## [23] lifecycle_1.0.3 GenomeInfoDbData_1.2.9 ## [23] compiler_4.3.0 string_1 .4.1 ## [25] deldir_1. 3 munsell_0.5.0 ## [27]codetools_0.2-18 htmltools_0.5.3 ## [29] sass_0.4.2 RCurl_1.98-1.9 ## [31] yaml_2.3.6 pillar_1.8.1 ## [35] crayon_1.5.2 jquerylib_0.1.4 ## [37] tidyselect_1.2.0 digest_0.6.30 ## [39] stringi_1.7.8 dplyr_1.0.10 ## [41] bookdown_0.29 fastmap_1.1.0 ## [43] grid_4.3.0 colorspace_2.0-3 ## [45] cli_3.4.1 magrittr_2.0.3 ## [47] utf8_1.2.2 scales_1.2.1 ## [51] interp_1.1-3 png_0.1-7 ## [53] evaluate_0.17 knitr_1.40 ## [55]rlang_1.0.6 Rcpp_1.0.9 ## [57] DBI_1.1.3 glue_1.6.2 ## [59] formatR_1.12 BiocManager_1.30.19 ## [61] jsonlite_1.8.3 R6_2.5.1 ## [63] zlibbioc_1.45.0

8资金

该项目由美国国立卫生研究院(NIH)和美国国家科学基金会(NSF)资助。

参考文献

H·贝克曼,泰勒·W,托马斯·格克,2016。“systemPipeR: NGS工作流和报告生成环境。”BMC生物信息学17(1): 388。https://doi.org/10.1186/s12859-016-1241-0

Howard, Brian E,胡启文,Ahmet Can Babaoglu, Manan Chandra, Monica Borghi,谭小平,何鲁燕等。2013。伪单胞菌感染拟南芥的高通量RNA测序揭示了隐藏的转录组复杂性和新的剪接变体。《公共科学图书馆•综合》8 (10): e74183。https://doi.org/10.1371/journal.pone.0074183