注意:这个小插图的最新版本可以找到在这里

注意:如果你使用systemPipeR而且systemPipeRdata在已发表的研究中,请引用:

贝克曼,T.W.H和格尔克,T.(2016)。systemPipeR:工作流和报表生成环境。BMC生物信息学17岁:388。10.1186 / s12859 - 016 - 1241 - 0

1简介

systemPipeRdata是否要用单个命令工作流模板生成帮助包,以便由其父包使用systemPipeR(H Backman和Girke 2016).的systemPipeR项目提供了一套R/Bioconductor包,用于在本地机器、HPC集群和云系统上设计、构建和运行端到端分析工作流,同时生成发布质量分析报告。

为了快速测试工作流或从现有模板设计新的工作流,用户可以使用单个命令工作流实例生成,实例中完全填充了运行所选工作流所需的示例数据和参数文件。预先配置的目录结构的工作流环境和使用的样例数据systemPipeRdata描述在这里

systemPipeRdata软件包提供了在工作流报告小插图中使用的演示示例FASTQ文件。所选数据集SRP010938获取18个PE (pair -end)读集Arabidposis芥(Howard et al. 2013).为了减少测试过程中的处理时间,每个FASTQ文件都被划分为90,000-100,000个随机抽样PE读取,映射到每个染色体的前100,000个核苷酸答:thalina基因组。相应的参考基因组序列(FASTA)及其GFF注释文件(在同一下载中提供)已被相应截断。通过这种方式,整个测试示例数据集所需的磁盘存储空间小于200MB。为了灵活性,为该测试数据集选择了PE读取集,因为它可以用于测试需要SE(单端)读取或PE读取的两种分析例程。

2开始

2.1安装

systemPipeRdata软件包可于Bioconductor并可以从R中安装如下:

如果(!install.packages("BiocManager") BiocManager::install("systemPipeRdata")

此外,还可以从安装开发版本Bioconductor

BiocManager::install("systemPipeRdata", version = "devel", build_vignettes = TRUE, dependencies = TRUE) #从Bioconductor安装devel版本

2.2装载包和文档

library("systemPipeRdata") #加载包
library(help = "systemPipeRdata") #列出包信息小插图("systemPipeRdata") #打开小插图

3.从预先配置的工作流模板开始

将一个可用的工作流加载到当前工作目录中。下面为rnaseq工作流模板。生成的工作流目录的名称可以在mydirname论点。默认的使用所选工作流的名称。如果相同名称和路径的目录已经存在,则会发出错误。

genWorkenvir(workflow = "systemPipeR/SPrnaseq", mydirname = "rnaseq") setwd("rnaseq")

在Linux和OS X系统上,可以从终端的命令行通过以下命令实现同样的功能。

$ Rscript -e "systemPipeRdata::genWorkenvir(工作流='systemPipeR/SPrnaseq', mydirname='rnaseq')"

3.1构建、运行并可视化工作流模板

  • 从RMarkdown文件构建工作流

该模板提供了一些通用步骤RNAseq工作流。控件上的操作可以添加、删除、修改工作流步骤萨尔对象。

sal <- SPRproject() sal <- importtwf (sal, file_path = "systemPipeVARseq. "Rmd", verbose = FALSE)
  • 运行工作流

接下来,我们可以用一个命令从R运行整个工作流:

萨尔< - runWF (sal)
  • 可视化工作流

systemPipeR控件可以可视化工作流实例plotWF函数。

plotWF (sal)
  • 报告生成

systemPipeR在一个中心位置编译所有工作流执行日志,从而更容易检查任何标准输出(stdout)或标准误差(stderr)用于任何用于工作流的命令行工具或R code标准输出。

萨尔< - renderLogs (sal)

此外,技术报告可以使用renderReport函数。

萨尔< - renderReport (sal)

4工作流模板集合

有一组可用的工作流模板,可以浏览当前的可用性,如下所示:

availableWF (github = TRUE)

这个函数返回包和中可用的工作流模板列表systemPipeR组织在GitHub上。可以按照上面的描述创建列出的每个模板。

从Github中选择的工作流模板将作为一个R包安装,它还创建了运行演示分析所需的所有设置和文件的环境。

genWorkenvir(工作流= " systemPipeR / SPrnaseq”,mydirname =“零”)setwd(“SPrnaseq”)

此外,还可以选择不同版本的工作流模板,通过GitHub Repository上的其他分支定义。默认情况下,方法选择了分支,但是,可以使用裁判论点。

genWorkenvir(workflow="systemPipeR/SPrnaseq", ref =" singleMachine") setwd("SPrnaseq")

4.1下载一个特定的R Markdown文件

此外,还可以为您的分析下载特定的工作流脚本。URL可以在下面指定url参数中的R Markdown文件名urlname论点。默认的复制所选模板中可用的当前版本。

genWorkenvir(workflow="systemPipeR/SPrnaseq", url =" https://raw.githubusercontent.com/systemPipeR/systemPipeRNAseq/cluster/vignettes/systemPipeRNAseq.Rmd", urlname =" rnaseq_V-cluster.Rmd") setwd("rnaseq")

5动态生成工作流模板

可以从RStudio菜单中创建一个新的工作流结构文件->新文件-> R Markdown -> From Template -> systemPipeR新的工作流.这个交互选项创建与上面演示的相同的环境。

图1:在RStudio中选择工作流模板。

6目录结构

生成的工作流模板genWorkenvir包含以下预配置的目录结构:

  • 工作流/如。rnaseq /
    • 这是运行工作流的R会话的根目录。
    • 运行脚本(*.限制型心肌病)和示例注释(targets.txt)文件位于此。
    • 注意,此目录可以有任何名称(如。rnaseqvarseq).更改它的名称不需要在运行脚本中进行任何修改。
    • 重要的子目录
      • 参数/
        • 存储非cwl参数文件,例如:* .param* .tmpl而且* .run.sh.这些文件只需要向后兼容,以便使用以前的定制命令行界面运行旧的工作流。
        • 参数/ cwl /:该子目录存放所有CWL参数文件。要组织工作流,每个工作流都可以有自己的子目录CWL参数而且input.yml文件需要在同一个子目录中。
      • 数据/
        • FASTQ文件
        • FASTA参考文件(如。参考基因组)
        • 注释文件
        • 等。
      • 结果/
        • 分析结果通常被写入这个目录,包括:对齐、变量和峰值文件(BAM、VCF、BED);表格的结果文件;和图像/图文件
        • 注意,用户可以选择将给定示例和分析步骤的结果文件组织在单独的子目录中。

请注意:目录名称以绿色.用户可以根据需要更改此结构,但需要相应地调整工作流中的代码。

图2:systemPipeR的预配置的目录结构。

6.1返回示例数据的路径

提供的样例数据的位置systemPipeRdata可以退货吗列表

pathList () [1:2]
“## ## $targetsPE ##[1]”/tmp/RtmpA6azB3/Rinst2f1fd57d524e4/systemPipeRdata/extdata/param/targetsPE.txt”

7版本信息

sessionInfo ()
## R版本4.2.1(22-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.5 LTS ## ##矩阵产品:default ## BLAS: /home/biocbuild/bbs-3.16-bio /R/lib/libRblas. ##因此## LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。因此## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# [3] LC_TIME=en_GB LC_COLLATE= c# [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# [9] LC_ADDRESS=C LC_TELEPHONE= c# [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils ## [6] datasets methods base ## ##其他附加的包:# # # # [1] systemPipeRdata_2.2.0 systemPipeR_2.4.0 [3] ShortRead_1.56.0 GenomicAlignments_1.34.0 # # [5] SummarizedExperiment_1.28.0 Biobase_2.58.0 # # [7] MatrixGenerics_1.10.0 matrixStats_0.62.0 # # [9] BiocParallel_1.32.0 Rsamtools_2.14.0 # # [11] Biostrings_2.66.0 XVector_0.38.0 # # [13] GenomicRanges_1.50.0 GenomeInfoDb_1.34.0 # # [15] IRanges_2.32.0 S4Vectors_0.36.0 # # [17] BiocGenerics_0.44.0 BiocStyle_2.26.0 # # # #通过加载一个名称空间(而不是附加):# [1] sass_0.4.2 jsonlite_1.8.3 ## [3] bslib_0.4.0 assertthat_0.2.1 ## [5] BiocManager_1.30.19 latticeExtra_0.6-30 ## [5] GenomeInfoDbData_1.2.9 remotes_2.4.2 ## [9] yaml_2.3.6 pillar_1.8.1 ## [9] lattice_0.20-45 glue_1.6.2 ## [13] digest_0.6.30 RColorBrewer_1.1-3 ## [15] colorspace_2.0-3 htmltools_0.5.3 ## [17] Matrix_1.5-1 pkgconfig_2.0.3 ## [13] bookdown_0.29 zlibbioc_1.44.0 ## [21] scales_1.2.1 jpeg_0.1-9 ## [23] tibble_3.1.8 generics_0.1.3 ## [25] ggplot2_3.6 cachem_1.0.6 ## [27]# [39] munsell_0.5.0 DelayedArray_0.24.0 ## [41] compiler_4.2.1 jquerylib_0.1.4 ## [43] rlang_1.0.6 grid_4.2.1 ## [45] RCurl_1.98-1.9 htmlwidgets_1.5.4 ## [47] bitops_1.0-7 rmarkdown_2.17 ## [51] DBI_1.1.3 R6_2.5.1 ## [53] knitr_1.40 dplyr_1.0.10 ## [37] hwriter_1.3.2.1 tools_4.2.1 ## [35] formatR_1.12 lifecycle_1.0.3 ## [37] stringr_1.4.1 interp_1.1-3 ## [39]fastmap_1.1.0 utf8_1.2.2 ## [57] stringi_1.7.8 parallel_4.2.1 ## [59] Rcpp_1.0.9 vctrs_0.5.0 ## [61] png_0.1-7 tidyselect_1.2.0 ## [63] xfun_0.34

8资金

该项目得到了美国国立卫生研究院(NIH)和美国国家科学基金会(NSF)的资金支持。

参考文献

H·贝克曼,泰勒·W,托马斯·吉尔克。2016。“systemPipeR: NGS工作流和报告生成环境。”BMC生物信息学17(1): 388。https://doi.org/10.1186/s12859-016-1241-0

Howard, Brian E,胡启文,Ahmet Can Babaoglu, Manan Chandra, Monica Borghi,谭小平,何鲁燕,等。2013。“假单胞菌感染拟南芥的高通量RNA测序揭示了隐藏的转录组复杂性和新的剪接变体。”《公共科学图书馆•综合》8 (10): e74183。https://doi.org/10.1371/journal.pone.0074183