systemPipeRdata tripwire
注意:这个小插图的最新版本可以找到在这里.
注意:如果你使用systemPipeR
而且systemPipeRdata
在已发表的研究中,请引用:
贝克曼,T.W.H和格克,T.(2016)。systemPipeR:工作流和报表生成环境。BMC生物信息学, 17: 388。10.1186 / s12859 - 016 - 1241 - 0.
systemPipeRdata
helper包是否要使用单个命令工作流模板生成,以便由其父包使用systemPipeR
(H Backman and Girke 2016).的systemPipeR项目提供了一套R/Bioconductor软件包,用于在本地机器、HPC集群和云系统上设计、构建和运行端到端分析工作流,同时生成发布质量分析报告。
为了快速测试工作流或根据现有模板设计新的工作流,用户可以使用单个命令工作流实例生成,其中完全填充了运行所选工作流所需的示例数据和参数文件。所使用的工作流环境的预配置目录结构和样例数据systemPipeRdata
描述在这里.
systemPipeRdata
包提供了在工作流报告小插图中使用的演示示例FASTQ文件。所选的数据集SRP010938
从中获得18个成对端(PE)读集Arabidposis芥(Howard et al. 2013).为了最小化测试期间的处理时间,每个FASTQ文件都被细分为90,000-100,000个随机采样的PE读取,映射到每个染色体的前100,000个核苷酸答:thalina基因组。相应的参考基因组序列(FASTA)及其GFF注释文件(在同一下载中提供)已被相应截断。这样,整个测试样本数据集所需的磁盘存储空间小于200MB。为了灵活性,我们选择了PE读取集作为测试数据集,因为它可以用于测试需要SE(单端)读取或PE读取的两种类型的分析例程。
的systemPipeRdata
套装可于Bioconductor可以从R中安装,如下所示:
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("systemPipeRdata")
此外,还可以从。安装开发版本Bioconductor.
BiocManager::install("systemPipeRdata", version = "devel", build_vignettes = TRUE, dependencies = TRUE) #从Bioconductor安装devel版本
library("systemPipeRdata") #加载包
library(help = "systemPipeRdata") #列出包信息小插图("systemPipeRdata") #打开小插图
将其中一个可用工作流加载到当前工作目录中。下面为rnaseq
工作流模板。生成的工作流目录的名称可以在mydirname
论点。默认的零
使用所选工作流的名称。如果名称和路径相同的目录已经存在,则发出错误。
genWorkenvir(工作流= "systemPipeR/SPrnaseq", mydirname = "rnaseq") setwd("rnaseq")
在Linux和OS X系统上,可以从终端的命令行使用以下命令实现相同的功能。
$ Rscript -e "systemPipeRdata::genWorkenvir(工作流='systemPipeR/SPrnaseq', mydirname='rnaseq')"
此模板提供了一些常用步骤RNAseq
工作流。上的操作可以添加、删除、修改工作流步骤萨尔
对象。
sal <- SPRproject() sal <- importtwf (sal, file_path = "systemPipeVARseq. "Rmd", verbose = FALSE)
接下来,我们可以用一个命令在R中运行整个工作流:
sal <- runWF(sal)
systemPipeR
方法可以可视化工作流实例plotWF
函数。
plotWF (sal)
systemPipeR
在一个中心位置编译所有工作流执行日志,使其更容易检查任何标准输出(stdout
)或标准错误(stderr
)用于工作流或R代码标准输出中使用的任何命令行工具。
sal <- renderLogs(sal)
此外,技术报告可以使用renderReport
函数。
sal <- renderReport(sal)
有一组可用的工作流模板,可以浏览当前可用性,如下所示:
availableWF(github = TRUE)
这个函数返回包和中可用的工作流模板列表systemPipeR组织在GitHub上。每个列出的模板都可以按照上面的描述创建。
从Github中选择的工作流模板将作为一个R包安装,并且它还创建了包含所有设置和文件的环境来运行演示分析。
genWorkenvir(工作流="systemPipeR/SPrnaseq", mydirname="NULL") setwd("SPrnaseq")
此外,可以选择不同版本的工作流模板,通过GitHub存储库上的其他分支定义。默认情况下,主
方法定义不同的分支,但是可以使用裁判
论点。
genWorkenvir(workflow="systemPipeR/SPrnaseq", ref =" singleMachine") setwd("SPrnaseq")
此外,还可以为您的分析下载特定的工作流脚本。URL可以在url
参数中的R Markdown文件名urlname
论点。默认的零
复制所选模板中可用的当前版本。
genWorkenvir(工作流="systemPipeR/SPrnaseq", url =" https://raw.githubusercontent.com/systemPipeR/systemPipeRNAseq/cluster/vignettes/systemPipeRNAseq.Rmd", urlname =" rnaseq_V-cluster.Rmd") setwd("rnaseq")
可以从RStudio菜单中创建一个新的工作流结构File -> New File -> R Markdown -> From Template -> systemPipeR新建工作流
.此交互选项将创建与上面演示的相同的环境。
图1:在RStudio中选择工作流模板。
生成的工作流模板genWorkenvir
包含以下预配置的目录结构:
CWL参数
而且input.yml
文件需要在同一子目录下。请注意:目录名称表示为绿色.用户可以根据需要更改此结构,但需要相应地调整工作流中的代码。
图2:systemPipeR的预配置的目录结构。
所提供的样例数据的位置systemPipeRdata
可以作为一个列表
.
pathList () [1:2]
"/tmp/Rtmpp6Zot4/Rinst16f7061397e6e0/systemPipeRdata/extdata/param/targetsPE.txt" ## ## $targetsPE ## [1] "/tmp/Rtmpp6Zot4/Rinst16f7061397e6e0/systemPipeRdata/extdata/param/targetsPE.txt"
sessionInfo ()
## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils ##[6]数据集方法基础## ##其他附加包:# # # # [1] systemPipeRdata_2.3.0 systemPipeR_2.5.0 [3] ShortRead_1.57.0 GenomicAlignments_1.35.0 # # [5] SummarizedExperiment_1.29.0 Biobase_2.59.0 # # [7] MatrixGenerics_1.11.0 matrixStats_0.62.0 # # [9] BiocParallel_1.33.0 Rsamtools_2.15.0 # # [11] Biostrings_2.67.0 XVector_0.39.0 # # [13] GenomicRanges_1.51.0 GenomeInfoDb_1.35.0 # # [15] IRanges_2.33.0 S4Vectors_0.37.0 # # [17] BiocGenerics_0.45.0 BiocStyle_2.27.0 # # # #通过加载一个名称空间(而不是附加):## [1] gtable_0.3.1 xfun_0.34 ## [5] ggplot2_3.3.6 remotes_2.4.2 ## [11] htmlwidgets_1.5.4 latticeExtra_0.6-30 ## [9] lattice_0.20-45 generics_0.1.3 ## [11] vctrs_0.5.0 tools_4.3.0 ## [13] bitbbs_1.0 -7 parallel_4.3.0 ## [15] tibble_3.1.8 fansi_1.0.3 ## [17] pkgconfig_2.0.3 Matrix_1.5-1 ## [19] RColorBrewer_1.1-3 assertthat_0.2.1 ## [23] lifecycle_1.0.3 GenomeInfoDbData_1.2.9 ## [23] compiler_4.3.0 string_1 .4.1 ## [25] deldir_1. 3 munsell_0.5.0 ## [27]codetools_0.2-18 htmltools_0.5.3 ## [29] sass_0.4.2 RCurl_1.98-1.9 ## [31] yaml_2.3.6 pillar_1.8.1 ## [35] crayon_1.5.2 jquerylib_0.1.4 ## [37] tidyselect_1.2.0 digest_0.6.30 ## [39] stringi_1.7.8 dplyr_1.0.10 ## [41] bookdown_0.29 fastmap_1.1.0 ## [43] grid_4.3.0 colorspace_2.0-3 ## [45] cli_3.4.1 magrittr_2.0.3 ## [47] utf8_1.2.2 scales_1.2.1 ## [51] interp_1.1-3 png_0.1-7 ## [53] evaluate_0.17 knitr_1.40 ## [55]rlang_1.0.6 Rcpp_1.0.9 ## [57] DBI_1.1.3 glue_1.6.2 ## [59] formatR_1.12 BiocManager_1.30.19 ## [61] jsonlite_1.8.3 R6_2.5.1 ## [63] zlibbioc_1.45.0
该项目由美国国立卫生研究院(NIH)和美国国家科学基金会(NSF)资助。
H·贝克曼,泰勒·W,托马斯·格克,2016。“systemPipeR: NGS工作流和报告生成环境。”BMC生物信息学17(1): 388。https://doi.org/10.1186/s12859-016-1241-0.
Howard, Brian E,胡启文,Ahmet Can Babaoglu, Manan Chandra, Monica Borghi,谭小平,何鲁燕等。2013。伪单胞菌感染拟南芥的高通量RNA测序揭示了隐藏的转录组复杂性和新的剪接变体。《公共科学图书馆•综合》8 (10): e74183。https://doi.org/10.1371/journal.pone.0074183.