版本信息

R版本:R版本4.1.0(2021-05-18)

生物导体版本:3.13

包版本:1.0.0.

介绍

ExphunterSuite实现了一个综合协议,用于使用已建立的转录数据分析R.包和组合他们的结果。它涵盖了RNA-seq数据的DEG检测、CEG检测和功能分析的所有关键步骤。它被实现为一个包含可以交互运行的函数的R包。此外,它还包含封装函数的脚本,可以直接从命令行运行。

标准包使用

在本节中,我们将描述ExphunterSuite中的功能如何在用户写入脚本中以交互方式或连接在一起。我们还将描述如何从此数据生成输出报告。

差异表达分析

包装最基本的使用是进行差异表达(DE)基因分析。exphuntersuite将在一些初始预处理之后运行不同的方法,组合结果,并生成输出报告,以及包含所有使用的所有方法的结果的单个输出表,以及它们的组合分数。合并的分数由渔民方法计算的平均日志值和组合调整的P值(FDR)值。

要使用单个de包使用ExphunterSuite,可以运行以下命令:

其中Toc是每个样本和目标的对齐读取的帧是数据。将每个样本与其样本元数据相关联的数据。在这里,我们包括目标文件的最小示例WHCIH,包括样本(CTL / EPM2A),样本条件(CTRL或治疗):

## CTL_1 CTL_2 CTL_3 CTL_4 EPM2A_1 EPM2A_2 EPM2A_3 ## ENSMUSG0000010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0#4#NENMUSG00000103377 0 0 0 0 1 1 2 ## ENSMUSG000001017 0 2 0 0 0 4 0
CTL_1 Ctrl ## 2 CTL_2 Ctrl ## 3 CTL_3 Ctrl ## 4 CTL_4 Ctrl # 5 epm2a_1治疗## 6 epm2a_2治疗

包含此数据的文件包含在extData包目录中,并且可以以下列方式访问。我们将在指挥线使用部分中回到他们。

## [1]“/tmp/rtmpj4h1dv/rinst12d0c523895d7a/exphuntersuite/extdata/table_of_counts.txt”
## [1]“/tmp/rtmpj4h1dv/rinst12d0c523895d7a/exphuntersuite/extdata/target.txt”

要使用多个包,可以运行以下命令:

输出是列表,包括在插槽中DE_all_genes对于所实现的不同DE方法的每个基因,每个基因,LOGFC / P值/调整后的P值的数据。

## logFC_DESeq2 FDR_DESeq2 pvalue_DESeq2 logFC_edgeR ## ENSMUSG00000055493 -4.762721 1.621389e-131 6.841303e-134 -4.707185 ## ENSMUSG00000026822 7.163151 2.054983e-86 2.601244e-88 7.171445 ## 3.941761 ENSMUSG00000024164 2.820463e-128 2.380137e-130 3.984540 ## ENSMUSG000000979712.377971 8.318050e-84 1.403890e-85 2.422976 ## 4.460555 ENSMUSG00000034855 2.184106e-19 1.474502e-20 4.485882 ## 2.428258 ENSMUSG00000069516 6.232232e-61 1.314817e-62 2.476535 ## FDR_edgeR pvalue_edgeR logFC_limma FDR_limma ## ENSMUSG00000055493 1.044257e-207 8.812294E-210 -4.695295 5.079109e-08 ## ENSMUSG00000026822 2.664949e-237 1.124451e-239 7.613741 7.533045e-06 ## ENSMUSG00000024164 3.806399e-131 4.818227e-133 3.987732 8.916977e-07 ## ENSMUSG00000097971 2.984579e-90 6.296579e-92 2.416537 4.914712e-07 ## ENSMUSG00000034855 5.770358e-126 9.739002e-128 4.776115 8.879106e-06 ## ENSMUSG00000069516 2.536675e-65 6.421961e-67 4.234716e 2.463295-06 ## pvalue_limma DESeq2_DEG edgeR_DEG limma_DEG DEG_counts ## ENSMUSG00000055493 2.143084E-10 TRUE TRUE 3 ## ENSMUSG00000026822 4.132050E-07 4.132050E-07 TRUE TRUE 3 ## ENSMUSG00000024164 1.504975E-08 TRUE TRUE 3 ## ENSMUSG00000097971 4.147437E-09 TRUE TRUE 3 ## ENSMUSG00000034855 5.619687E-07 TRUETRUE TRUE 3 ## ENSMUSG00000069516 1.923696e-07 TRUE TRUE TRUE 3 ## combined_FDR FDR_labeling mean_logFCs genes_tag ## ENSMUSG00000055493 0.000000e + 00 SIGN -4.721734 PREVALENT_DEG ## ENSMUSG00000026822 1.185758e-322 SIGN 7.316113 PREVALENT_DEG ## ENSMUSG00000024164 1.774813e-259 SIGN 3.971344prevalent_deg ## ensmusg00000097971 1.040397e-174标志2.405828 implalent_deg ## ensmusg00000034855 6.6201452-145 6.6201452-145标志4.574184 prevalent_deg ## ensmusg00000069516 3.0274860-126标志2.​​456029 prevalent_deg

它还包含了关于基因是否被认为是DE的信息,在列中genes_tag.标签PREVALENT_DEGS指那些在至少n种DE方法中被认为是显著的基因可能的_degs.那些至少一种方法被认为是重要的。因此,PREVALENT_DEGS可能的_degs.当n = 1. n由参数控制时会相同Minlibraries.

对于给定方法被认为是显着的,基因必须具有调节pVALUE <0.05和| LOGFC |> 1;这些值可使用参数调节p_val_cutoffLFC.

genes_tag.列包括标签not_degs.filtered_out.将未被检测到的那些未被检测为de的基因,并且不通过参数控制的初始低计滤波步骤的那些基因读取Minlibraries.

还有另一列,combined_FDR- 这是pos / deg,具体取决于如上所述的组合调整的p值小于或等于0.05(或者参数的值p_val_cutoff)。

更复杂的模型设计。

为了控制特定变量(例如配对设计中的个人,年龄等潜在的混杂因素),

例如,如果我们考虑我们之前的实验,但为目标添加额外的列,指示样本的不同年龄分组我们获得以下内容:

##样本治疗age_group ## 1 ctl_1 ctrl成人## 2 ctl_2 ctrl子## 3 ctl_3 ctrl成人## 4 ctl_4 ctrl子## 5epm2a_1治疗成人## 6 epm2a_2治疗成人## 7 epm2a_3对待孩子

我们可能希望控制yege_group对实验的影响。

这可以使用参数实现model_variables.。在计算治疗和Ctrl样本之间的差异表达式时,将在模型中使用给此参数的变量:

这是通过使用变量yege_group来创建要传递给不同的de方法的线性型号(除鼠标)之外的线性型号公式。

输出具有与原始分析相同的结构。

控件中还可以指定自定义模型设计model_variables.参数,基于R模型语法,看帮助(“公式”)更多细节。如果使用自定义公式,则custom_model参数必须设置为true。

共表达分析

通过R封装加权相关网络分析(WGCNA)包括共表达分析。该想法是寻找显示相关表达的基因的组(模块)。然后可以与实验因子相关,例如治疗与非治疗的实验因素以及其他分组,例如前面提到的年龄分组,或与实验相关的代谢物的已知值等数量因子相关。

使用“W”加入“W”激活WGCNA模块论点。属性指定与模块相关的特征string_factorsnumeric_factors.选项:

请注意,WGCNA需要归一化表达式矩阵作为输入,因为它不能单独运行,它必须与至少一个de方法一起运行,该方法与参数指定wgcna_norm_method.

获取报告

要获取高度详细的HTML报告,包括多个绘图可视化数据和不同分析方法的结果,可以使用以下命令:

在所有情况下,可以使用该报告的输出文件夹output_files.选择。

命令行包用法

该软件包还包括许多脚本,在该文件夹中inst / script.,可用于从命令行运行上述功能。

我们建议用户首先创建一个要安装的exphuntersuite命令行脚本的文件夹,然后在那里复制脚本,并使它们使用这些命令可接近命令行:

这个导出PATH也可以添加到.bashrc或.bash_profile文件中。

然后,用户可以使用以下脚本从命令行运行协议,这些脚本将实现功能并创建输出报告,所有这些都来自一个脚本。

可以通过运行找到提供给脚本的参数的全部细节degenes_hunter.r -hfunctional_hunter.r -h.。在此数据包的Readme文件中给出了更多示例