版本信息

R版本：R版本4.1.0（2021-05-18）

生物导体版本：3.13

包版本：1.0.0.

介绍

ExphunterSuite实现了一个综合协议，用于使用已建立的转录数据分析R.包和组合他们的结果。它涵盖了RNA-seq数据的DEG检测、CEG检测和功能分析的所有关键步骤。它被实现为一个包含可以交互运行的函数的R包。此外，它还包含封装函数的脚本，可以直接从命令行运行。

标准包使用

在本节中，我们将描述ExphunterSuite中的功能如何在用户写入脚本中以交互方式或连接在一起。我们还将描述如何从此数据生成输出报告。

差异表达分析

包装最基本的使用是进行差异表达（DE）基因分析。exphuntersuite将在一些初始预处理之后运行不同的方法，组合结果，并生成输出报告，以及包含所有使用的所有方法的结果的单个输出表，以及它们的组合分数。合并的分数由渔民方法计算的平均日志值和组合调整的P值（FDR）值。

要使用单个de包使用ExphunterSuite，可以运行以下命令：

图书馆（exphuntersuite）数据（TOC）数据（目标）degh_out_one_pack < -main_degenes_hunter.（raw =toc,目标=目标，模块=“D”）#d for deseq2

其中Toc是每个样本和目标的对齐读取的帧是数据。将每个样本与其样本元数据相关联的数据。在这里，我们包括目标文件的最小示例WHCIH，包括样本（CTL / EPM2A），样本条件（CTRL或治疗）：

头（TOC）

## CTL_1 CTL_2 CTL_3 CTL_4 EPM2A_1 EPM2A_2 EPM2A_3 ## ENSMUSG0000010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0＃4#NENMUSG00000103377 0 0 0 0 1 1 2 ## ENSMUSG000001017 0 2 0 0 0 4 0

头（目标）

CTL_1 Ctrl ## 2 CTL_2 Ctrl ## 3 CTL_3 Ctrl ## 4 CTL_4 Ctrl # 5 epm2a_1治疗## 6 epm2a_2治疗

包含此数据的文件包含在extData包目录中，并且可以以下列方式访问。我们将在指挥线使用部分中回到他们。

system.file.（“extdata”那“table_of_counts.txt”那包=“exphuntersuite”）

## [1]“/tmp/rtmpj4h1dv/rinst12d0c523895d7a/exphuntersuite/extdata/table_of_counts.txt”

system.file.（“extdata”那“target.txt”那包=“exphuntersuite”）

## [1]“/tmp/rtmpj4h1dv/rinst12d0c523895d7a/exphuntersuite/extdata/target.txt”

要使用多个包，可以运行以下命令：

degh_out_multi_pack < -main_degenes_hunter.（raw =toc,目标=目标，模块=“del”）#d：deseq2 e：edger，l：limma

输出是列表，包括在插槽中DE_all_genes对于所实现的不同DE方法的每个基因，每个基因，LOGFC / P值/调整后的P值的数据。

头（degh_out_multi_pack.$DE_all_genes)

## logFC_DESeq2 FDR_DESeq2 pvalue_DESeq2 logFC_edgeR ## ENSMUSG00000055493 -4.762721 1.621389e-131 6.841303e-134 -4.707185 ## ENSMUSG00000026822 7.163151 2.054983e-86 2.601244e-88 7.171445 ## 3.941761 ENSMUSG00000024164 2.820463e-128 2.380137e-130 3.984540 ## ENSMUSG000000979712.377971 8.318050e-84 1.403890e-85 2.422976 ## 4.460555 ENSMUSG00000034855 2.184106e-19 1.474502e-20 4.485882 ## 2.428258 ENSMUSG00000069516 6.232232e-61 1.314817e-62 2.476535 ## FDR_edgeR pvalue_edgeR logFC_limma FDR_limma ## ENSMUSG00000055493 1.044257e-207 8.812294E-210 -4.695295 5.079109e-08 ## ENSMUSG00000026822 2.664949e-237 1.124451e-239 7.613741 7.533045e-06 ## ENSMUSG00000024164 3.806399e-131 4.818227e-133 3.987732 8.916977e-07 ## ENSMUSG00000097971 2.984579e-90 6.296579e-92 2.416537 4.914712e-07 ## ENSMUSG00000034855 5.770358e-126 9.739002e-128 4.776115 8.879106e-06 ## ENSMUSG00000069516 2.536675e-65 6.421961e-67 4.234716e 2.463295-06 ## pvalue_limma DESeq2_DEG edgeR_DEG limma_DEG DEG_counts ## ENSMUSG00000055493 2.143084E-10 TRUE TRUE 3 ## ENSMUSG00000026822 4.132050E-07 4.132050E-07 TRUE TRUE 3 ## ENSMUSG00000024164 1.504975E-08 TRUE TRUE 3 ## ENSMUSG00000097971 4.147437E-09 TRUE TRUE 3 ## ENSMUSG00000034855 5.619687E-07 TRUETRUE TRUE 3 ## ENSMUSG00000069516 1.923696e-07 TRUE TRUE TRUE 3 ## combined_FDR FDR_labeling mean_logFCs genes_tag ## ENSMUSG00000055493 0.000000e + 00 SIGN -4.721734 PREVALENT_DEG ## ENSMUSG00000026822 1.185758e-322 SIGN 7.316113 PREVALENT_DEG ## ENSMUSG00000024164 1.774813e-259 SIGN 3.971344prevalent_deg ## ensmusg00000097971 1.040397e-174标志2.405828 implalent_deg ## ensmusg00000034855 6.6201452-145 6.6201452-145标志4.574184 prevalent_deg ## ensmusg00000069516 3.0274860-126标志2.456029 prevalent_deg

它还包含了关于基因是否被认为是DE的信息，在列中genes_tag.标签PREVALENT_DEGS指那些在至少n种DE方法中被认为是显著的基因可能的_degs.那些至少一种方法被认为是重要的。因此，PREVALENT_DEGS和可能的_degs.当n = 1. n由参数控制时会相同Minlibraries.。

对于给定方法被认为是显着的，基因必须具有调节pVALUE <0.05和| LOGFC |> 1;这些值可使用参数调节p_val_cutoff和LFC.。

这genes_tag.列包括标签not_degs.和filtered_out.将未被检测到的那些未被检测为de的基因，并且不通过参数控制的初始低计滤波步骤的那些基因读取和Minlibraries.。

还有另一列，combined_FDR- 这是pos / deg，具体取决于如上所述的组合调整的p值小于或等于0.05（或者参数的值p_val_cutoff)。

更复杂的模型设计。

为了控制特定变量（例如配对设计中的个人，年龄等潜在的混杂因素），

例如，如果我们考虑我们之前的实验，但为目标添加额外的列，指示样本的不同年龄分组我们获得以下内容：

target_multi < -data.frame.（目标，age_group =.C（“成人”那“孩子”那“成人”那“孩子”那“成人”那“成人”那“孩子”）））target_multi.

##样本治疗age_group ## 1 ctl_1 ctrl成人## 2 ctl_2 ctrl子## 3 ctl_3 ctrl成人## 4 ctl_4 ctrl子## 5epm2a_1治疗成人## 6 epm2a_2治疗成人## 7 epm2a_3对待孩子

我们可能希望控制yege_group对实验的影响。

这可以使用参数实现model_variables.。在计算治疗和Ctrl样本之间的差异表达式时，将在模型中使用给此参数的变量：

degh_out_model < -main_degenes_hunter.（raw =toc,目标=target_multi，模块=“D”那model_variables =.“年龄阶层”）

这是通过使用变量yege_group来创建要传递给不同的de方法的线性型号（除鼠标）之外的线性型号公式。

输出具有与原始分析相同的结构。

控件中还可以指定自定义模型设计model_variables.参数，基于R模型语法，看帮助（“公式”）更多细节。如果使用自定义公式，则custom_model参数必须设置为true。

共表达分析

通过R封装加权相关网络分析（WGCNA）包括共表达分析。该想法是寻找显示相关表达的基因的组（模块）。然后可以与实验因子相关，例如治疗与非治疗的实验因素以及其他分组，例如前面提到的年龄分组，或与实验相关的代谢物的已知值等数量因子相关。

使用“W”加入“W”激活WGCNA模块论点。属性指定与模块相关的特征string_factors和numeric_factors.选项：

degh_out_coexp < -main_degenes_hunter.（raw =toc,目标=target_multi，模块=“dw”那string_factors =“年龄阶层”）

请注意，WGCNA需要归一化表达式矩阵作为输入，因为它不能单独运行，它必须与至少一个de方法一起运行，该方法与参数指定wgcna_norm_method.。

功能分析

fh_out_one_pack < -functional_hunter（#perform浓缩分析degh_out_one_pack,“鼠标”那使用指定的有机体数据库func_annot_db =“gkr”那GO, KEGG和Reactome的富集分析go_subont =.“BMC”那Analysis_type =“o”＃仅使用overepresentation分析（不是GSEA））fh_out_coexp < -functional_hunter（＃执行浓缩分析degh_out_coexp，“鼠标”那使用指定的有机体数据库func_annot_db =“gkr”那GO, KEGG和Reactome的富集分析go_subont =.“BMC”那Analysis_type =“o”仅使用overepresentation analysi(不是GSEA)）

获取报告

要获取高度详细的HTML报告，包括多个绘图可视化数据和不同分析方法的结果，可以使用以下命令：

打印（GETWD.（））write_expression_report.（exp_results =.degh_out_coexp）write_enrich_files.（func_results =fh_out_one_pack）write_functional_report.（hunter_results =degh_out_coexp，func_results =fh_out_coexp）

在所有情况下，可以使用该报告的输出文件夹output_files.选择。

命令行包用法

该软件包还包括许多脚本，在该文件夹中inst / script.，可用于从命令行运行上述功能。

Input_toc < -system.file.（“extdata”那“table_of_counts.txt”那包=“mypackage”）INPUT_TOC.input_target < -system.file.（“extdata”那“target.txt”那包=“mypackage”）input_target.

我们建议用户首先创建一个要安装的exphuntersuite命令行脚本的文件夹，然后在那里复制脚本，并使它们使用这些命令可接近命令行：

MKDIR.install_folderrscipt.- e“exphuntersuite :: install_degenes_hunter（'install_folder'）”出口路径=path_to_install_folder:$途径

这个导出PATH也可以添加到.bashrc或.bash_profile文件中。

然后，用户可以使用以下脚本从命令行运行协议，这些脚本将实现功能并创建输出报告，所有这些都来自一个脚本。

degenes_hunter.r.- t$ target_file.-我$ toc.- o$ exp_results.functional_hunter.r.-我$ exp_results.-m有机体-o FUNC_RESULTS

可以通过运行找到提供给脚本的参数的全部细节degenes_hunter.r -h或functional_hunter.r -h.。在此数据包的Readme文件中给出了更多示例

表达猎人套房

詹姆斯·珀金斯

05/21/2021