R版本:R版本4.1.0(2021-05-18)
生物导体版本:3.13
包版本:1.0.0.
ExphunterSuite实现了一个综合协议,用于使用已建立的转录数据分析R.包和组合他们的结果。它涵盖了RNA-seq数据的DEG检测、CEG检测和功能分析的所有关键步骤。它被实现为一个包含可以交互运行的函数的R包。此外,它还包含封装函数的脚本,可以直接从命令行运行。
在本节中,我们将描述ExphunterSuite中的功能如何在用户写入脚本中以交互方式或连接在一起。我们还将描述如何从此数据生成输出报告。
包装最基本的使用是进行差异表达(DE)基因分析。exphuntersuite将在一些初始预处理之后运行不同的方法,组合结果,并生成输出报告,以及包含所有使用的所有方法的结果的单个输出表,以及它们的组合分数。合并的分数由渔民方法计算的平均日志值和组合调整的P值(FDR)值。
要使用单个de包使用ExphunterSuite,可以运行以下命令:
图书馆(exphuntersuite)数据(TOC)数据(目标)degh_out_one_pack < -main_degenes_hunter.(raw =toc,目标=目标,模块=“D”)#d for deseq2
其中Toc是每个样本和目标的对齐读取的帧是数据。将每个样本与其样本元数据相关联的数据。在这里,我们包括目标文件的最小示例WHCIH,包括样本(CTL / EPM2A),样本条件(CTRL或治疗):
## CTL_1 CTL_2 CTL_3 CTL_4 EPM2A_1 EPM2A_2 EPM2A_3 ## ENSMUSG0000010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0#4#NENMUSG00000103377 0 0 0 0 1 1 2 ## ENSMUSG000001017 0 2 0 0 0 4 0
CTL_1 Ctrl ## 2 CTL_2 Ctrl ## 3 CTL_3 Ctrl ## 4 CTL_4 Ctrl # 5 epm2a_1治疗## 6 epm2a_2治疗
包含此数据的文件包含在extData包目录中,并且可以以下列方式访问。我们将在指挥线使用部分中回到他们。
## [1]“/tmp/rtmpj4h1dv/rinst12d0c523895d7a/exphuntersuite/extdata/table_of_counts.txt”
## [1]“/tmp/rtmpj4h1dv/rinst12d0c523895d7a/exphuntersuite/extdata/target.txt”
要使用多个包,可以运行以下命令:
输出是列表,包括在插槽中DE_all_genes对于所实现的不同DE方法的每个基因,每个基因,LOGFC / P值/调整后的P值的数据。
## logFC_DESeq2 FDR_DESeq2 pvalue_DESeq2 logFC_edgeR ## ENSMUSG00000055493 -4.762721 1.621389e-131 6.841303e-134 -4.707185 ## ENSMUSG00000026822 7.163151 2.054983e-86 2.601244e-88 7.171445 ## 3.941761 ENSMUSG00000024164 2.820463e-128 2.380137e-130 3.984540 ## ENSMUSG000000979712.377971 8.318050e-84 1.403890e-85 2.422976 ## 4.460555 ENSMUSG00000034855 2.184106e-19 1.474502e-20 4.485882 ## 2.428258 ENSMUSG00000069516 6.232232e-61 1.314817e-62 2.476535 ## FDR_edgeR pvalue_edgeR logFC_limma FDR_limma ## ENSMUSG00000055493 1.044257e-207 8.812294E-210 -4.695295 5.079109e-08 ## ENSMUSG00000026822 2.664949e-237 1.124451e-239 7.613741 7.533045e-06 ## ENSMUSG00000024164 3.806399e-131 4.818227e-133 3.987732 8.916977e-07 ## ENSMUSG00000097971 2.984579e-90 6.296579e-92 2.416537 4.914712e-07 ## ENSMUSG00000034855 5.770358e-126 9.739002e-128 4.776115 8.879106e-06 ## ENSMUSG00000069516 2.536675e-65 6.421961e-67 4.234716e 2.463295-06 ## pvalue_limma DESeq2_DEG edgeR_DEG limma_DEG DEG_counts ## ENSMUSG00000055493 2.143084E-10 TRUE TRUE 3 ## ENSMUSG00000026822 4.132050E-07 4.132050E-07 TRUE TRUE 3 ## ENSMUSG00000024164 1.504975E-08 TRUE TRUE 3 ## ENSMUSG00000097971 4.147437E-09 TRUE TRUE 3 ## ENSMUSG00000034855 5.619687E-07 TRUETRUE TRUE 3 ## ENSMUSG00000069516 1.923696e-07 TRUE TRUE TRUE 3 ## combined_FDR FDR_labeling mean_logFCs genes_tag ## ENSMUSG00000055493 0.000000e + 00 SIGN -4.721734 PREVALENT_DEG ## ENSMUSG00000026822 1.185758e-322 SIGN 7.316113 PREVALENT_DEG ## ENSMUSG00000024164 1.774813e-259 SIGN 3.971344prevalent_deg ## ensmusg00000097971 1.040397e-174标志2.405828 implalent_deg ## ensmusg00000034855 6.6201452-145 6.6201452-145标志4.574184 prevalent_deg ## ensmusg00000069516 3.0274860-126标志2.456029 prevalent_deg
它还包含了关于基因是否被认为是DE的信息,在列中genes_tag.标签PREVALENT_DEGS指那些在至少n种DE方法中被认为是显著的基因可能的_degs.那些至少一种方法被认为是重要的。因此,PREVALENT_DEGS和可能的_degs.当n = 1. n由参数控制时会相同Minlibraries.。
对于给定方法被认为是显着的,基因必须具有调节pVALUE <0.05和| LOGFC |> 1;这些值可使用参数调节p_val_cutoff和LFC.。
这genes_tag.列包括标签not_degs.和filtered_out.将未被检测到的那些未被检测为de的基因,并且不通过参数控制的初始低计滤波步骤的那些基因读取和Minlibraries.。
还有另一列,combined_FDR- 这是pos / deg,具体取决于如上所述的组合调整的p值小于或等于0.05(或者参数的值p_val_cutoff)。
为了控制特定变量(例如配对设计中的个人,年龄等潜在的混杂因素),
例如,如果我们考虑我们之前的实验,但为目标添加额外的列,指示样本的不同年龄分组我们获得以下内容:
##样本治疗age_group ## 1 ctl_1 ctrl成人## 2 ctl_2 ctrl子## 3 ctl_3 ctrl成人## 4 ctl_4 ctrl子## 5epm2a_1治疗成人## 6 epm2a_2治疗成人## 7 epm2a_3对待孩子
我们可能希望控制yege_group对实验的影响。
这可以使用参数实现model_variables.。在计算治疗和Ctrl样本之间的差异表达式时,将在模型中使用给此参数的变量:
这是通过使用变量yege_group来创建要传递给不同的de方法的线性型号(除鼠标)之外的线性型号公式。
输出具有与原始分析相同的结构。
控件中还可以指定自定义模型设计model_variables.参数,基于R模型语法,看帮助(“公式”)更多细节。如果使用自定义公式,则custom_model参数必须设置为true。
通过R封装加权相关网络分析(WGCNA)包括共表达分析。该想法是寻找显示相关表达的基因的组(模块)。然后可以与实验因子相关,例如治疗与非治疗的实验因素以及其他分组,例如前面提到的年龄分组,或与实验相关的代谢物的已知值等数量因子相关。
使用“W”加入“W”激活WGCNA模块论点。属性指定与模块相关的特征string_factors和numeric_factors.选项:
请注意,WGCNA需要归一化表达式矩阵作为输入,因为它不能单独运行,它必须与至少一个de方法一起运行,该方法与参数指定wgcna_norm_method.。
fh_out_one_pack < -functional_hunter(#perform浓缩分析degh_out_one_pack,“鼠标”那使用指定的有机体数据库func_annot_db =“gkr”那GO, KEGG和Reactome的富集分析go_subont =.“BMC”那Analysis_type =“o”#仅使用overepresentation分析(不是GSEA))fh_out_coexp < -functional_hunter(#执行浓缩分析degh_out_coexp,“鼠标”那使用指定的有机体数据库func_annot_db =“gkr”那GO, KEGG和Reactome的富集分析go_subont =.“BMC”那Analysis_type =“o”仅使用overepresentation analysi(不是GSEA))
要获取高度详细的HTML报告,包括多个绘图可视化数据和不同分析方法的结果,可以使用以下命令:
打印(GETWD.())write_expression_report.(exp_results =.degh_out_coexp)write_enrich_files.(func_results =fh_out_one_pack)write_functional_report.(hunter_results =degh_out_coexp,func_results =fh_out_coexp)
在所有情况下,可以使用该报告的输出文件夹output_files.选择。
该软件包还包括许多脚本,在该文件夹中inst / script.,可用于从命令行运行上述功能。
Input_toc < -system.file.(“extdata”那“table_of_counts.txt”那包=“mypackage”)INPUT_TOC.input_target < -system.file.(“extdata”那“target.txt”那包=“mypackage”)input_target.
我们建议用户首先创建一个要安装的exphuntersuite命令行脚本的文件夹,然后在那里复制脚本,并使它们使用这些命令可接近命令行:
MKDIR.install_folderrscipt.- e“exphuntersuite :: install_degenes_hunter('install_folder')”出口路径=path_to_install_folder:$途径
这个导出PATH也可以添加到.bashrc或.bash_profile文件中。
然后,用户可以使用以下脚本从命令行运行协议,这些脚本将实现功能并创建输出报告,所有这些都来自一个脚本。
degenes_hunter.r.- t$ target_file.-我$ toc.- o$ exp_results.functional_hunter.r.-我$ exp_results.-m有机体-o FUNC_RESULTS
可以通过运行找到提供给脚本的参数的全部细节degenes_hunter.r -h或functional_hunter.r -h.。在此数据包的Readme文件中给出了更多示例