waddR
包的waddR
包提供基于2-Wasserstein距离的统计检验,用于检测和表征以样本形式给出的两个分布之间的差异。提供了用于计算2-Wasserstein距离和测试差异分布的函数,以及专门针对单细胞RNA测序数据中的差异表达的测试。
waddR
提供工具来处理以下任务,每个任务在单独的小插图中描述:
这些被捆绑到一个包中,因为它们是内部依赖的:检测scRNAseq数据中的差异分布的过程是对一般两样本检验的适应,它本身使用2-Wasserstein距离来比较两个分布。
2-Wasserstein距离是描述两个分布之间距离的度量,表示例如两个不同的条件\ \ ()而且\ (B \).的waddR
包特别考虑2-Wasserstein距离的平方,它可以分解为位置、大小和形状项,从而提供了电位差的表征。
的waddR
包提供了三个函数来计算(平方)2-Wasserstein距离,这些函数是用c++实现的,并通过Rcpp导出到R中,以便更快地计算。这个函数wasserstein_metric
是Cpp的重新实施wasserstein1d
函数从R包运输
.的函数squared_wass_approx
而且squared_wass_decomp
计算2-Wasserstein距离平方的近似值,用squared_wass_decomp
还返回位置、大小和形状的分解项。
看到wasserstein_metric ?
,squared_wass_aprox ?
,squared_wass_decomp ?
欲知详情。
的waddR
包提供了两个测试程序,使用2-Wasserstein距离来测试是否存在两个分布\ (F_A \)而且\ (F_B \)给出的样本形式不同,通过检验原假设\(h_0: f_a = f_b \)与备择假设相反\(h_1: f_a != f_b \).
第一,半参数(SP),程序使用基于排列的测试结合广义帕累托分布近似来准确估计小p值。
第二个程序使用基于渐近理论(ASY)的检验,只有当样本可以假设来自连续分布时才有效。
看到wasserstein.test ?
欲知详情。
的waddR
包提供了基于2-Wasserstein距离的半参数测试程序的适应,专门用于识别scRNAseq数据中的差异分布。特别地,采用两阶段(TS)方法,通过分别测试两种条件之间零基因表达的差异比例(使用逻辑回归模型)和非零基因表达的差异(使用基于半参数的2-Wasserstein距离检验),考虑到scRNAseq数据的特定性质。
看到wasserstein.sc ?
而且testZeroes ?
欲知详情。
安装waddR
来自Bioconductor,使用BiocManager
使用以下命令:
使用BiocManager
,该包也可以直接从GitHub安装:
这个包waddR
可以在R中使用:
sessionInfo()#> R版本4.2.1 (2022-06-23)#>平台:x86_64-pc-linux-gnu(64位)运行在Ubuntu 20.04.5 LTS下# >矩阵产品:默认值#> BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas.so#> LAPACK: /home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack.so# ># >语言环境:#> [1] LC_CTYPE=en_US。utf - 8 LC_NUMERIC = C#> [3] LC_TIME=en_GB LC_COLLATE=C#> [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。utf - 8#> [7] LC_PAPER=en_US。utf - 8 LC_NAME = C#> [9] lc_address = c lc_phone = c#> [11] LC_MEASUREMENT=en_US。utf - 8 LC_IDENTIFICATION = C# >#>附加基础包:#>[1]统计图形grDevices utils数据集方法基础# >#>其他附加包:#> [1] waddR_1.12.0# >#>通过命名空间加载(并且没有附加):#> [1] Rcpp_1.0.9 lattice_0.20-45#> [3] assertthat_0.2.1 digest_0.6.30#> [5] SingleCellExperiment_1.20.0 utf8_1.2.2#> [7] BiocFileCache_2.6.0 R6_2.5.1#> [9] GenomeInfoDb_1.34.0 stats4_4.2.1#> [11] RSQLite_2.2.18 evaluate_0.17#> [13] coda_0.19-4 httr_1.4.4#> [15] pillar_1.8.1 zlibbioc_1.44.0#> [17] rlang_1.0.6 curl_4.3.3#> [19] minqa_1.2.5 nloptr_2.0.3#> [21] jquerylib_0.1.4 blob_1.2.3#> [23] S4Vectors_0.36.0 Matrix_1.5-1#> [25] rmarkdown_2.17 splines_4.2.1#> [27] lme4_1.1-31 BiocParallel_1.32.0#> [29] string_1 .4.1 RCurl_1.98-1.9 . ##> [31] bit_4.0.4 DelayedArray_0.24.0#> [33] compiler_4.2.1 xfun_0.34#> [35] pkgconfig_2.0.3 BiocGenerics_0.44.0#> [37] eva_0.2.6 htmltools_0.5.3#> [39] tidyselect_1.2.0 summarizeexperimental _1.28.0#> [41] tibble_3.1.8 GenomeInfoDbData_1.2.9IRanges_2.32.0 codetools_0.2-18#> [45] matrixStats_0.62.0 fansi_1.0.3#> [47] with thr_2.5.0 dplyr_1.0.10#> [49] dbplyr_2.2.1 MASS_7.3-58.1#> [51] bitops_1.0-7 rappdirs_0.3.3#> [53] grid_4.2.1 nlme_1 .1-160#> [55] jsonlite_1.8.3 arm_1.13-1#>[57]生命周期_1.0.3 DBI_1.1.3 . ##> [59] magrittr_2.0.3 cli_3.4.1#> [61] stringi_1.7.8 cachem_1.0.6 . ##> [63] XVector_0.38.0 bslib_0.4.0#> [65] filelock_1.0.2 generics_0.1.3 . ##> [67] vctrs_0.5.0 boot_1.3-28#> [69] tools_4.2.1 bit64_4.0.5#> [71] Biobase_2.58.0 glue_1.6.2#> [73] purrr_0.3.5 MatrixGenerics_1.10.0#> [75] abind_1.4-5 parallel_4.2.1 . ##> [77] fastmap_1.1.0 yaml_2.3.6#> [79] GenomicRanges_1.50.0 memoise_2.0.1#> [81] knitr_1.40 sass_0.4.2 . #