1介绍

有几种方法可以调整从DNA甲基化（DNAM）测量的全血细胞类型相对比例的差异。例如，基于参考的方法需要使用由纯化的单元格类型组成的参考证明集来识别细胞类型特异性DNAM签名。这些细胞类型特异性的DNAM签名用于直接估计细胞类型的相对比例，但是这些参考数据集艰苦且收集昂贵。此外，随着新的平台技术的出现，这些参考数据集需要随着时间的推移而连续收集，因为在同一样本中观察到的相同CPG的甲基化水平因平台技术而异。

相反，有无参考的方法这是基于与替代变量分析或线性混合模型有关的方法。这些方法不提供细胞类型的相对比例的估计，而是这些方法只是从全血样品中相对细胞类型比例的差异中消除了引起的变异性。

在这里，我们提出了一个统计模型，该模型估计了从DNAM测量的全血样品的细胞组成。该方法可以应用于微阵列或测序数据（例如全基因组亚硫酸盐测序数据，WGB，减少表示bisulfite bisulfite测序数据，RRB）。我们的方法是基于识别有信息的基因组区域的想法，这些区域清楚地甲基化或未对每种细胞类型进行甲基化或未甲基化，这允许在多个平台技术中进行估计，因为细胞类型仍然在平台上保留其甲基化状态，尽管观察到的测量值依赖于平台。

2入门

加载甲基接受R包和其他稍后需要的软件包。

图书馆（flowsorted.blood.450k）库（甲基接受）库（MINFI）库（TIDYR）库（dplyr）库（ggplot2）

3数据

3.1全血光明450k微阵列数据示例

＃有关样品头的表型信息（PDATA（Flowsorted.blood.450k））

## DataFrame with 6 rows and 8 columns ## Sample_Name Slide Array Basename SampleID ##      ## WB_105 WB_105 5684819001 R01C01 idat/5684819001_R01C01 105 ## WB_218 WB_218 5684819001 R02C01 idat/5684819001_R02C01 218 ## WB_261 WB_261 5684819001 R03C01 idat/5684819001_R03C01 261 ## PBMC_105 PBMC_105 5684819001 R04C01 idat/5684819001_R04C01 105 ## PBMC_218 PBMC_218 5684819001 R05C01 idat/5684819001_R05C01 218 ## PBMC_261 PBMC_261 5684819001 R06C01 idat/5684819001_R06C01 261 ## CellTypeLong CellType Sex ##<角色> <角色> <角色> ## WB_105全血WBC M ## WB_218全血WBC M ## WB_261全血WBC M ## PBMC_105 PBMC PBMC PBMC PBMC M ## PBMC_218 PBMC PBMC PBMC PBMC PBMC M ## PBMC PBMC PBMC PBMC PBMC PBMC PBMC PBMC PBMC MMC MMC MMC MMC MMC

＃rgchannelset rgset <-Flowsorted.blood.450k [，pdata（flowsorted.blood.450k）$ cellTypelong％in％“全血”]

4使用`estectecc（）`功能

4.1输入`estectecc（）`

这estectecc（）函数必须具有一个对象作为输入：

一个目的例如rgchannelset从r包装Minfi或aBSSEQ来自R软件包的对象BSSEQ。该对象应包含一组CPGS（行）处观察到的DNAM级别\（n \）全血样品（列）。

4.2跑步`estectecc（）`

在此示例中，我们有兴趣估计在Flowsorted.blood.450kR/Bioconductor套件。运行甲基频率:: estectaTecc（）功能，只需提供rgchannelset。这将创建一个估算目的。我们称之为对象美东时间。

set.seed（12345）est <-estect（object = rgset）est

## estionatecc：全血的估计细胞组成##样品使用DNA甲基化##输入对象类：rgchannelset ##参考单元类型：Gran CD4T CD4T CD8T BCELL BCELL MONO NK ##全血样品数量：6 ##全血的名称全血的名称样本：WB_105 WB_218 WB_261 WB_043 WB_160 WB_149

要查看细胞组成估计，请使用cell_counts（）功能。

Cell_Counts（EST）

## Gran CD4T CD8T Bcell Mono NK ## WB_105 0.4242292 0.16915420 0.09506568 0.04187765 0.08357502 0.18609822 ## WB_218 0.4906710 0.15471447 0.00000000 0.04979116 0.14346117 0.16136217 ## WB_261 0.5476117 0.11895815 0.14007846 0.01725995 0.08869797 0.08739378 ## WB_043 0.5038143 0.12420228 0.08031593 0.06515287 0.07218653 0.15432807 ## WB_160 0.6803254 0.07139726 0.049657320.00000000 0.09526148 0.10335854 ## WB_149 0.5375962 0.14902349 0.10814235 0.03227085 0.06111685 0.1111850255

4.3相比于`minfi :: estecellcounts（）`

我们也可以使用estateTecellCounts（）来自R/Bioconductor套件Minfi估计每个血样的细胞组成。

Samplenames（rgset）<-paste0（“样本”，1：6）est_minfi <-minfi :: estecellcounts（rgset）est_minfi

## CD8T CD4T NK Bcell Mono Gran ## Sample1 0.13967126 0.1581874 0.137528672 0.07040633 0.06383445 0.4835306 ## Sample2 0.05797617 0.1751543 0.072686689 0.09859270 0.12429750 0.5228217 ## Sample3 0.12091718 0.1531062 0.029632651 0.05447982 0.06775822 0.6064806 ## Sample4 0.10438514 0.1709784 0.024322195 0.11447040 0.05233508 0.5700027 ## Sample5 0.03775465 0.1465998 0.0039966960.04767462 0.07452444 0.7069746 ##示例6 0.06568804 0.1873355 0.054344189 0.07039282 0.05196750 0.59320744

然后，我们可以将估计值与甲基频率:: estectaTecc（）。

df_minfi = gather（cbind（“ samples” = rownames（cell_counts（est）），as.data.frame（est_minfi）），cellType，est，-samples，-samples）df_methylcc = chater），cell_counts（est）），cellType，est，-samples）dfcombined <-full_join（df_minfi，df_minfi，df_methylcc，by by = c（“ samples”，“ cellType”，“ cellType”））ggplot（dfcombine（dfcombine）y = est.y，color = cellType）） + geom_point（） + xlim（0,1） + ylim（0,1） + geom_abline（intercept = 0，slope = 1） + xlab（“使用minfi :: estionAtecellCounts（）”） + ylab（“使用甲基频率:: estematecc（）”） +实验室（title =“比较细胞组成估计”）

我们看到估计值与六种单元格类型紧密匹配。

5SessionInfo

SessionInfo（）

## R版本4.2.0 RC（2022-04-19 R82224）##平台：x86_64-pc-linux-gnu（64位）＃## blas：/home/biocbuild/bbs-3.15-bioc/r/lib/libblas.so ## lapack：/home/biocbuild/bbs-3.15-bioc/rib/lib/libb/librlapack.so ### ## ## locale：## [1] lc_ctype = en_us.utf-8 lc_numeric = c ## [3] lc_time = en_gb lc_collate = c ## [5] lc_us.us.utf-8 lc_messages = en_us.utf-8 ## [7]lc_paper = en_us.utf-8 lc_name = c ## [9] lc_address = c lc_telephone = c ## [11] lc_measurement = en_us.utf-8 lc_istientification = c ## ## ## ## ##附件base base packages：## [1] Parallelstats4 Stats图形GRDEVICES UTILS ## [8]方法基础## ##其他附件包：## [1] Illuminahumanmethylation450Kanno.ilmn12.hg19_0.0.6.6.6.6.1 ## [2] ## [2] Illuminahuminahuminahuminahumanhymathylation450kManifest_0.4.4.0.4.4.0 ## 3.3.3.3]＃[4] dplyr_1.0.8 ## [5] tidyr_1.2.0 ## [6] Methylcc_1.10.0 ## [7] Flowsorted.blood.450K_1.33.1 ## [8] MinFi_1.42.42.0 ## [9] Bumphunter_1。38.0 ## [10] locfit_1.5-9.5 ## [11] iterators_1。0.14 ## [12] foreach_1.5.2 ## [13] bioStrings_2.64.0 ## [14] xvector_0.36.0 ## [15] summarizedexperiment_1.26.0＃＃[18] matrixstats_0.62.0 ## [19] genomicranges_1.48.0 ## [20] GenomeInfodb_1.32.0 ## [21] Iranges_2.30.0 ## [22] S4Vectors_0.0.34.0 ## [23]24] knitr_1.38 ## [25] BiocStyle_2.24.0 ## ## loaded via a namespace (and not attached): ## [1] BiocFileCache_2.4.0 plyr_1.8.7 ## [3] splines_4.2.0 BiocParallel_1.30.0 ## [5] digest_0.6.29 htmltools_0.5.2 ## [7] magick_2.7.3 fansi_1.0.3 ## [9] magrittr_2.0.3 memoise_2.0.1 ## [11] BSgenome_1.64.0 tzdb_0.3.0 ## [13] limma_3.52.0 readr_2.1.2 ## [15] annotate_1.74.0 R.utils_2.11.0 ## [17] askpass_1.1 siggenes_1.70.0 ## [19] prettyunits_1.1.1 colorspace_2.0-3 ## [21] blob_1.2.3 rappdirs_0.3.3 ## [23] xfun_0.30 crayon_1.5.1 ## [25] RCurl_1.98-1.6 jsonlite_1.8.0 ## [27] genefilter_1.78.0 bsseq_1.32.0 ## [29] GEOquery_2.64.0 survival_3.3-1 ## [31] glue_1.6.2 gtable_0.3.0 ## [33] zlibbioc_1.42.0 DelayedArray_0.22.0 ## [35] plyranges_1.16.0 Rhdf5lib_1.18.0 ## [37] HDF5Array_1.24.0 scales_1.2.0 ## [39] DBI_1.1.2 rngtools_1.5.2 ## [41] Rcpp_1.0.8.3 xtable_1.8-4 ## [43] progress_1.2.2 bit_4.0.4 ## [45] mclust_5.4.9 preprocessCore_1.58.0 ## [47] httr_1.4.2 RColorBrewer_1.1-3 ## [49] ellipsis_0.3.2 farver_2.1.0 ## [51] R.methodsS3_1.8.1 pkgconfig_2.0.3 ## [53] reshape_0.8.9 XML_3.99-0.9 ## [55] sass_0.4.1 dbplyr_2.1.1 ## [57] utf8_1.2.2 labeling_0.4.2 ## [59] tidyselect_1.1.2 rlang_1.0.2 ## [61] AnnotationDbi_1.58.0 munsell_0.5.0 ## [63] tools_4.2.0 cachem_1.0.6 ## [65] cli_3.3.0 generics_0.1.2 ## [67] RSQLite_2.2.12 evaluate_0.15 ## [69] stringr_1.4.0 fastmap_1.1.0 ## [71] yaml_2.3.5 bit64_4.0.5 ## [73] beanplot_1.3.1 scrime_1.3.5 ## [75] purrr_0.3.4 KEGGREST_1.36.0 ## [77] nlme_3.1-157 doRNG_1.8.2 ## [79] sparseMatrixStats_1.8.0 nor1mix_1.3-0 ## [81] R.oo_1.24.0 xml2_1.3.3 ## [83] biomaRt_2.52.0 compiler_4.2.0 ## [85] filelock_1.0.2 curl_4.3.2 ## [87] png_0.1-7 tibble_3.1.6 ## [89] bslib_0.3.1 stringi_1.7.6 ## [91] highr_0.9 GenomicFeatures_1.48.0 ## [93] lattice_0.20-45 Matrix_1.4-1 ## [95] permute_0.9-7 multtest_2.52.0 ## [97] vctrs_0.4.1 pillar_1.7.0 ## [99] lifecycle_1.0.1 rhdf5filters_1.8.0 ## [101] BiocManager_1.30.17 jquerylib_0.1.4 ## [103] data.table_1.14.2 bitops_1.0-7 ## [105] rtracklayer_1.56.0 R6_2.5.1 ## [107] BiocIO_1.6.0 bookdown_0.26 ## [109] codetools_0.2-18 gtools_3.9.2 ## [111] MASS_7.3-57 assertthat_0.2.1 ## [113] rhdf5_2.40.0 openssl_2.0.0 ## [115] rjson_0.2.21 withr_2.5.0 ## [117] GenomicAlignments_1.32.0 Rsamtools_2.12.0 ## [119] GenomeInfoDbData_1.2.8 hms_1.1.1 ## [121] quadprog_1.5-8 grid_4.2.0 ## [123] base64_2.0 rmarkdown_2.14 ## [125] DelayedMatrixStats_1.18.0 illuminaio_0.38.0 ## [127] restfulr_0.0.13

MEDYLCC用户指南

2022年4月26日

抽象的

包裹

1介绍

2入门

3数据

3.1全血光明450k微阵列数据示例

4使用`estectecc（）`功能

4.1输入`estectecc（）`

4.2跑步`estectecc（）`

4.3相比于`minfi :: estecellcounts（）`

5SessionInfo

MEDYLCC用户指南

2022年4月26日

抽象的

包裹

1介绍

2入门

3数据

3.1全血光明450k微阵列数据示例

4使用estectecc（）功能

4.1输入estectecc（）

4.2跑步estectecc（）

4.3相比于minfi :: estecellcounts（）

5SessionInfo

4使用`estectecc（）`功能

4.1输入`estectecc（）`

4.2跑步`estectecc（）`

4.3相比于`minfi :: estecellcounts（）`