1概述

CopyNeutralIMA提供了使用Illumina Infinium 450k或EPIC DNA甲基化阵列进行拷贝数变异(CNV)分析的参考样本。有许多R/Bioconductor包可以进行基因组拷贝数分析,包括conumee(Hovestadt和Zapatka,留言。冠军田等。2017CopyNumber450k,现在已弃用。为了提取有关拷贝数变更的信息,需要一组拷贝中性样本作为参考。这个包CopyNumber450kData,通常用来提供参考,已不再可用。此外,从来没有人努力为EPIC阵列提供参考样本。为了填补这一空白,我们在此介绍CopyNeutralIMA包中。

2描述

在这个包中,我们提供了一组51个IlluminaHumanMethylation450k和13个IlluminaHumanMethylationEPIC样本。所提供的样本由健康个体的材料组成,名义上没有拷贝数畸变。的用户conumee或者其他拷贝数分析包可以使用该数据包作为参考基因组。

3.数据

我们从不同的研究中选择了数据基因表达综合(GEO).特别是,对于450k数组的样本GSE49618(Ley等。2013GSE61441Wei et al.;2015而且GSE106089汤姆林森等人。2017被选择。对于EPIC阵列,系列中的正常或控制样本GSE86831/GSE86833(Pidsley et al.)2016GSE98990(周,莱尔德,沈2017而且GSE100825Guastafierro等。2017被选择。

4的例子conumee

首先,我们加载要分析的数据并重命名它。我们将使用minfiData(丹尼尔、阿尔耶和蒂姆2018的小插图中描述的步骤conumee

library(minfi) library(conummee) library(minfiData) data(RGsetEx) sampleNames(RGsetEx) <- pData(RGsetEx)$Sample_Name cancer <- pData(RGsetEx)$status == 'cancer' RGsetEx <- RGsetEx[,cancer] RGsetEx #> class: RGChannelSet #> dim: 622399 3 #> metadata(0): #> assays(2): Green Red #> rownames(622399): 10600313 10600322…74810490 74810492 #> rowData names(0): #> colnames(3): GroupB_3 GroupB_1 GroupB_2 #> colData names(13): Sample_Name Sample_Well…Basename文件名#>注释#>数组:IlluminaHumanMethylation450k #>注释:ilmn12.hg19

加载数据后,我们将其归一化:

MsetEx <- preprocessIllumina(RGsetEx) MsetEx #> class: MethylSet #> dim: 485512 3 #> metadata(0): #> assays(2): Meth Unmeth #> rownames(485512): cg00050873 cg00212031…ch. 22.47579720r# > ch. 22.48274842r# > rowData names(0): #> colnames(3): GroupB_3 GroupB_1 GroupB_2 #> colData names(13): Sample_Name Sample_Well…Basename文件名#>注释#>数组:IlluminaHumanMethylation450k #>注释:ilmn12.hg19#> Preprocessing #> Method: Illumina, bg.correct = TRUE, normalize = controls, reference = 1 #> minfi version: 1.43.0 #> Manifest version: 0.4.0

现在我们从与测试样本相同的数组类型中加载控制样本,并将它们归一化:

library(CopyNeutralIMA) ima <- annotation(MsetEx)[['array']] RGsetCtrl <- getCopyNeutralRGSet(ima) # preprocess as with sample data MsetCtrl <- preprocessIllumina(RGsetCtrl) MsetCtrl #> class: MethylSet #> dim: 485512 51 #> metadata(0): #> assays(2): Meth Unmeth #> rownames(485512): cg00050873 cg00212031…ch. 22.47579720r# > ch. 22.48274842r# > rowData names(0): #> colnames(51): GSM1185582 GSM1185583…GSM2829413 GSM2829418 #> colData names(7): ID gsm…source_name_ch1 characteristics_ch1 #>注释#>数组:IlluminaHumanMethylation450k #>注释:ilmn12。方法:Illumina, bg. hg19 #>预处理#>正确= TRUE, normalize =控件,参考= 1 #> minfi版本:1.43.0 #> Manifest版本:0.4.0

最后,我们可以根据作者的指示运行conumee分析:

#使用conumee提供的信息创建注释文件或根据包指令data(exclude_regions) data(detail_regions) anno <- CNV. #定义它们。create_anno(array_type = "450k", exclude_regions = exclude_regions, detail_regions = detail_regions) #>使用来自UCSC的基因组注释#>获得450k注释#> - 470870探针使用#>导入区域以排除分析#>导入区域用于详细分析#>创建垃圾箱#> - 53891个垃圾箱创建#>合并垃圾箱#> - 15820个垃圾箱剩余#加载来自参考数据和待分析样本控制的数据。data <- cnv .load(MsetCtrl) ex.data <- cnv .load(MsetEx) cnv <- cnv .fit(ex. ctrl)数据(“GroupB_1”),控制。data, anno) cnv <- cnv .bin(cnv) cnv <- cnv .detail(cnv) cnv <- cnv .segment(cnv) cnv #> cnv分析对象#> created: Wed Apr 27 09:12:29 2022 #> @name: GroupB_1 #> @anno: 22染色体,470870探针,15820 bins #> @fit: available (noise: 2.32) #> @bin: available (shift: 0.005) #> @detail: available(20个区域)#> @seg: available(29个片段)cnv .genomeplot(cnv)

CNV。基因组图(cnv, CHR = 'chr18')

头(CNV。write(cnv, what = 'segments')) #> ID chrom loc。疯狂的开始。结束num.mark bstat pval seg。> 1 GroupB_1 chr1 635684 148927230 931 21.475711 1.422312e-99 -0.194 #> GroupB_1 chr1 149077230 149379823 5 26.044755 7.787661e-147 3.058 #> 3 GroupB_1 chr1 149579823 249195311 657 NA NA -0.077 #> GroupB_1 chr10 105000 135462374 840 NA NA -0.054 #> 5 GroupB_1 chr11 130000 134873258 914 NA NA 0.081 #> 6 GroupB_1 chr12 172870 65175000 413 8.802509 1.958883e-16 -0.006 #> seg。中位数#> 1 -0.180 #> 2 0.621 #> 3 -0.070 #> 4 -0.050 #> 5 0.068 #> 6 -0.015头(CNV。write(cnv, what='probes')) #>染色体开始结束特征组b_1 #> 1 chr1 15864 15865 cg13869341 -0.064 #> 2 chr1 18826 18827 cg14008030 -0.321 #> 3 chr1 29406 29407 cg12045430 0.109 #> 4 chr1 29424 29425 cg20826792 -0.264 #> 5 chr1 29434 29435 cg00381604 -0.069 #> 6 chr1 68848 68849 cg20253340 -0.360

会话信息

#> R version 4.2.0 RC (2022-04-21 r82226) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.4 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# > #>附加基础包:#> [1]parallel stats4 stats graphics grDevices utils datasets #>[8]方法基础#> #>其他附加包:# > [1] CopyNeutralIMA_1.15.0 # > [2] minfiData_0.43.0 # > [3] conumee_1.31.0 # > [4] IlluminaHumanMethylationEPICmanifest_0.3.0 # > [5] IlluminaHumanMethylationEPICanno.ilm10b2.hg19_0.6.0 # > [6] IlluminaHumanMethylation450kmanifest_0.4.0 # > [7] IlluminaHumanMethylation450kanno.ilmn12.hg19_0.6.1 # > [8] minfi_1.43.0 # > [9] bumphunter_1.39.0 # > [10] locfit_1.5 - 9.5 # > [11] iterators_1.0.14 # > [12] foreach_1.5.2 # > [13] Biostrings_2.65.0 # > [14] XVector_0.37.0 # > [15] SummarizedExperiment_1.27.0 # > [16]Biobase_2.57.0 #> [17] MatrixGenerics_1.9.0 #> [18] matrixStats_0.62.0 #> [19] genome icranges_1 .49.0 #> [20] GenomeInfoDb_1.33.0 # [21] IRanges_2.31.0 #> [22] S4Vectors_0.35.0 #> [23] BiocGenerics_0.43.0 #> [24] BiocStyle_2.25.0 #> #>通过命名空间加载(并且没有附加):# > [1] AnnotationHub_3.5.0 BiocFileCache_2.5.0 # > [3] plyr_1.8.7 splines_4.2.0 # > [5] BiocParallel_1.31.0 digest_0.6.29 # > [7] htmltools_0.5.2 magick_2.7.3 # > [9] fansi_1.0.3 magrittr_2.0.3 # > [11] memoise_2.0.1 tzdb_0.3.0 # > [13] limma_3.53.0 readr_2.1.2 # > [15] annotate_1.75.0 askpass_1.1 # > [17] siggenes_1.71.0 prettyunits_1.1.1 # > [19] blob_1.2.3 rappdirs_0.3.3 # > [21] rbibutils_2.2.8 xfun_0.30 # > [23] dplyr_1.0.8 crayon_1.5.1 # > [25] rcurl_1.98 - 1.6 jsonlite_1.8.0 # > [27] genefilter_1.79.0GEOquery_2.65.0 # > [29] survival_3.3-1 glue_1.6.2 # > [31] zlibbioc_1.43.0 DelayedArray_0.23.0 # > [33] Rhdf5lib_1.19.0 HDF5Array_1.25.0 # > [35] DBI_1.1.2 rngtools_1.5.2 # > [37] Rcpp_1.0.8.3 xtable_1.8-4 # > [39] progress_1.2.2 bit_4.0.4 # > [41] mclust_5.4.9 preprocessCore_1.59.0 # > [43] httr_1.4.2 RColorBrewer_1.1-3 # > [45] ellipsis_0.3.2 pkgconfig_2.0.3 # > [47] reshape_0.8.9 xml_3.99 - 0.9 # > [49] sass_0.4.1 dbplyr_2.1.1 # > [51] utf8_1.2.2 DNAcopy_1.71.0 # > [53] later_1.3.0 tidyselect_1.1.2 # > [55]rlang_1.0.2 AnnotationDbi_1.59.0 #> [57] BiocVersion_3.16.0 tools_4.2.0 #> [59] cachem_1.0.6 cli_3.3.0 #> [61] ExperimentHub_2.5.0 generics_0.1.2 #> [63] RSQLite_2.2.12 evaluate_0.15 #> [65] stringr_1.4.0 fastmap_1.1.0 #> [67] yaml_2.3.5 knitr_1.38 #> [69] bit64_4.0.5 beanplot_1.3.1 #> [71] scrime_1.3.5 purrr_0.3.4 #> [73] KEGGREST_1.37.0 nlme_3.1-157 #> [75] doRNG_1.8.2 sparseMatrixStats_1.9.0 #> [77] mime_0.12 nor1mix_1.3-0 #> [79] xml2_1.3.3 biomaRt_2.53.0 #> [81] compiler_4.2.0 interactiveDisplayBase_1.35.0 #> [83] filelock_1.0.2 curl_4.3.2 #> [85] png_0.1-7 tibble_3.1.6 #> [87] bslib_0.3.1 stringi_1.7.6 #> [89] highr_0.9 GenomicFeatures_1.49.0 #> [91] lattice_0.20-45 Matrix_1.4-1 #> [93] multtest_2.53.0 vctrs_0.4.1 #> [95] pillar_1.7.0 lifecycle_1.0.1 #> [97] rhdf5filters_1.9.0 BiocManager_1.30.17 #> [99] Rdpack_2.3 jquerylib_0.1.4 #> [101] data.table_1.14.2 bitops_1.0-7 #> [103] httpuv_1.6.5 rtracklayer_1.57.0 #> [105] R6_2.5.1 BiocIO_1.7.0 #> [107] promises_1.2.0.1 bookdown_0.26 #> [109] codetools_0.2-18 MASS_7.3-57 #> [111] assertthat_0.2.1 rhdf5_2.41.0 #> [113] openssl_2.0.0 rjson_0.2.21 #> [115] withr_2.5.0 GenomicAlignments_1.33.0 #> [117] Rsamtools_2.13.0 GenomeInfoDbData_1.2.8 #> [119] hms_1.1.1 quadprog_1.5-8 #> [121] grid_4.2.0 tidyr_1.2.0 #> [123] base64_2.0 rmarkdown_2.14 #> [125] DelayedMatrixStats_1.19.0 illuminaio_0.39.0 #> [127] shiny_1.7.1 restfulr_0.0.13

参考文献

阿尔耶,MJ, AE Jaffe, H corada - bravo, C Ladd-Acosta, AP Feinberg, KD Hansen和RA Irizarry. 2014。Minfi:一个灵活而全面的Bioconductor包,用于分析Infinium DNA甲基化微阵列。生物信息学30(10): 1363-9。https://doi.org/10.1093/bioinformatics/btu049

丹尼尔,K, M Aryee, W Timp, 2018。minfiData: Illumina甲基化450k阵列的示例数据

Guastafierro, T, MG Bacalini, A Marcoccia, D Gentilini, S Pisoni, AM Di Blasio, A Corsi,等2017。“维尔纳综合征患者血细胞的全基因组DNA甲基化分析。”临床实验胚胎学9: 92。https://doi.org/10.1186/s13148-017-0389-4

Hovestadt V和M Zapatka。留言。conumee:使用Illumina DNA甲基化阵列进行增强拷贝数变异分析.分子遗传学,德国癌症研究中心(DKFZ),德国海德堡。//www.andersvercelli.com/packages/conumee/

Ley, TJ, C Miller, L Ding,癌症基因组图谱研究网络,2013。成人新生急性髓系白血病的基因组和表观基因组图谱新英格兰医学杂志368(22): 2059-74。https://doi.org/10.1056/NEJMoa1301689

皮德利,R, E Zotenko, TJ Peters, MG Lawrence, GP Risbridger, P Molloy, S Van Djik, B Muhlhausler, C Stirzaker和SJ Clark, 2016。Illumina MethylationEPIC串珠芯片芯片用于全基因组DNA甲基化分析的关键评估。基因组生物学17(1): 208。https://doi.org/10.1186/s13059-016-1066-1

田,Y, TJ莫里斯,AP韦伯斯特,Z Yang, S Beck, A feb和AE Teschendorff。2017。“ChAMP: Illumina串珠芯片更新甲基化分析管道。”生物信息学33(24): 3982-4。https://doi.org/10.1093/bioinformatics/btx513

汤姆林森,MS, PA Bommarito, EM Martin, L Smeester, RN Fichorova, AB Onderdonk, KCK Kuban, TM O 'Shea和RC Fry。2017。人类胎盘中的微生物与免疫和炎症相关基因的CpG甲基化改变有关。《公共科学图书馆•综合》12 (12): e0188664。https://doi.org/10.1371/journal.pone.0188664

魏,JH, A Haddad, JH Luo等人。2015.cpg甲基化检测预测透明细胞肾细胞癌的生存自然通讯30(6): 8699。https://doi.org/10.1038/ncomms9699

周伟,PW莱尔德,沈恒。2017。“Infinium DNA甲基化珠晶探针的全面表征,注释和创新使用。”核酸研究45 (4): e22。https://doi.org/10.1093/nar/gkw967