SomaticCancerAlterations
1动机
在过去的几年里,大量的努力已经被用来描述癌症的体细胞景观。许多已进行的研究将其结果公开,为个别队列水平以外的调查提供了有价值的资源。somaticcancerchanges包收集几种肿瘤类型的突变数据,目前主要集中在TCGA调用集,并旨在与和工作流紧密集成。在下面的文章中,我们将说明如何访问这些数据,并给出用例示例。
2数据集
癌症基因组图谱(TCGA)1是否有一个研究团队致力于分析多种肿瘤类型,包括基因表达、甲基化、拷贝数变化和体细胞突变2.通过somaticcancerchanges包,我们为所有公开可用的TCGA研究提供了体细胞突变的调用集。随着时间的推移,更多的研究将被添加,因为它们变得可用并且在使用上不受限制。
首先,我们获得所有可用数据集的列表,并访问与每项研究相关的元数据。
all_datasets=scaListDatasets()打印(all_datasets)
# #[1]“gbm_tcga”“hnsc_tcga”“kirc_tcga”“luad_tcga”“lusc_tcga”“ov_tcga”# #[7]“skcm_tcga”“thca_tcga”
meta_data=scaMetadata()打印(meta_data)
37 WXS Phase_I ## luad_tcga LUAD broad.mit.edu 37 WXS Phase_I ## luad_tcga LUAD broad.mit.edu 37 WXS Phase_I ## skcm_tcga SKCM broad.mit.edu 37 Capture Phase_I ## thca_tcga THCA broad.mit.edu 37 WXS Phase_I ## skcm_tcga THCA broad.mit.edu 37 WXS Phase_I ## thca_tcga THCA broad.mit.edu 37 WXS Phase_I ##测序器数量_样本数量_患者##gbm_tcga Illumina GAIIx 291 2919 319 ## luad_tcga Illumina GAIIx 297 293 ## luad_tcga Illumina GAIIx 538 519 ## luad_tcga Illumina GAIIx 178 178 ## ov_tcga Illumina GAIIx 142 142 ## skcm_tcga Illumina GAIIx 266 264 ## thca_tcga Illumina GAIIx 406 403 #癌症多形式胶质母细胞瘤头颈部鳞状细胞癌## kirc_tcga肾嗜色症## luad_tcga肺腺癌## lusc_tcga肺鳞状细胞癌## #卵巢浆液性囊腺癌皮肤黑色素瘤甲状腺癌
接下来,我们用scaLoadDataset函数加载一个数据集。
机汇=scaLoadDatasets(“ov_tcga”,合并=真正的)
3.探索突变数据
每项研究的体细胞变异被表示为一个对象,按基因组位置排序。附加列描述变异的特性,并将其与受影响的基因、样本和患者联系起来。
头(机汇,3.)
GRanges对象,包含3个范围和14个元数据列:# # seqnames范围链| Hugo_Symbol Entrez_Gene_Id # # < Rle > < IRanges > < Rle > | <因素> <整数> # # ov_tcga 1 1334552 * | CCNL2 81669 # # ov_tcga 1 1961652 * | GABRD 2563 # # ov_tcga 1 2420688 * | PLCH2 9651 # # Variant_Classification Variant_Type Reference_Allele # # <因素> <因素> <因素> # # ov_tcga沉默SNP C # # ov_tcga沉默SNP C # # ov_tcga Missense_Mutation SNP C # # Tumor_Seq_Allele1 Tumor_Seq_Allele2 Verification_Status # # <因素> <因素> <因素> T未知的# # # # ov_tcga Cov_tcga C T未知# # ov_tcga C G未知# # Validation_Status Mutation_Status Patient_ID # # <因素> <因素> <因素> # # ov_tcga有效tcga体细胞- 24 - 2262 # # ov_tcga有效tcga体细胞- 24 - 1552 # # ov_tcga有效tcga体细胞- 13 - 1484 # # Sample_ID指数数据集# # <因素> <整数> <因素> # # ov_tcga tcga - 24 - 2262 - 01 - 3901 - 01 - w - 0799 - 08 ov_tcga # # ov_tcga tcga - 24 - 1552 - 01 - 3414 - 01 - w - 0551 - 08 ov_tcga # # ov_tcga tcga - 13 - 1484 - 01 - 1567 - 01 - w - 0545 - 08 ov_tcga ## ------- ## seqinfo:来自未知基因组的86个序列
与(mcols(ov),表格(Variant_Classification Variant_Type))
# # # # Variant_Type Variant_Classification DEL INS SNP # # 3 'utr 0 0 3 # # 5 'flank 0 0 1 # # 5 'utr 0 0 1 # # Frame_Shift_Del 79 0 0 # # Frame_Shift_Ins 0 16 0 # # IGR 0 0 5 # # In_Frame_Del 26 0 0 # # In_Frame_Ins 0 1 0 # #基因内区0 0 34 # # Missense_Mutation 0 0 4299 # # Nonsense_Mutation 0 0 285 # # Nonstop_Mutation 0 0 6 # # RNA 0 0 1 0 0 1417 # # # #沉默Splice_Site 9 2 121 # # Translation_Start_Site 1 0 1
有了这些数据,我们就可以识别出突变最多的样本和基因。
头(排序(表格(机汇$Sample_ID),减少=真正的))
## ## tcga -09-2049- 01d - 01w - 0499 -08 tcga-09-2050-01a-01w-0799-08 tcga-25-1326-01a-01w-0492-08 ## 111 102
头(排序(表格(机汇$Hugo_Symbol),减少=真正的),10)
## ## tp53 TTN pcdhac2 muc16 muc17 pcdhgc5 ush2a csmd3 cd163l1 dync1h1 ## 118 30 14 12 9 9 9 8 7 7
4探索多元研究
我们也可以一次导入几个,而不是专注于一个单独的研究。结果存储为GRangesList,其中每个元素对应一个研究。这可以合并成一个GRanges对象merge = TRUE
.
three_studies=scaLoadDatasets(all_datasets [1:3.])打印(elementNROWS(three_studies))
# gbm_tcga hnsc_tcga kirc_tcga ## 22166 73766 26265
类(three_studies)
## [1] "SimpleGRangesList" ## attr(,"package") ## [1] "GenomicRanges"
merged_studies=scaLoadDatasets(all_datasets [1:3.),合并=真正的)类(merged_studies)
# #[1]“农庄”# # attr(“包”)# #[1]“GenomicRanges”
然后我们计算每个基因的突变数量,并研究:
gene_study_count=与(mcols(merged_studies),表格(Hugo_Symbol数据集)gene_study_count=gene_study_count [订单(应用(gene_study_count1,金额),减少=真正的),)gene_study_count=addmargins(gene_study_count)头(gene_study_count)
##数据集## Hugo_Symbol gbm_tcga hnsc_tcga kirc_tcga Sum ##未知29 899 630 1558 ## TTN 121 401 125 647 ## TP53 101 323 8 432 ## MUC16 68 155 46 269 ## ADAM6 0 173 63 236 ## MUC4 17 32 130 179
此外,我们可以根据感兴趣的区域对数据进行子集,并仅对该子集计算描述性统计信息。
tp53_region=农庄(“17”,IRanges(7571720,7590863))tp53_studies=subsetByOverlaps(merged_studies tp53_region)
例如,在整个研究过程中,我们可以调查在TP53中可以发现哪种类型的体细胞变异。
addmargins(表格(tp53_studies$Variant_Classification, tp53_studies$数据集)
# # # # gbm_tcga hnsc_tcga kirc_tcga和# # 47 # # Frame_Shift_Ins Frame_Shift_Del 6 41 0 1 0 11 12 # # In_Frame_Del 2 7 0 9 # # In_Frame_Ins 0 2 0 81 183 6 270 # # # # Missense_Mutation Nonsense_Mutation 4 54 0 58 # # Nonstop_Mutation 6 0 0 0 0 # #沉默1 1 8 # # Splice_Site 6 19 26 # # Translation_Start_Site RNA 0 0 0 0 0 0 0 # # 0 # #和101 323 8 432
进一步来说,每种癌症类型中有多少患者有TP53突变?
fraction_mutated_region=函数(y,地区) {年代=subsetByOverlaps(y,区域)米=长度(独特的(年代$Patient_ID))/元数据(年代)$Number_Patients返回(m)}mutated_fraction=酸式焦磷酸钠(three_studies, fraction_mutated_region, tp53_region)mutated_fraction=data.frame(的名字=的名字(three_studies),分数=mutated_fraction)
图书馆(ggplot2)p=ggplot(mutated_fraction)+ggplot2::geom_bar(aes(x=名字,y=分数,填满=名称),统计=“身份”)+ylim(0,1)+xlab(“研究”)+ylab(“比”)+theme_bw()打印(p)

5数据来源
5.1TCGA数据
当从TCGA服务器导入突变数据时,我们检查数据的一致性,并修复注释中常见的歧义。
5.1.1处理
- 每项研究都需要选择最近的体细胞变异。它们被存储为
* .maf
TCGA数据目录下的文件3..如果手动管理和自动生成的变量调用都可用,则选择管理版本。 - 导入
* .maf
并检查与TCGA MAF规范的一致性4.请注意,这些指南目前只是建议,大多数TCGA文件违反了其中的一些建议。 - 将导入的变量转换为GRanges对象,每个报告的变量对应一行。只有与体细胞变异的基因组起源相关的列被存储,其他描述更高水平影响的列,如突变后果和蛋白质水平的改变,被删除。定义染色体范围的序列水平信息取自1000个基因组阶段2参考装配5.
- 从样本条码中提取患者条码。
- 提取了描述研究设计和分析的元数据。
- 处理后的变体被写入磁盘,每个研究有一个文件。所有研究的元数据都存储为一个单独的对象。
5.1.2数据集的选择标准
我们在软件包中包含了数据集
- 由布罗德研究所进行。
- 允许无限制的访问和使用6.
- 用Illumina平台测序。
5.1.3.一致性检验
根据TCGA的规范加
文件中,我们筛选并纠正了数据中关于注释的常见工件。这包括:
- 将所有基因组坐标转移到NCBI 37参考符号(染色体总是描述为“MT”)
- 根据该字段的所有允许值检查条目(当前为列
Hugo_Symbol
,染色体
,链
,Variant_Classification
,Variant_Type
,Reference_Allele
,Tumor_Seq_Allele1
,Tumor_Seq_Allele2
,Verification_Status
,Validation_Status
,定序器
).
6选择
7会话信息
## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基## ##其他附加包:## [1]ggbio_1.44.0 ggplot2_3.3.5 ## [3] genome icranges_1 .48.0 GenomeInfoDb_1.32.0 ## [5] IRanges_2.30.0 S4Vectors_0.34.0 ## [7] BiocGenerics_0.42.0 SomaticCancerAlterations_1.32.0 ## ##通过命名空间加载(且未附加):# # # # [1] colorspace_2.0-3 rjson_0.2.21 [3] ellipsis_0.3.2 biovizBase_1.44.0 # # [5] htmlTable_2.4.0 XVector_0.36.0 # # [7] base64enc_0.1-3 dichromat_2.0-0 # # [9] rstudioapi_0.13 farver_2.1.0 # # [11] bit64_4.0.5 AnnotationDbi_1.58.0 # # [13] fansi_1.0.3 xml2_1.3.3 # # [15] splines_4.2.0 cachem_1.0.6 # # [17] knitr_1.39 Formula_1.2-4 # # [19] Rsamtools_2.12.0 cluster_2.1.3 # # [21] dbplyr_2.1.1 png_0.1-7 # # [23] graph_1.74.0 BiocManager_1.30.17 # # [25] compiler_4.2.0 httr_1.4.2 # # [27] backports_1.4.1assertthat_0.2.1 # # [29] Matrix_1.4-1 fastmap_1.1.0 # # [31] lazyeval_0.2.2 cli_3.3.0 # # [33] htmltools_0.5.2 prettyunits_1.1.1 # # [35] tools_4.2.0 gtable_0.3.0 # # [37] glue_1.6.2 GenomeInfoDbData_1.2.8 # # [39] reshape2_1.4.4 dplyr_1.0.8 # # [41] rappdirs_0.3.3 Rcpp_1.0.8.3 # # [43] Biobase_2.56.0 vctrs_0.4.1 # # [45] Biostrings_2.64.0 rtracklayer_1.56.0 # # [47] xfun_0.30 stringr_1.4.0 # # [49] lifecycle_1.0.1 restfulr_0.0.13 # # [51] ensembldb_2.20.0 xml_3.99 - 0.9 # # [53] zlibbioc_1.42.0 scales_1.2.0# # # # [55] BSgenome_1.64.0 VariantAnnotation_1.42.0 [57] hms_1.1.1 MatrixGenerics_1.8.0 # # [59] ProtGenerics_1.28.0 RBGL_1.72.0 # # [61] parallel_4.2.0 SummarizedExperiment_1.26.0 # # [63] AnnotationFilter_1.20.0 RColorBrewer_1.1-3 # # [65] yaml_2.3.5 curl_4.3.2 # # [67] memoise_2.0.1 gridExtra_2.3 # # [69] biomaRt_2.52.0 rpart_4.1.16 # # [71] reshape_0.8.9 latticeExtra_0.6-29 # # [73] stringi_1.7.6 RSQLite_2.2.12 # # [75] highr_0.9 BiocIO_1.6.0 # # [77] checkmate_2.1.0 GenomicFeatures_1.48.0 # # [79]filelock_1.0.2 BiocParallel_1.30.0 # # [81] rlang_1.0.2 pkgconfig_2.0.3 # # [83] matrixStats_0.62.0 bitops_1.0-7 # # [85] evaluate_0.15 lattice_0.20-45 # # [87] purrr_0.3.4 labeling_0.4.2 # # [89] GenomicAlignments_1.32.0 htmlwidgets_1.5.4 # # [91] bit_4.0.4 tidyselect_1.1.2 # # [93] GGally_2.1.2 plyr_1.8.7 # # [95] magrittr_2.0.3 R6_2.5.1 # # [97] generics_0.1.2 Hmisc_4.7-0 # # [99] DelayedArray_0.22.0 DBI_1.1.2 # # [101] pillar_1.7.0 foreign_0.8 - 82 # # [103] withr_2.5.0 survival_3.3-1 # # [105]KEGGREST_1.36.0 RCurl_1.98-1.6 ## [107] nnet_7.3-17 tibble_1 .1.6 ## [109] crayon_1.5.1 utf8_1.2.2 ## [111] OrganismDbi_1.38.0 BiocFileCache_2.4.0 ## [113] jpeg_0.1-9 progress_1.2.2 ## [115] grid_4.2.0 data.table_1.14.2 ## [117] blob_1.2.3 digest_0.6.29 ## [119] munsell_0.5.0