SomaticCancerAlterations

目录

1动机

在过去的几年里,大量的努力已经被用来描述癌症的体细胞景观。许多已进行的研究将其结果公开,为个别队列水平以外的调查提供了有价值的资源。somaticcancerchanges包收集几种肿瘤类型的突变数据,目前主要集中在TCGA调用集,并旨在与和工作流紧密集成。在下面的文章中,我们将说明如何访问这些数据,并给出用例示例。

##加载所需的包:stats4
##加载所需的包:BiocGenerics
## ##附加包:“BiocGenerics”
以下对象从'package:stats'中屏蔽:## ## IQR, mad, sd, var, xtabs
##以下对象从'package:base'中屏蔽:## ## Filter, Find, Map, Position, Reduce, anyduplication, append, ## as.data.frame, basename, cbind, colnames, dirname, do。调用,## duplicate eval evalq get grep grepl, intersect, is。Unsorted, ## lapply, mapply, match, mget, order, paste, pmax, pmax.int, pmin, ## pmin.int, rank, rbind, rownames, sapply, setdiff, sort, table, ## tapply, union, unique, unsplit,其中。马克斯,which.min
##加载所需的包:S4Vectors
## ##附加包:“S4Vectors”
以下对象从'package:base'中屏蔽:## ## I,展开。网格,unname
##加载所需的包:IRanges
##加载所需包:GenomeInfoDb
##加载所需的包:ggplot2
##已注册S3方法被“GGally”覆盖:##方法从## +。gg ggplot2
##需要关于ggbio的具体帮助吗?试着给维护人员发邮件或者访问https://lawremi.github.io/ggbio/
## ##附加包:'ggbio'
以下对象将从'package:ggplot2'中屏蔽:## ## geom_bar, geom_rect, geom_segment, ggsave, stat_bin, stat_identity, ## xlim

2数据集

癌症基因组图谱(TCGA)1是否有一个研究团队致力于分析多种肿瘤类型,包括基因表达、甲基化、拷贝数变化和体细胞突变2.通过somaticcancerchanges包,我们为所有公开可用的TCGA研究提供了体细胞突变的调用集。随着时间的推移,更多的研究将被添加,因为它们变得可用并且在使用上不受限制。

首先,我们获得所有可用数据集的列表,并访问与每项研究相关的元数据。

all_datasetsscaListDatasets()打印(all_datasets)
# #[1]“gbm_tcga”“hnsc_tcga”“kirc_tcga”“luad_tcga”“lusc_tcga”“ov_tcga”# #[7]“skcm_tcga”“thca_tcga”
meta_datascaMetadata()打印(meta_data)
37 WXS Phase_I ## luad_tcga LUAD broad.mit.edu 37 WXS Phase_I ## luad_tcga LUAD broad.mit.edu 37 WXS Phase_I ## skcm_tcga SKCM broad.mit.edu 37 Capture Phase_I ## thca_tcga THCA broad.mit.edu 37 WXS Phase_I ## skcm_tcga THCA broad.mit.edu 37 WXS Phase_I ## thca_tcga THCA broad.mit.edu 37 WXS Phase_I ##测序器数量_样本数量_患者##gbm_tcga Illumina GAIIx 291 2919 319 ## luad_tcga Illumina GAIIx 297 293 ## luad_tcga Illumina GAIIx 538 519 ## luad_tcga Illumina GAIIx 178 178 ## ov_tcga Illumina GAIIx 142 142 ## skcm_tcga Illumina GAIIx 266 264 ## thca_tcga Illumina GAIIx 406 403 #癌症多形式胶质母细胞瘤头颈部鳞状细胞癌## kirc_tcga肾嗜色症## luad_tcga肺腺癌## lusc_tcga肺鳞状细胞癌## #卵巢浆液性囊腺癌皮肤黑色素瘤甲状腺癌

接下来,我们用scaLoadDataset函数加载一个数据集。

机汇scaLoadDatasets“ov_tcga”合并真正的

3.探索突变数据

每项研究的体细胞变异被表示为一个对象,按基因组位置排序。附加列描述变异的特性,并将其与受影响的基因、样本和患者联系起来。

(机汇,3.
GRanges对象,包含3个范围和14个元数据列:# # seqnames范围链| Hugo_Symbol Entrez_Gene_Id # # < Rle > < IRanges > < Rle > | <因素> <整数> # # ov_tcga 1 1334552 * | CCNL2 81669 # # ov_tcga 1 1961652 * | GABRD 2563 # # ov_tcga 1 2420688 * | PLCH2 9651 # # Variant_Classification Variant_Type Reference_Allele # # <因素> <因素> <因素> # # ov_tcga沉默SNP C # # ov_tcga沉默SNP C # # ov_tcga Missense_Mutation SNP C # # Tumor_Seq_Allele1 Tumor_Seq_Allele2 Verification_Status # # <因素> <因素> <因素> T未知的# # # # ov_tcga Cov_tcga C T未知# # ov_tcga C G未知# # Validation_Status Mutation_Status Patient_ID # # <因素> <因素> <因素> # # ov_tcga有效tcga体细胞- 24 - 2262 # # ov_tcga有效tcga体细胞- 24 - 1552 # # ov_tcga有效tcga体细胞- 13 - 1484 # # Sample_ID指数数据集# # <因素> <整数> <因素> # # ov_tcga tcga - 24 - 2262 - 01 - 3901 - 01 - w - 0799 - 08 ov_tcga # # ov_tcga tcga - 24 - 1552 - 01 - 3414 - 01 - w - 0551 - 08 ov_tcga # # ov_tcga tcga - 13 - 1484 - 01 - 1567 - 01 - w - 0545 - 08 ov_tcga  ## ------- ## seqinfo:来自未知基因组的86个序列
mcols(ov),表格(Variant_Classification Variant_Type))
# # # # Variant_Type Variant_Classification DEL INS SNP # # 3 'utr 0 0 3 # # 5 'flank 0 0 1 # # 5 'utr 0 0 1 # # Frame_Shift_Del 79 0 0 # # Frame_Shift_Ins 0 16 0 # # IGR 0 0 5 # # In_Frame_Del 26 0 0 # # In_Frame_Ins 0 1 0 # #基因内区0 0 34 # # Missense_Mutation 0 0 4299 # # Nonsense_Mutation 0 0 285 # # Nonstop_Mutation 0 0 6 # # RNA 0 0 1 0 0 1417 # # # #沉默Splice_Site 9 2 121 # # Translation_Start_Site 1 0 1

有了这些数据,我们就可以识别出突变最多的样本和基因。

排序表格(机汇Sample_ID),减少真正的))
## ## tcga -09-2049- 01d - 01w - 0499 -08 tcga-09-2050-01a-01w-0799-08 tcga-25-1326-01a-01w-0492-08 ## 111 102
排序表格(机汇Hugo_Symbol),减少真正的),10
## ## tp53 TTN pcdhac2 muc16 muc17 pcdhgc5 ush2a csmd3 cd163l1 dync1h1 ## 118 30 14 12 9 9 9 8 7 7

4探索多元研究

我们也可以一次导入几个,而不是专注于一个单独的研究。结果存储为GRangesList,其中每个元素对应一个研究。这可以合并成一个GRanges对象merge = TRUE

three_studiesscaLoadDatasets(all_datasets [13.])打印elementNROWS(three_studies))
# gbm_tcga hnsc_tcga kirc_tcga ## 22166 73766 26265
(three_studies)
## [1] "SimpleGRangesList" ## attr(,"package") ## [1] "GenomicRanges"
merged_studiesscaLoadDatasets(all_datasets [13.),合并真正的(merged_studies)
# #[1]“农庄”# # attr(“包”)# #[1]“GenomicRanges”

然后我们计算每个基因的突变数量,并研究:

gene_study_countmcols(merged_studies),表格(Hugo_Symbol数据集)gene_study_countgene_study_count [订单应用(gene_study_count1,金额),减少真正的),)gene_study_countaddmargins(gene_study_count)(gene_study_count)
##数据集## Hugo_Symbol gbm_tcga hnsc_tcga kirc_tcga Sum ##未知29 899 630 1558 ## TTN 121 401 125 647 ## TP53 101 323 8 432 ## MUC16 68 155 46 269 ## ADAM6 0 173 63 236 ## MUC4 17 32 130 179

此外,我们可以根据感兴趣的区域对数据进行子集,并仅对该子集计算描述性统计信息。

tp53_region农庄“17”IRanges75717207590863))tp53_studiessubsetByOverlaps(merged_studies tp53_region)

例如,在整个研究过程中,我们可以调查在TP53中可以发现哪种类型的体细胞变异。

addmargins表格(tp53_studiesVariant_Classification, tp53_studies数据集)
# # # # gbm_tcga hnsc_tcga kirc_tcga和# # 47 # # Frame_Shift_Ins Frame_Shift_Del 6 41 0 1 0 11 12 # # In_Frame_Del 2 7 0 9 # # In_Frame_Ins 0 2 0 81 183 6 270 # # # # Missense_Mutation Nonsense_Mutation 4 54 0 58 # # Nonstop_Mutation 6 0 0 0 0 # #沉默1 1 8 # # Splice_Site 6 19 26 # # Translation_Start_Site RNA 0 0 0 0 0 0 0 # # 0 # #和101 323 8 432

进一步来说,每种癌症类型中有多少患者有TP53突变?

fraction_mutated_region函数y地区) {年代subsetByOverlaps(y,区域)长度独特的(年代Patient_ID))/元数据(年代)Number_Patients返回(m)mutated_fraction酸式焦磷酸钠(three_studies, fraction_mutated_region, tp53_region)mutated_fractiondata.frame的名字的名字(three_studies),分数mutated_fraction)
图书馆(ggplot2)pggplot(mutated_fraction)+ggplot2::geom_baraesx=名字,y=分数,填满=名称),统计“身份”+ylim01+xlab“研究”+ylab“比”+theme_bw()打印(p)
块plot_mutated_genes的图

5数据来源

5.1TCGA数据

当从TCGA服务器导入突变数据时,我们检查数据的一致性,并修复注释中常见的歧义。

5.1.1处理

  1. 每项研究都需要选择最近的体细胞变异。它们被存储为* .mafTCGA数据目录下的文件3..如果手动管理和自动生成的变量调用都可用,则选择管理版本。
  2. 导入* .maf并检查与TCGA MAF规范的一致性4.请注意,这些指南目前只是建议,大多数TCGA文件违反了其中的一些建议。
  3. 将导入的变量转换为GRanges对象,每个报告的变量对应一行。只有与体细胞变异的基因组起源相关的列被存储,其他描述更高水平影响的列,如突变后果和蛋白质水平的改变,被删除。定义染色体范围的序列水平信息取自1000个基因组阶段2参考装配5
  4. 从样本条码中提取患者条码。
  5. 提取了描述研究设计和分析的元数据。
  6. 处理后的变体被写入磁盘,每个研究有一个文件。所有研究的元数据都存储为一个单独的对象。

5.1.2数据集的选择标准

我们在软件包中包含了数据集

  • 由布罗德研究所进行。
  • 允许无限制的访问和使用6
  • 用Illumina平台测序。

5.1.3.一致性检验

根据TCGA的规范文件中,我们筛选并纠正了数据中关于注释的常见工件。这包括:

  • 将所有基因组坐标转移到NCBI 37参考符号(染色体总是描述为“MT”)
  • 根据该字段的所有允许值检查条目(当前为列Hugo_Symbol染色体Variant_ClassificationVariant_TypeReference_AlleleTumor_Seq_Allele1Tumor_Seq_Allele2Verification_StatusValidation_Status定序器).

6选择

TCGA数据集可以通过不同的方式访问。首先,TCGA本身提供了对其收集的某些类型数据的访问7.癌症基因组学cBioPortal已经采取了另一种方法8它对几个TCGA数据源进行了高级分析,比如基因表达和拷贝数变化。可以通过接口查询汇总的数据9

7会话信息

## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基## ##其他附加包:## [1]ggbio_1.44.0 ggplot2_3.3.5 ## [3] genome icranges_1 .48.0 GenomeInfoDb_1.32.0 ## [5] IRanges_2.30.0 S4Vectors_0.34.0 ## [7] BiocGenerics_0.42.0 SomaticCancerAlterations_1.32.0 ## ##通过命名空间加载(且未附加):# # # # [1] colorspace_2.0-3 rjson_0.2.21 [3] ellipsis_0.3.2 biovizBase_1.44.0 # # [5] htmlTable_2.4.0 XVector_0.36.0 # # [7] base64enc_0.1-3 dichromat_2.0-0 # # [9] rstudioapi_0.13 farver_2.1.0 # # [11] bit64_4.0.5 AnnotationDbi_1.58.0 # # [13] fansi_1.0.3 xml2_1.3.3 # # [15] splines_4.2.0 cachem_1.0.6 # # [17] knitr_1.39 Formula_1.2-4 # # [19] Rsamtools_2.12.0 cluster_2.1.3 # # [21] dbplyr_2.1.1 png_0.1-7 # # [23] graph_1.74.0 BiocManager_1.30.17 # # [25] compiler_4.2.0 httr_1.4.2 # # [27] backports_1.4.1assertthat_0.2.1 # # [29] Matrix_1.4-1 fastmap_1.1.0 # # [31] lazyeval_0.2.2 cli_3.3.0 # # [33] htmltools_0.5.2 prettyunits_1.1.1 # # [35] tools_4.2.0 gtable_0.3.0 # # [37] glue_1.6.2 GenomeInfoDbData_1.2.8 # # [39] reshape2_1.4.4 dplyr_1.0.8 # # [41] rappdirs_0.3.3 Rcpp_1.0.8.3 # # [43] Biobase_2.56.0 vctrs_0.4.1 # # [45] Biostrings_2.64.0 rtracklayer_1.56.0 # # [47] xfun_0.30 stringr_1.4.0 # # [49] lifecycle_1.0.1 restfulr_0.0.13 # # [51] ensembldb_2.20.0 xml_3.99 - 0.9 # # [53] zlibbioc_1.42.0 scales_1.2.0# # # # [55] BSgenome_1.64.0 VariantAnnotation_1.42.0 [57] hms_1.1.1 MatrixGenerics_1.8.0 # # [59] ProtGenerics_1.28.0 RBGL_1.72.0 # # [61] parallel_4.2.0 SummarizedExperiment_1.26.0 # # [63] AnnotationFilter_1.20.0 RColorBrewer_1.1-3 # # [65] yaml_2.3.5 curl_4.3.2 # # [67] memoise_2.0.1 gridExtra_2.3 # # [69] biomaRt_2.52.0 rpart_4.1.16 # # [71] reshape_0.8.9 latticeExtra_0.6-29 # # [73] stringi_1.7.6 RSQLite_2.2.12 # # [75] highr_0.9 BiocIO_1.6.0 # # [77] checkmate_2.1.0 GenomicFeatures_1.48.0 # # [79]filelock_1.0.2 BiocParallel_1.30.0 # # [81] rlang_1.0.2 pkgconfig_2.0.3 # # [83] matrixStats_0.62.0 bitops_1.0-7 # # [85] evaluate_0.15 lattice_0.20-45 # # [87] purrr_0.3.4 labeling_0.4.2 # # [89] GenomicAlignments_1.32.0 htmlwidgets_1.5.4 # # [91] bit_4.0.4 tidyselect_1.1.2 # # [93] GGally_2.1.2 plyr_1.8.7 # # [95] magrittr_2.0.3 R6_2.5.1 # # [97] generics_0.1.2 Hmisc_4.7-0 # # [99] DelayedArray_0.22.0 DBI_1.1.2 # # [101] pillar_1.7.0 foreign_0.8 - 82 # # [103] withr_2.5.0 survival_3.3-1 # # [105]KEGGREST_1.36.0 RCurl_1.98-1.6 ## [107] nnet_7.3-17 tibble_1 .1.6 ## [109] crayon_1.5.1 utf8_1.2.2 ## [111] OrganismDbi_1.38.0 BiocFileCache_2.4.0 ## [113] jpeg_0.1-9 progress_1.2.2 ## [115] grid_4.2.0 data.table_1.14.2 ## [117] blob_1.2.3 digest_0.6.29 ## [119] munsell_0.5.0

脚注:

作者:Julian Gehring,海德堡EMBL

创建日期:2013-10-20太阳18:22

Emacs24.1.1 (Org模式8.2.1)

验证