SomaticCancerAlterations

1动机

在过去的几年里，大量的努力已经被用来描述癌症的体细胞景观。许多已进行的研究将其结果公开，为个别队列水平以外的调查提供了有价值的资源。somaticcancerchanges包收集几种肿瘤类型的突变数据，目前主要集中在TCGA调用集，并旨在与和工作流紧密集成。在下面的文章中，我们将说明如何访问这些数据，并给出用例示例。

##加载所需的包:stats4

##加载所需的包:BiocGenerics

## ##附加包:“BiocGenerics”

以下对象从'package:stats'中屏蔽:## ## IQR, mad, sd, var, xtabs

##以下对象从'package:base'中屏蔽:## ## Filter, Find, Map, Position, Reduce, anyduplication, append， ## as.data.frame, basename, cbind, colnames, dirname, do。调用，## duplicate eval evalq get grep grepl, intersect, is。Unsorted， ## lapply, mapply, match, mget, order, paste, pmax, pmax.int, pmin， ## pmin.int, rank, rbind, rownames, sapply, setdiff, sort, table， ## tapply, union, unique, unsplit，其中。马克斯,which.min

##加载所需的包:S4Vectors

## ##附加包:“S4Vectors”

以下对象从'package:base'中屏蔽:## ## I，展开。网格,unname

##加载所需的包:IRanges

##加载所需包:GenomeInfoDb

##加载所需的包:ggplot2

##已注册S3方法被“GGally”覆盖:##方法从## +。gg ggplot2

##需要关于ggbio的具体帮助吗?试着给维护人员发邮件或者访问https://lawremi.github.io/ggbio/

## ##附加包:'ggbio'

以下对象将从'package:ggplot2'中屏蔽:## ## geom_bar, geom_rect, geom_segment, ggsave, stat_bin, stat_identity， ## xlim

2数据集

癌症基因组图谱(TCGA)¹是否有一个研究团队致力于分析多种肿瘤类型，包括基因表达、甲基化、拷贝数变化和体细胞突变²．通过somaticcancerchanges包，我们为所有公开可用的TCGA研究提供了体细胞突变的调用集。随着时间的推移，更多的研究将被添加，因为它们变得可用并且在使用上不受限制。

首先，我们获得所有可用数据集的列表，并访问与每项研究相关的元数据。

all_datasets＝scaListDatasets（）打印(all_datasets)

# #[1]“gbm_tcga”“hnsc_tcga”“kirc_tcga”“luad_tcga”“lusc_tcga”“ov_tcga”# #[7]“skcm_tcga”“thca_tcga”

meta_data＝scaMetadata（）打印(meta_data)

37 WXS Phase_I ## luad_tcga LUAD broad.mit.edu 37 WXS Phase_I ## luad_tcga LUAD broad.mit.edu 37 WXS Phase_I ## skcm_tcga SKCM broad.mit.edu 37 Capture Phase_I ## thca_tcga THCA broad.mit.edu 37 WXS Phase_I ## skcm_tcga THCA broad.mit.edu 37 WXS Phase_I ## thca_tcga THCA broad.mit.edu 37 WXS Phase_I ##测序器数量_样本数量_患者##gbm_tcga Illumina GAIIx 291 2919 319 ## luad_tcga Illumina GAIIx 297 293 ## luad_tcga Illumina GAIIx 538 519 ## luad_tcga Illumina GAIIx 178 178 ## ov_tcga Illumina GAIIx 142 142 ## skcm_tcga Illumina GAIIx 266 264 ## thca_tcga Illumina GAIIx 406 403 #癌症多形式胶质母细胞瘤头颈部鳞状细胞癌## kirc_tcga肾嗜色症## luad_tcga肺腺癌## lusc_tcga肺鳞状细胞癌## #卵巢浆液性囊腺癌皮肤黑色素瘤甲状腺癌

接下来，我们用scaLoadDataset函数加载一个数据集。

机汇＝scaLoadDatasets（“ov_tcga”，合并＝真正的）

3.探索突变数据

每项研究的体细胞变异被表示为一个对象，按基因组位置排序。附加列描述变异的特性，并将其与受影响的基因、样本和患者联系起来。

头(机汇,3.）

GRanges对象，包含3个范围和14个元数据列:# # seqnames范围链| Hugo_Symbol Entrez_Gene_Id # # < Rle > < IRanges > < Rle > | <因素> <整数> # # ov_tcga 1 1334552 * | CCNL2 81669 # # ov_tcga 1 1961652 * | GABRD 2563 # # ov_tcga 1 2420688 * | PLCH2 9651 # # Variant_Classification Variant_Type Reference_Allele # # <因素> <因素> <因素> # # ov_tcga沉默SNP C # # ov_tcga沉默SNP C # # ov_tcga Missense_Mutation SNP C # # Tumor_Seq_Allele1 Tumor_Seq_Allele2 Verification_Status # # <因素> <因素> <因素> T未知的# # # # ov_tcga Cov_tcga C T未知# # ov_tcga C G未知# # Validation_Status Mutation_Status Patient_ID # # <因素> <因素> <因素> # # ov_tcga有效tcga体细胞- 24 - 2262 # # ov_tcga有效tcga体细胞- 24 - 1552 # # ov_tcga有效tcga体细胞- 13 - 1484 # # Sample_ID指数数据集# # <因素> <整数> <因素> # # ov_tcga tcga - 24 - 2262 - 01 - 3901 - 01 - w - 0799 - 08 ov_tcga # # ov_tcga tcga - 24 - 1552 - 01 - 3414 - 01 - w - 0551 - 08 ov_tcga # # ov_tcga tcga - 13 - 1484 - 01 - 1567 - 01 - w - 0545 - 08 ov_tcga  ## ------- ## seqinfo:来自未知基因组的86个序列

与（mcols(ov),表格(Variant_Classification Variant_Type))

# # # # Variant_Type Variant_Classification DEL INS SNP # # 3 'utr 0 0 3 # # 5 'flank 0 0 1 # # 5 'utr 0 0 1 # # Frame_Shift_Del 79 0 0 # # Frame_Shift_Ins 0 16 0 # # IGR 0 0 5 # # In_Frame_Del 26 0 0 # # In_Frame_Ins 0 1 0 # #基因内区0 0 34 # # Missense_Mutation 0 0 4299 # # Nonsense_Mutation 0 0 285 # # Nonstop_Mutation 0 0 6 # # RNA 0 0 1 0 0 1417 # # # #沉默Splice_Site 9 2 121 # # Translation_Start_Site 1 0 1

有了这些数据，我们就可以识别出突变最多的样本和基因。

头（排序（表格(机汇＄Sample_ID),减少＝真正的）)

## ## tcga -09-2049- 01d - 01w - 0499 -08 tcga-09-2050-01a-01w-0799-08 tcga-25-1326-01a-01w-0492-08 ## 111 102

头（排序（表格(机汇＄Hugo_Symbol),减少＝真正的)，10）

## ## tp53 TTN pcdhac2 muc16 muc17 pcdhgc5 ush2a csmd3 cd163l1 dync1h1 ## 118 30 14 12 9 9 9 8 7 7

4探索多元研究

我们也可以一次导入几个，而不是专注于一个单独的研究。结果存储为GRangesList，其中每个元素对应一个研究。这可以合并成一个GRanges对象merge = TRUE．

three_studies＝scaLoadDatasets(all_datasets [1：3.])打印（elementNROWS(three_studies))

# gbm_tcga hnsc_tcga kirc_tcga ## 22166 73766 26265

类(three_studies)

## [1] "SimpleGRangesList" ## attr(，"package") ## [1] "GenomicRanges"

merged_studies＝scaLoadDatasets(all_datasets [1：3.),合并＝真正的）类(merged_studies)

# #[1]“农庄”# # attr(“包”)# #[1]“GenomicRanges”

然后我们计算每个基因的突变数量，并研究:

gene_study_count＝与（mcols(merged_studies),表格(Hugo_Symbol数据集)gene_study_count＝gene_study_count [订单（应用(gene_study_count1,金额),减少＝真正的),)gene_study_count＝addmargins(gene_study_count)头(gene_study_count)

##数据集## Hugo_Symbol gbm_tcga hnsc_tcga kirc_tcga Sum ##未知29 899 630 1558 ## TTN 121 401 125 647 ## TP53 101 323 8 432 ## MUC16 68 155 46 269 ## ADAM6 0 173 63 236 ## MUC4 17 32 130 179

此外，我们可以根据感兴趣的区域对数据进行子集，并仅对该子集计算描述性统计信息。

tp53_region＝农庄（“17”，IRanges（7571720，7590863）)tp53_studies＝subsetByOverlaps(merged_studies tp53_region)

例如，在整个研究过程中，我们可以调查在TP53中可以发现哪种类型的体细胞变异。

addmargins（表格(tp53_studies＄Variant_Classification, tp53_studies＄数据集)

# # # # gbm_tcga hnsc_tcga kirc_tcga和# # 47 # # Frame_Shift_Ins Frame_Shift_Del 6 41 0 1 0 11 12 # # In_Frame_Del 2 7 0 9 # # In_Frame_Ins 0 2 0 81 183 6 270 # # # # Missense_Mutation Nonsense_Mutation 4 54 0 58 # # Nonstop_Mutation 6 0 0 0 0 # #沉默1 1 8 # # Splice_Site 6 19 26 # # Translation_Start_Site RNA 0 0 0 0 0 0 0 # # 0 # #和101 323 8 432

进一步来说，每种癌症类型中有多少患者有TP53突变?

fraction_mutated_region＝函数（y，地区) {年代＝subsetByOverlaps(y,区域)米＝长度（独特的(年代＄Patient_ID))/元数据(年代)＄Number_Patients返回(m)｝mutated_fraction＝酸式焦磷酸钠(three_studies, fraction_mutated_region, tp53_region)mutated_fraction＝data.frame（的名字＝的名字(three_studies),分数＝mutated_fraction)

图书馆(ggplot2)p＝ggplot(mutated_fraction)+ggplot2：：geom_bar（aes（x=名字,y=分数,填满=名称),统计＝“身份”）+ylim（0，1）+xlab（“研究”）+ylab（“比”）+theme_bw（）打印(p)

5数据来源

5.1TCGA数据

当从TCGA服务器导入突变数据时，我们检查数据的一致性，并修复注释中常见的歧义。

5.1.1处理

每项研究都需要选择最近的体细胞变异。它们被存储为* .mafTCGA数据目录下的文件^3.．如果手动管理和自动生成的变量调用都可用，则选择管理版本。
导入* .maf并检查与TCGA MAF规范的一致性⁴．请注意，这些指南目前只是建议，大多数TCGA文件违反了其中的一些建议。
将导入的变量转换为GRanges对象，每个报告的变量对应一行。只有与体细胞变异的基因组起源相关的列被存储，其他描述更高水平影响的列，如突变后果和蛋白质水平的改变，被删除。定义染色体范围的序列水平信息取自1000个基因组阶段2参考装配⁵．
从样本条码中提取患者条码。
提取了描述研究设计和分析的元数据。
处理后的变体被写入磁盘，每个研究有一个文件。所有研究的元数据都存储为一个单独的对象。

5.1.2数据集的选择标准

我们在软件包中包含了数据集

由布罗德研究所进行。
允许无限制的访问和使用⁶．
用Illumina平台测序。

5.1.3.一致性检验

根据TCGA的规范加文件中，我们筛选并纠正了数据中关于注释的常见工件。这包括:

将所有基因组坐标转移到NCBI 37参考符号(染色体总是描述为“MT”)
根据该字段的所有允许值检查条目(当前为列Hugo_Symbol，染色体，链，Variant_Classification，Variant_Type，Reference_Allele，Tumor_Seq_Allele1，Tumor_Seq_Allele2，Verification_Status，Validation_Status，定序器）.

6选择

TCGA数据集可以通过不同的方式访问。首先，TCGA本身提供了对其收集的某些类型数据的访问⁷．癌症基因组学cBioPortal已经采取了另一种方法⁸它对几个TCGA数据源进行了高级分析，比如基因表达和拷贝数变化。可以通过接口查询汇总的数据⁹．

7会话信息

## R版本4.2.0 RC (2022-04-19 r82224) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基## ##其他附加包:## [1]ggbio_1.44.0 ggplot2_3.3.5 ## [3] genome icranges_1 .48.0 GenomeInfoDb_1.32.0 ## [5] IRanges_2.30.0 S4Vectors_0.34.0 ## [7] BiocGenerics_0.42.0 SomaticCancerAlterations_1.32.0 ## ##通过命名空间加载(且未附加):# # # # [1] colorspace_2.0-3 rjson_0.2.21 [3] ellipsis_0.3.2 biovizBase_1.44.0 # # [5] htmlTable_2.4.0 XVector_0.36.0 # # [7] base64enc_0.1-3 dichromat_2.0-0 # # [9] rstudioapi_0.13 farver_2.1.0 # # [11] bit64_4.0.5 AnnotationDbi_1.58.0 # # [13] fansi_1.0.3 xml2_1.3.3 # # [15] splines_4.2.0 cachem_1.0.6 # # [17] knitr_1.39 Formula_1.2-4 # # [19] Rsamtools_2.12.0 cluster_2.1.3 # # [21] dbplyr_2.1.1 png_0.1-7 # # [23] graph_1.74.0 BiocManager_1.30.17 # # [25] compiler_4.2.0 httr_1.4.2 # # [27] backports_1.4.1assertthat_0.2.1 # # [29] Matrix_1.4-1 fastmap_1.1.0 # # [31] lazyeval_0.2.2 cli_3.3.0 # # [33] htmltools_0.5.2 prettyunits_1.1.1 # # [35] tools_4.2.0 gtable_0.3.0 # # [37] glue_1.6.2 GenomeInfoDbData_1.2.8 # # [39] reshape2_1.4.4 dplyr_1.0.8 # # [41] rappdirs_0.3.3 Rcpp_1.0.8.3 # # [43] Biobase_2.56.0 vctrs_0.4.1 # # [45] Biostrings_2.64.0 rtracklayer_1.56.0 # # [47] xfun_0.30 stringr_1.4.0 # # [49] lifecycle_1.0.1 restfulr_0.0.13 # # [51] ensembldb_2.20.0 xml_3.99 - 0.9 # # [53] zlibbioc_1.42.0 scales_1.2.0# # # # [55] BSgenome_1.64.0 VariantAnnotation_1.42.0 [57] hms_1.1.1 MatrixGenerics_1.8.0 # # [59] ProtGenerics_1.28.0 RBGL_1.72.0 # # [61] parallel_4.2.0 SummarizedExperiment_1.26.0 # # [63] AnnotationFilter_1.20.0 RColorBrewer_1.1-3 # # [65] yaml_2.3.5 curl_4.3.2 # # [67] memoise_2.0.1 gridExtra_2.3 # # [69] biomaRt_2.52.0 rpart_4.1.16 # # [71] reshape_0.8.9 latticeExtra_0.6-29 # # [73] stringi_1.7.6 RSQLite_2.2.12 # # [75] highr_0.9 BiocIO_1.6.0 # # [77] checkmate_2.1.0 GenomicFeatures_1.48.0 # # [79]filelock_1.0.2 BiocParallel_1.30.0 # # [81] rlang_1.0.2 pkgconfig_2.0.3 # # [83] matrixStats_0.62.0 bitops_1.0-7 # # [85] evaluate_0.15 lattice_0.20-45 # # [87] purrr_0.3.4 labeling_0.4.2 # # [89] GenomicAlignments_1.32.0 htmlwidgets_1.5.4 # # [91] bit_4.0.4 tidyselect_1.1.2 # # [93] GGally_2.1.2 plyr_1.8.7 # # [95] magrittr_2.0.3 R6_2.5.1 # # [97] generics_0.1.2 Hmisc_4.7-0 # # [99] DelayedArray_0.22.0 DBI_1.1.2 # # [101] pillar_1.7.0 foreign_0.8 - 82 # # [103] withr_2.5.0 survival_3.3-1 # # [105]KEGGREST_1.36.0 RCurl_1.98-1.6 ## [107] nnet_7.3-17 tibble_1 .1.6 ## [109] crayon_1.5.1 utf8_1.2.2 ## [111] OrganismDbi_1.38.0 BiocFileCache_2.4.0 ## [113] jpeg_0.1-9 progress_1.2.2 ## [115] grid_4.2.0 data.table_1.14.2 ## [117] blob_1.2.3 digest_0.6.29 ## [119] munsell_0.5.0