内容

库(BiocStyle)

1简介

YAPSA在全基因组测序(WGS)数据中的使用在前面的小章节中有详细的描述,在概述中有一个介绍和总体框架1.YAPSA的使用.YAPSA也可以应用于全外显子组测序(WES)数据,然而,有一些注意事项和一些步骤必须遵循。这些都在这个小插图中描述。

WGS和WES分析之间最重要的区别是不同k-mers的出现频率。根据文中详细介绍的概念(Alexandrov et al. 2013)而且(Alexandrov et al. 2020), SNV突变特征使用SNV的三元组(或3-mer)上下文对突变进行分类,导致96个不同的类别或特征。这96种不同的特征在人类基因组中出现的频率不同。它们在外显子组中的发生频率也不相同,但更重要的是,WGS和WES之间的相对发生不同。更准确地说,让\ (n_ {X} ^ {WGS} \)表示特征的出现\ \ (X)在整个基因组中\ (n_ {X} ^{韦斯}\)表示的发生\ \ (X)在外显子组目标捕获中。然后我们进一步表示

  1. \ [q_ {X} ^ {WGS,韦斯}= \压裂{n_ {X} ^ {WGS}} {n_ {X} ^{韦斯}}\]

等于这两项的比值。即使在所有功能的平均水平上,这些比率可能在值左右变化\ (50 \),因为基因组大致\ (50 \)比外显子组大几倍的比值不一定对所有特征都相同,也就是说,

  1. \ [X, Y \中\ \存在mathbb {F}: q_ {X} ^ {WGS,韦斯}\ neq q_ {Y} ^ {WGS,韦斯}\]

在哪里F \ (\ mathbb {} \)表示特征空间。因此,计算是至关重要的\ (q_ {X} ^ {WGS,韦斯}\)对于所有功能F \ (X \ \ mathbb {} \)为了纠正这些差异。这些修正既可以应用于签名,将它们转换为“外显子组签名”,也可以应用于突变编目的反向修正。在YAPSA中,我们选择了第二种选择,因为这使函数调用保持简单、相似和非常相似,用于WES和WGS数据的分析。

不同的目标捕获套件可用于执行WES。由于这些覆盖了不同的基因组区域,对于给定的目标捕获试剂盒\ \ (),不同校正因子\ (q_ {X} ^ {WGS, WES_A} \)所有的特征都要计算出来。详细下面, YAPSA提供了8个不同的目标捕获试剂盒的校正因子,还提供了一个直接源自于人类参考基因组hs37d5的基因模型GENCODE 19的校正因子。

2加载数据

首先,与所有其他小片段类似,我们从包中加载签名数据:

data(sigs) data(cutoffs) current_sig_df <- alexinitialarti_sig_df库(BSgenome.Hsapiens.UCSC.hg19)

为了分析外显子,小细胞肺癌的突变目录存储在YAPSA中。这些数据最初是由(Rudin et al. 2012)并用于跨实体分析(Alexandrov et al. 2013).数据访问方式如下:

数据(“smallCellLungCancerMutCat_NatureGenetics2012”)

这将创建一个带有名称的数据帧exome_mutCatRaw_df96行。它最初是通过执行下面的R代码生成的(在这个小插图中没有计算):

smallCellLungCancer_NatureGenetics2012_ftp_path <- paste0("ftp://ftp.sanger.ac。uk/pub/cancer/AlexandrovEtAl/", "somatic_mutation_data/Lung Small Cell/", "Lung Small Cell_clean_somatic_mutations_for_signature_analysis.txt") exome_vcf_like_df <- read.csv(file = smallCellLungCancer_NatureGenetics2012_ftp_path, header=FALSE,sep="\t") names(exome_vcf_like_df) <- c("PID","TYPE","CHROM","START", "STOP","REF","ALT","FLAG") exome_vcf_like_df <-子集(exome_vcf_like_df, TYPE == "subs", select = c(CHROM, START, REF, ALT, txt)PID)) names(exome_vcf_like_df)[2] <- "POS" exome_vcf_like_df <- translate_to_hg19(exome_vcf_like_df,"CHROM") word_length <- 3 exome_mutCatRaw_list <- create_mutation_cataloge_from_df (exome_vcf_like_df, this_seqnames. PID)字段= "CHROM", this_start。字段= "POS", this_end。字段= "POS", this_PID。字段= "PID", this_subgroup。field = "SUBGROUP", this_refGenome = BSgenome.Hsapiens.UCSC. field = "SUBGROUP";hg19, this_wordLength = 3) <- as.data.frame(exome_mutCatRaw_list$matrix)

3.正在修正目标捕获

我们现在手头有一个WES数据的突变目录示例。为了对WGS和WES之间不同的三元组内容进行校正,YAPSA提供了校正因子,可将其带入R工作区如下:

数据(targetCapture_cor_factors)

正如《介绍,不同的目标捕获套件需要不同的校正因子。可用的校正因子集可以通过加载对象的名称访问:

名(targetCapture_cor_factors)
##[1]“agilent4withuts”“agilent4without tutrs”##[3]“agilent5withuts”“agilent5without tutrs”##[5]“SomSig”“hs37d5”##[7]“IlluminaNexteraExome”“agilent6without tutrs”##[9]“Agilent6withUTRs”“agilent7without tutrs”##[11]“AgilentSureSelectAllExon”

我们现在有了所有需要纠正三元组内容的东西。所述以上的连结,以查阅有关资料(Alexandrov et al. 2013)然而,这些数据最初是为另一份出版物生成的:(Rudin et al. 2012).如上面所述,目标捕获套件安捷伦SureSelect所有外显子我们将使用为这个工具箱计算的校正因子。调用YAPSA中用于此类校正的函数normalizeMotifs_otherRownames ()

targetCapture <- "AgilentSureSelectAllExon" cor_list <- targetCapture_cor_factors[[targetCapture]] corrected_catalog_df <- normalizeMotifs_otherRownames(exome_mutCatRaw_df, cor_list$rel_cor)

值得注意的是,修正后的突变编目不再需要只包含整数,它可能包含浮点数,因为的值\ (q_ {X} ^ {WGS,韦斯}\)

4执行突变特征分析

在用因子进行了修正之后\ (q_ {X} ^ {WGS,韦斯}\),突变特征的分析完全类似于已经在其他小章节中多次描述的步骤。然而,针对特定签名的最佳截止点的选择略有不同:

data(cutoffs) current_cutoff_vector <- cutoffCosmicValid_rel_df[6,]
exome_listsList <- LCD_complex_cutoff_combined(in_mutation_cataloge_df = corrected_catalog_df, in_cutoff_vector = current_cutoff_vector, in_signatures_df = AlexCosmicValid_sigInd_df, in_sig_ind_df = AlexCosmicValid_sigInd_df)

因为在这个例子中我们没有关于子组的任何信息,所以我们省略了这一点,直接继续绘制结果:

(in_exposures_df = exome_listsList$cohort$exposure, in_signatures_ind_df = exome_listsList$cohort$out_sig_ind_df)
曝光barplot。

图1:曝光barplot

值得注意的是,这一人群受到AC4特征的强烈影响(与烟草烟雾中的主要致癌物有关)。

参考文献

Alexandrov, LB, J Kim, NJ Haradhvala, MN Huang, AW Ng, A Boot, KR Covington,等。2020。"人类癌症突变特征的集合"自然.大自然。

Alexandrov, LB, S Nik-Zainal, DC Wedge, SA Aparicio, S Behjati, AV Biankin, GR Bignell,等。2013。"癌症突变过程的特征"自然.自然出版集团。

Rudin, Charles M., Steffen Durinck, Eric W. Stawiski, John T. Poirier, Zora Modrusan, David S. Shames, Emily A. Bergbower等,2012。“综合基因组分析确定SOX2是小细胞肺癌中频繁扩增的基因。”自然遗传学.自然出版集团。