内容

图书馆(Biocstyle)

1介绍

YAPSA用于整个基因组测序(WGS)数据已在前面的小插曲中进行了详细描述,并在引言中介绍了一般框架的概述1.使用YAPSA。YAPSA也可以应用于整个外显子组测序(WES)数据,但是,需要一些警告,并且必须遵循一些步骤。这些在此小插图中进行了描述。

WGS和WES分析之间最重要的区别是不同K-MER的发生频率。根据所详述的概念(Alexandrov等人,2013年)(Alexandrov等,2020),SNV突变签名使用SNV的三重态(或3-mer)上下文进行突变分类,从而导致96个不同的类别或特征。这些96个不同的特征在人类基因组中没有相同的频率发生。它们也不以相同的频率在外显子中发生,但更重要的是,WGS和WES之间的相对发生有所不同。更确切地说,让\(n_ {x}^{wgs} \)表示功能的发生\(X\)在整个基因组中\(n_ {x}^{wes} \)表示发生\(X\)在外显子目标捕获中。然后我们进一步表示

  1. \ [q_ {x}^{wgs,wes} = \ frac {n_ {x}}^{wgs}}} {n_ {x}}^{wes}}}} \]

是这两个计数的比率。即使在所有功能中平均而\(50 \),因为基因组大致\(50 \)比外显子大的时代,对于所有功能,比率并不一定是相同的,即

  1. \ [\存在x,y \ in \ mathbb {f}:q_ {x}^{wgs,wes} \ neq q_ {y} {y}^{wgs,wes},wes} \]

在哪里\(\ mathbb {f} \)表示功能空间。因此,计算是谨慎的\(q_ {x}^{wgs,wes} \)对于所有功能\(x \ in \ mathbb {f} \)并纠正这些差异。这些校正可以应用于签名,将其转换为“外部特征”,也可以将逆校正应用于突变目录。在YAPSA中,我们选择了第二个替代方案,因为这可以使函数调用简单,类似且非常相似,以分析WES和WGS数据。

可以使用不同的目标捕获套件来执行WES。由于这些涵盖了不同的基因组区域,对于给定的目标捕获套件\(一个\),不同的校正因子\(q_ {x}^{wgs,wes_a} \)因为必须计算所有功能。详细以下,YAPSA为8个不同的目标捕获试剂盒提供了校正因子,也为直接从应用于人类参考基因组HS37D5的基因模型Gencode 19得出的一个校正因子提供了一个校正因子。

2加载数据

首先,类似于所有其他小插曲,我们从包装中加载签名数据:

data(sigs)数据(截止)current_sig_df <-AlexinitialArtif_sig_df库(bsgenome.hsapiens.ucsc.hg19)

为了分析异构体,YAPSA中存储了小细胞肺癌的突变目录。数据最初是由(Rudin等,2012)并在跨实体分析中使用(Alexandrov等人,2013年)。数据可以如下访问:

数据(“ smallcelllungcancermutcat_naturegenetics2012”)

这将创建一个名称的数据框exome_mutcatraw_df和96行。它最初是通过执行下面的R代码(未在此插图中评估)生成的:

smallcelllungcancer_naturegenetics2012_ftp_path <-paste0(“ ftp://ftp.sanger.ac.uk/pub/pub/cancer/cancer/alexandrovetal/”,“ somatic_maint_data_data/lung cell/”file = smallcelllungcancer_naturegenetics2012_ftp_path,header = false,sep =“ \ t”)名称(exome_vcf_like_df)<-c(“ pid”,“ type”,“ type”,“ type”,“ chrom”,“ chrom”,“ start”,“ start”,“ start”,“ stop”,“ stop”,“ ref”,“ ref”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“,“ flag”)exome_vcf_like_df <-subset(exome_vcf_like_df,type ==“ subs”,select = c(chrom,start,ref,ref,alt,pid))名称(exome_vcf_vcf_like_df)[2](exome_vcf_like_df,“ chrom”)word_length <-3 exome_mutcatraw_list <-create_munt_muarn_muarn_catalogue_from_df(exome_vcf_like_df,this_seqnames.field =“this_subgroup.field =“ subgroup”,this_refgenome = bsgenome.hsapiens.ucsc.hg19,this_wordlength = 3)exome_mutcatraw_df <-as.data.frame(exome_mutcatraw_list $ matrix)

3纠正目标捕获

现在,我们有一个示例用于WES数据的突变目录。为了对WGS和WES之间的不同三重态内容进行校正,YAPSA提供了校正因子,可以将其带到R工作空间,如下:

数据(targetcapture_cor_factors)

如在介绍,不同的目标捕获套件需要不同的校正因子。可以通过加载对象的名称访问可用校正因子的集合:

名称(targetcapture_cor_factors)
## [1]“ agilent4withutrs”“ agilent4withoututrs” ## [3]“ agilent5withutrs”“ agilent5withoututrs” ## [5]“ somsig”“ somsig”“ hs37d5” ## [7] ## [7]“ illuminanexteraexteraexteraexteraexome”agilent6withutrs“” agilent7withoututrs“ ## [11]“ agiLentseletseletselectAllexon”

现在,我们有所有的东西来纠正三胞胎内容。如上所述以上,通过提供的链接访问数据(Alexandrov等人,2013年)但是,这些数据最初是为另一个出版物生成的:(Rudin等,2012)。如那里所述,目标捕获套件安捷伦监控所有外显子被使用,我们将使用该套件计算的校正因子。在YAPSA中使用以进行此类校正的功能称为strumanizemotifs_otherrownames()

targetcapture < - “ agiLentsElecterSallexon” cor_list <-targetcapture_cor_factors [[[targetCapture]] correction_catalog_df <-Sunlarome_mutcatraw_df,cor_mutcatraw_df,cor_list $ rel_cor)

值得注意的是,校正后的突变目录不再仅包含整数编号,它可能包含浮点数,因为值\(q_ {x}^{wgs,wes} \)

4进行突变特征分析

在对因子进行了校正之后\(q_ {x}^{wgs,wes} \),对突变特征的分析完全类似于其他小插曲中已经多次描述的步骤。但是,最佳特定特定特定截止的选择略有不同:

数据(截止)current_cutoff_vector < -  cutoffcosmicvalid_rel_df [6,]
exome_listsList <- LCD_complex_cutoff_combined( in_mutation_catalogue_df = corrected_catalog_df, in_cutoff_vector = current_cutoff_vector, in_signatures_df = AlexCosmicValid_sig_df, in_sig_ind_df = AlexCosmicValid_sigInd_df)

由于在此示例中我们没有有关子组的任何信息,因此我们省略了这一点,并直接绘制结果:

exposures_barplot(in_exposures_df = exome_listslist $ cohort $ exposures,in_signatures_ind_df = exome_listslist $ cohort $ cohort $ out_sig_ind_df)
曝光barplot。

图1:曝光barplot

值得注意的是,该队列受签名AC4的强烈影响(与烟草烟雾中的主要致癌物有关)。

参考

Alexandrov,LB,J Kim,NJ Haradhvala,Mn Huang,Aw ng,A Boot,KR Covington等。2020年。“人类癌症突变特征的曲目。”自然。自然。

Alexandrov,LB,S Nik-Zainal,DC Wedge,Sa Aparicio,S Behjati,Av Biankin,Gr Bignell等。2013年。“癌症突变过程的签名”。自然。自然出版集团。

Rudin,Charles M.,Steffen Durinck,Eric W. Stawiski,John T. Poirier,Zora Modrusan,David S. Shames,Emily A. Bergbower等。2012年。“全面的基因组分析将SOX2鉴定为小细胞肺癌中经常放大的基因。”自然遗传学。自然出版集团。