图书馆(Biocstyle)
YAPSA用于整个基因组测序(WGS)数据已在前面的小插曲中进行了详细描述,并在引言中介绍了一般框架的概述1.使用YAPSA。YAPSA也可以应用于整个外显子组测序(WES)数据,但是,需要一些警告,并且必须遵循一些步骤。这些在此小插图中进行了描述。
WGS和WES分析之间最重要的区别是不同K-MER的发生频率。根据所详述的概念(Alexandrov等人,2013年)和(Alexandrov等,2020),SNV突变签名使用SNV的三重态(或3-mer)上下文进行突变分类,从而导致96个不同的类别或特征。这些96个不同的特征在人类基因组中没有相同的频率发生。它们也不以相同的频率在外显子中发生,但更重要的是,WGS和WES之间的相对发生有所不同。更确切地说,让\(n_ {x}^{wgs} \)表示功能的发生\(X\)在整个基因组中\(n_ {x}^{wes} \)表示发生\(X\)在外显子目标捕获中。然后我们进一步表示
是这两个计数的比率。即使在所有功能中平均而\(50 \),因为基因组大致\(50 \)比外显子大的时代,对于所有功能,比率并不一定是相同的,即
在哪里\(\ mathbb {f} \)表示功能空间。因此,计算是谨慎的\(q_ {x}^{wgs,wes} \)对于所有功能\(x \ in \ mathbb {f} \)并纠正这些差异。这些校正可以应用于签名,将其转换为“外部特征”,也可以将逆校正应用于突变目录。在YAPSA中,我们选择了第二个替代方案,因为这可以使函数调用简单,类似且非常相似,以分析WES和WGS数据。
可以使用不同的目标捕获套件来执行WES。由于这些涵盖了不同的基因组区域,对于给定的目标捕获套件\(一个\),不同的校正因子\(q_ {x}^{wgs,wes_a} \)因为必须计算所有功能。详细以下,YAPSA为8个不同的目标捕获试剂盒提供了校正因子,也为直接从应用于人类参考基因组HS37D5的基因模型Gencode 19得出的一个校正因子提供了一个校正因子。
首先,类似于所有其他小插曲,我们从包装中加载签名数据:
data(sigs)数据(截止)current_sig_df <-AlexinitialArtif_sig_df库(bsgenome.hsapiens.ucsc.hg19)
为了分析异构体,YAPSA中存储了小细胞肺癌的突变目录。数据最初是由(Rudin等,2012)并在跨实体分析中使用(Alexandrov等人,2013年)。数据可以如下访问:
数据(“ smallcelllungcancermutcat_naturegenetics2012”)
这将创建一个名称的数据框exome_mutcatraw_df
和96行。它最初是通过执行下面的R代码(未在此插图中评估)生成的:
smallcelllungcancer_naturegenetics2012_ftp_path <-paste0(“ ftp://ftp.sanger.ac.uk/pub/pub/cancer/cancer/alexandrovetal/”,“ somatic_maint_data_data/lung cell/”file = smallcelllungcancer_naturegenetics2012_ftp_path,header = false,sep =“ \ t”)名称(exome_vcf_like_df)<-c(“ pid”,“ type”,“ type”,“ type”,“ chrom”,“ chrom”,“ start”,“ start”,“ start”,“ stop”,“ stop”,“ ref”,“ ref”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“”,“,“ flag”)exome_vcf_like_df <-subset(exome_vcf_like_df,type ==“ subs”,select = c(chrom,start,ref,ref,alt,pid))名称(exome_vcf_vcf_like_df)[2](exome_vcf_like_df,“ chrom”)word_length <-3 exome_mutcatraw_list <-create_munt_muarn_muarn_catalogue_from_df(exome_vcf_like_df,this_seqnames.field =“this_subgroup.field =“ subgroup”,this_refgenome = bsgenome.hsapiens.ucsc.hg19,this_wordlength = 3)exome_mutcatraw_df <-as.data.frame(exome_mutcatraw_list $ matrix)
现在,我们有一个示例用于WES数据的突变目录。为了对WGS和WES之间的不同三重态内容进行校正,YAPSA提供了校正因子,可以将其带到R工作空间,如下:
数据(targetcapture_cor_factors)
如在介绍,不同的目标捕获套件需要不同的校正因子。可以通过加载对象的名称访问可用校正因子的集合:
名称(targetcapture_cor_factors)
## [1]“ agilent4withutrs”“ agilent4withoututrs” ## [3]“ agilent5withutrs”“ agilent5withoututrs” ## [5]“ somsig”“ somsig”“ hs37d5” ## [7] ## [7]“ illuminanexteraexteraexteraexteraexome”agilent6withutrs“” agilent7withoututrs“ ## [11]“ agiLentseletseletselectAllexon”
现在,我们有所有的东西来纠正三胞胎内容。如上所述以上,通过提供的链接访问数据(Alexandrov等人,2013年)但是,这些数据最初是为另一个出版物生成的:(Rudin等,2012)。如那里所述,目标捕获套件安捷伦监控所有外显子被使用,我们将使用该套件计算的校正因子。在YAPSA中使用以进行此类校正的功能称为strumanizemotifs_otherrownames()
:
targetcapture < - “ agiLentsElecterSallexon” cor_list <-targetcapture_cor_factors [[[targetCapture]] correction_catalog_df <-Sunlarome_mutcatraw_df,cor_mutcatraw_df,cor_list $ rel_cor)
值得注意的是,校正后的突变目录不再仅包含整数编号,它可能包含浮点数,因为值\(q_ {x}^{wgs,wes} \)。
在对因子进行了校正之后\(q_ {x}^{wgs,wes} \),对突变特征的分析完全类似于其他小插曲中已经多次描述的步骤。但是,最佳特定特定特定截止的选择略有不同:
数据(截止)current_cutoff_vector < - cutoffcosmicvalid_rel_df [6,]
exome_listsList <- LCD_complex_cutoff_combined( in_mutation_catalogue_df = corrected_catalog_df, in_cutoff_vector = current_cutoff_vector, in_signatures_df = AlexCosmicValid_sig_df, in_sig_ind_df = AlexCosmicValid_sigInd_df)
由于在此示例中我们没有有关子组的任何信息,因此我们省略了这一点,并直接绘制结果:
exposures_barplot(in_exposures_df = exome_listslist $ cohort $ exposures,in_signatures_ind_df = exome_listslist $ cohort $ cohort $ out_sig_ind_df)
图1:曝光barplot
值得注意的是,该队列受签名AC4的强烈影响(与烟草烟雾中的主要致癌物有关)。
Alexandrov,LB,J Kim,NJ Haradhvala,Mn Huang,Aw ng,A Boot,KR Covington等。2020年。“人类癌症突变特征的曲目。”自然。自然。
Alexandrov,LB,S Nik-Zainal,DC Wedge,Sa Aparicio,S Behjati,Av Biankin,Gr Bignell等。2013年。“癌症突变过程的签名”。自然。自然出版集团。
Rudin,Charles M.,Steffen Durinck,Eric W. Stawiski,John T. Poirier,Zora Modrusan,David S. Shames,Emily A. Bergbower等。2012年。“全面的基因组分析将SOX2鉴定为小细胞肺癌中经常放大的基因。”自然遗传学。自然出版集团。