内容

1介绍
2加载数据
3纠正目标捕获
4进行突变特征分析
参考

图书馆（Biocstyle）

1介绍

YAPSA用于整个基因组测序（WGS）数据已在前面的小插曲中进行了详细描述，并在引言中介绍了一般框架的概述1.使用YAPSA。YAPSA也可以应用于整个外显子组测序（WES）数据，但是，需要一些警告，并且必须遵循一些步骤。这些在此小插图中进行了描述。

WGS和WES分析之间最重要的区别是不同K-MER的发生频率。根据所详述的概念（Alexandrov等人，2013年）和（Alexandrov等，2020），SNV突变签名使用SNV的三重态（或3-mer）上下文进行突变分类，从而导致96个不同的类别或特征。这些96个不同的特征在人类基因组中没有相同的频率发生。它们也不以相同的频率在外显子中发生，但更重要的是，WGS和WES之间的相对发生有所不同。更确切地说，让\（n_ {x}^{wgs} \）表示功能的发生\（X\）在整个基因组中\（n_ {x}^{wes} \）表示发生\（X\）在外显子目标捕获中。然后我们进一步表示

\ [q_ {x}^{wgs，wes} = \ frac {n_ {x}}^{wgs}}} {n_ {x}}^{wes}}}} \]

是这两个计数的比率。即使在所有功能中平均而\（50 \），因为基因组大致\（50 \）比外显子大的时代，对于所有功能，比率并不一定是相同的，即

\ [\存在x，y \ in \ mathbb {f}：q_ {x}^{wgs，wes} \ neq q_ {y} {y}^{wgs，wes}，wes} \]

在哪里\（\ mathbb {f} \）表示功能空间。因此，计算是谨慎的\（q_ {x}^{wgs，wes} \）对于所有功能\（x \ in \ mathbb {f} \）并纠正这些差异。这些校正可以应用于签名，将其转换为“外部特征”，也可以将逆校正应用于突变目录。在YAPSA中，我们选择了第二个替代方案，因为这可以使函数调用简单，类似且非常相似，以分析WES和WGS数据。

可以使用不同的目标捕获套件来执行WES。由于这些涵盖了不同的基因组区域，对于给定的目标捕获套件\（一个\），不同的校正因子\（q_ {x}^{wgs，wes_a} \）因为必须计算所有功能。详细以下，YAPSA为8个不同的目标捕获试剂盒提供了校正因子，也为直接从应用于人类参考基因组HS37D5的基因模型Gencode 19得出的一个校正因子提供了一个校正因子。

2加载数据

首先，类似于所有其他小插曲，我们从包装中加载签名数据：

data（sigs）数据（截止）current_sig_df <-AlexinitialArtif_sig_df库（bsgenome.hsapiens.ucsc.hg19）

为了分析异构体，YAPSA中存储了小细胞肺癌的突变目录。数据最初是由（Rudin等，2012）并在跨实体分析中使用（Alexandrov等人，2013年）。数据可以如下访问：

数据（“ smallcelllungcancermutcat_naturegenetics2012”）

这将创建一个名称的数据框exome_mutcatraw_df和96行。它最初是通过执行下面的R代码（未在此插图中评估）生成的：

smallcelllungcancer_naturegenetics2012_ftp_path <-paste0（“ ftp：//ftp.sanger.ac.uk/pub/pub/cancer/cancer/alexandrovetal/”，“ somatic_maint_data_data/lung cell/”file = smallcelllungcancer_naturegenetics2012_ftp_path，header = false，sep =“ \ t”）名称（exome_vcf_like_df）<-c（“ pid”，“ type”，“ type”，“ type”，“ chrom”，“ chrom”，“ start”，“ start”，“ start”，“ stop”，“ stop”，“ ref”，“ ref”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“”，“，“ flag”）exome_vcf_like_df <-subset（exome_vcf_like_df，type ==“ subs”，select = c（chrom，start，ref，ref，alt，pid））名称（exome_vcf_vcf_like_df）[2]（exome_vcf_like_df，“ chrom”）word_length <-3 exome_mutcatraw_list <-create_munt_muarn_muarn_catalogue_from_df（exome_vcf_like_df，this_seqnames.field =“this_subgroup.field =“ subgroup”，this_refgenome = bsgenome.hsapiens.ucsc.hg19，this_wordlength = 3）exome_mutcatraw_df <-as.data.frame（exome_mutcatraw_list $ matrix）

3纠正目标捕获

现在，我们有一个示例用于WES数据的突变目录。为了对WGS和WES之间的不同三重态内容进行校正，YAPSA提供了校正因子，可以将其带到R工作空间，如下：

数据（targetcapture_cor_factors）

如在介绍，不同的目标捕获套件需要不同的校正因子。可以通过加载对象的名称访问可用校正因子的集合：

名称（targetcapture_cor_factors）

## [1]“ agilent4withutrs”“ agilent4withoututrs” ## [3]“ agilent5withutrs”“ agilent5withoututrs” ## [5]“ somsig”“ somsig”“ hs37d5” ## [7] ## [7]“ illuminanexteraexteraexteraexteraexome”agilent6withutrs“” agilent7withoututrs“ ## [11]“ agiLentseletseletselectAllexon”

现在，我们有所有的东西来纠正三胞胎内容。如上所述以上，通过提供的链接访问数据（Alexandrov等人，2013年）但是，这些数据最初是为另一个出版物生成的：（Rudin等，2012）。如那里所述，目标捕获套件安捷伦监控所有外显子被使用，我们将使用该套件计算的校正因子。在YAPSA中使用以进行此类校正的功能称为strumanizemotifs_otherrownames（）：

targetcapture < - “ agiLentsElecterSallexon” cor_list <-targetcapture_cor_factors [[[targetCapture]] correction_catalog_df <-Sunlarome_mutcatraw_df，cor_mutcatraw_df，cor_list $ rel_cor）

值得注意的是，校正后的突变目录不再仅包含整数编号，它可能包含浮点数，因为值\（q_ {x}^{wgs，wes} \）。

4进行突变特征分析

在对因子进行了校正之后\（q_ {x}^{wgs，wes} \），对突变特征的分析完全类似于其他小插曲中已经多次描述的步骤。但是，最佳特定特定特定截止的选择略有不同：

数据（截止）current_cutoff_vector < -  cutoffcosmicvalid_rel_df [6，]

exome_listsList <- LCD_complex_cutoff_combined( in_mutation_catalogue_df = corrected_catalog_df, in_cutoff_vector = current_cutoff_vector, in_signatures_df = AlexCosmicValid_sig_df, in_sig_ind_df = AlexCosmicValid_sigInd_df)

由于在此示例中我们没有有关子组的任何信息，因此我们省略了这一点，并直接绘制结果：

exposures_barplot（in_exposures_df = exome_listslist $ cohort $ exposures，in_signatures_ind_df = exome_listslist $ cohort $ cohort $ out_sig_ind_df）

图1：曝光barplot

值得注意的是，该队列受签名AC4的强烈影响（与烟草烟雾中的主要致癌物有关）。

参考

Alexandrov，LB，J Kim，NJ Haradhvala，Mn Huang，Aw ng，A Boot，KR Covington等。2020年。“人类癌症突变特征的曲目。”自然。自然。

Alexandrov，LB，S Nik-Zainal，DC Wedge，Sa Aparicio，S Behjati，Av Biankin，Gr Bignell等。2013年。“癌症突变过程的签名”。自然。自然出版集团。

Rudin，Charles M.，Steffen Durinck，Eric W. Stawiski，John T. Poirier，Zora Modrusan，David S. Shames，Emily A. Bergbower等。2012年。“全面的基因组分析将SOX2鉴定为小细胞肺癌中经常放大的基因。”自然遗传学。自然出版集团。

6.使用YAPSA用于整个外显子组测序（WES）数据

06/03/2020

内容

1介绍

2加载数据

3纠正目标捕获

4进行突变特征分析

参考