1简介

这个小插图描述的使用seqCAT用于认证、表征和评估的两个或多个包高通量测序样品(高温超导;RNA-seq或全基因组测序)。该方法的原理建立在以前的工作基础上，在以前的工作中，分析HTS数据中发现的全部变异提供了前所未有的统计能力，并为生物样本之间遗传相似性和差异的功能评估提供了巨大的机会(Fasterius et al. 2017;Fasterius和Szigyarto 2018)．

seqCAT包通过创建工作单核苷酸变体(SNV)的每个感兴趣的样本的概况，然后比较每组之间找到总体遗传相似性，除了详细分析差异。通过此工作流程分析您的数据，您不仅能够高度自信地验证您的样品，而且还能够调查哪些基因和转录本受到样品之间snv差异的影响，它们将具有何种生物效应等等。工作流由三个独立的步骤组成:

1.创建SNV配置文件SNV剖面比较配置文件比较的认证、表征和评估

下面的每个步骤都有自己的部分演示如何执行分析。输入数据的格式应为VCF文件，即类等变量调用方的输出基因组分析工具箱还可以选择使用软件进行注释，例如SnpEff．

1．1安装

此包的最新稳定版本可以在Bioconductor并安装:

install.packages(“BiocManager”)BiocManager::安装(“seqCAT”)

如果您的系统中还不存在任何缺少的包，这也将安装完整功能所需的包。如果您还没有安装Bioconductor，您可以通过简单地调用来安装BiocManager:安装()无需指定软件包，即可为您安装。你可以在Bioconductor网站上读到更多相关信息安装页面．您还可以在上找到seqCAT的开发版本GitHub，安装方式如下:

install.packages (devtools) devtools: install_github(“fasterius / seqCAT”)

2创建SNV配置文件

工作流的第一步是创建每个样本的SNV配置文件，然后可以相互比较。SNV配置文件的创建包括筛选低置信变异，去除低于测序深度阈值的变异(10默认情况下)，去重复的变异和可选的线粒体变异的去除(真正的默认情况下)。对于带注释的VCF文件，只有SNV影响最大的记录(即。影响蛋白质功能)，因为它们最有可能影响细胞的生物学。

2.1创建个人档案

在这篇短文中，我们将使用一些示例数据，example.vcf.gz，这来自于最初发表的该方法的一般过程(Fasterius et al. 2017)．这是一个简化的多样本VCF文件，包含12号染色体的一个子集(包含到位置的所有变体)25400000，以保持文件大小较小)，用于三种不同的结直肠癌细胞系:HCT116，HKE3而且(RKO．第一步是加载seqCAT为每个样本创建SNV配置文件:

#加载包库("seqCAT") #列出示例VCF文件VCF <- system. exefile("extdata"， "example.vcf.gz"， package = "seqCAT") #创建两个SNV文件hct116 <- create_profile(vcf， " hct116 ") head(hct116)

# #杆pos rsID基因ENSGID ENSTID REF 12 # # 80385 rs370087224 abc7 - 42389800 n19.1 ENSG00000226210 ENST00000400706 C # # 80399没有abc7 12 - 42389800 - n19.1 ENSG00000226210 ENST00000400706 G # # 3 80422 rs373297723 abc7 - 42389800 n19.1 ENSG00000226210 ENST00000400706 G # # 4 80729 rs375960073 abc7 - 42389800 n19.1 ENSG00000226210 ENST00000400706 5 # # 83011 rs370570891 abc7 - 42389800 n19.1 ENSG00000226210 ENST00000400706 T # # 12 83012 rs374646339 abc7 - 42389800 n19.1 ENSG00000226210ENST00000400706 C # # ALT影响效应特性生物型DP AD1 AD2 A1 # # 1 T修饰符intron_variant成绩单unprocessed_pseudogene 10 8 2 C # # 2修改器intron_variant成绩单unprocessed_pseudogene 10 4 6克# # 3修改器intron_variant成绩单unprocessed_pseudogene 15 11 4 G # # 4 G修饰符intron_variant成绩单unprocessed_pseudogene 18 13 5 # # 5 C修饰符intron_variant成绩单unprocessed_pseudogene 10 3 7 T # # 6 G修饰符intron_variant成绩单2 A PASS HCT116 ## 3 A PASS HCT116 ## 4g PASS HCT116 ## 5 C PASS HCT116 ## 6 G PASS HCT116

SNV配置文件列出了VCF文件中出现的所有变量，以及出现的任何注释。这意味着有关基因组位置的信息(空空的而且pos)、参考及替代等位基因(裁判而且ALT)，基因型(A1而且A2)和深度(DP，变异深度;AD1而且AD2等位基因深度)总是会出现在所有的档案中。这里创建的概要文件还包含来自SnpEff，例如基因(ENSGID),变体影响（影响)和变体加入(rsID)．

2．2不同的过滤

SNV配置文件的创建包括几个可选的变体过滤步骤，包括测序深度的标准，变体调用者特定阈值，线粒体变体，非标准染色体中的变体以及在基因水平或位置水平重复的变体。的create_profile函数默认执行所有这些(测序深度至少为10，并在基因级去重复)，但您可以根据需要省略或更改这些，如下所示:

rko <- create_profile(vcf， " rko "， min_depth = 15, filter_gd = FALSE)

此样本的概况((RKO)使用非标准过滤器创建排序深度(Min_depth = 15)，只有当你想对你的个人资料有更严格的标准时(比如当你只对高于标准的置信度变量感兴趣时)，才应该这样做。

您还可以选择不使用特定于变量调用者的过滤条件来删除变量filter_vc = FALSE在创建您的配置文件时，尽管建议在大多数情况下这样做，以尽量减少假阳性变量呼叫的数量。默认情况下，线粒体变体会被移除，但也可能会被保留filter_mt = FALSE；非标准染色体也是如此filter_ns参数。

重复的变异可以在基因水平(filter_gd = TRUE默认情况下)或位置级别(filter_pd = FALSE默认情况下)。前者将在每个基因基础上删除有多个条目的变体(即。影响同一基因的多个转录本的变体)，但保留影响多个基因的变体的多个条目;这种影响被用来决定保留哪些相同的基因变异。后者将完全根据它们的位置去除重复的变异，而不管它们影响的基因或转录本是什么。因此，了解在此阶段要进行何种类型的下游分析是很重要的:如果需要分析哪些基因或转录本受到变异的影响，那么要么在基因水平上删除重复，要么根本不删除;如果没有，可以在位置级别上删除不同的重复项。

过滤也可以在初始SNV配置文件创建后执行，使用两个单独的功能:

#过滤排序深度rko_filtered <- filter_variables (rko, min_depth = 20) #过滤位置级变量重复rko_deduplication <- filter_duplicate (rko, filter_pd = TRUE)

2．3创建多个概要文件

的create_profiles函数是一个方便的包装器create_profile，它将为给定输入目录中的每个VCF文件创建SNV配置文件，并将它们作为列表返回。你可以将它用于目录或字符串指定的子集中的所有vcf，如下所示:

vcf_dir <- system. # VCF文件目录。file("extdata"， package = "seqCAT") #为每个名称为"sample1"的VCF创建概要文件profiles <- create_profiles(vcf_dir, pattern = "sample1")

2.4创建COSMIC配置文件

也可以将样本的变体与一些外部来源进行比较。这样的来源是癌症体细胞突变目录,或宇宙．(福布斯等，2015)COSMIC拥有超过1000个细胞系特异性突变谱，以及许多癌症样本中的癌症突变的全面列表，因此是一个非常有用的资源。

为了使用COSMIC数据库，您需要在他们的网站上注册一个帐户网站并获得下载文件的许可(学术界和非营利组织可以免费下载，但营利性组织需要商业许可)。SeqCAT既可以分析细胞系特异性的(或特异性的)细胞CosmicCLP_MutantExport.tsv.gz文件)和癌症突变数据CosmicCompleteTargetedScreensMutantExport.tsv.gz文件)，可以找到在这里．由于不允许重新分发这些数据，所以这个包只包含原始文件的极小子集，只对本文中的示例和单元测试有用。不使用这些文件为您自己的分析，因为您的结果将既不完整也不准确!

这里我们展示了一个如何分析一些细胞系特定的COSMIC数据的例子。检查的第一件事是查看数据库中特定的单元行是否可用，这可以使用list_cosmic功能:

文件<- system。file("extdata"， "subset_CosmicCLP_MutantExport.tsv.gz"， package = "seqCAT") cell_lines <- list_cosmic(file) head(cell_lines)

##[1]“639v”“a427”“a549”“ags”“amo1”“an3ca”

这为我们提供了一个简单的向量，其中包含COSMIC数据库中所有可用的示例名称(此版本的文件用于GRCh37程序集)。你可以搜索你选择的细胞系:

任何(grepl(“HCT116”,cell_lines))

##[1]真

所有与cosmos相关的函数都对示例名称进行了一些简化(因为破折号、点和其他符号的使用存在差异)，并且不区分大小写。断言感兴趣的样本可用后，就可以使用read_cosmic功能:

<- read_cosmic(file， "HCT116") head(cosmic)

## chr pos REF ALT A1 A2基因ENSTID gene_cds_length hgnc_id ## 43 12 25398281 C T C T KRAS ENST00000311936 567 6407 sample id_sample id_tumor primary_site site_subtype_1 ## 43 COSMIC。HCT116905936 823462 LARGE_INTESTINE colon ## site_subtype_2 site_subtype_3 primary_histology histology_subtype_1 ## 43 NS NS carcinoma NS ## histology_subtype_2 histology_subtype_3 genome_wide_screen id cds ## 43 NS NS y COSM532 c.38G>A ## aa description loh grch snp fathmm_prediction fathmm_score ## 43 p.G13D Substitution - Missense u 37 n PATHOGENIC 0.97875 ## somatic_status verification_status pubmed_pmid ## 43 Reported in another cancer sample as somatic Verified NA ## id_study institute ## 43 619 Developmental Therapeutics Program ## institute_address catalogue_number sample_source ## 43 National Cancer Institute,Frederick,MD 21701 cell-line ## tumour_origin age ## 43 primary NA

现在，您的细胞系有了一个小的COSMIC SNV配置文件，您可以将其与您可能有数据的任何其他配置文件进行比较(下文将详细介绍)。你也可以检查你的特定单元格在COSMIC中列出了多少个变量:

nrow(宇宙)

## [1]

这里我们只看到HCT116细胞系的一个变体，这只是因为这里使用的COSMIC数据库的一个极小的子集。事实上，HCT116已经列出了2000多个COSMIC snv，使其成为可用的更丰富的特征细胞系之一(因为大多数细胞系在COSMIC中只有几百个snv)。不过，包含几百个变体的COSMIC配置文件更为常见，因此任何仅基于COSMIC变体的分析都具有固有的局限性。

2.5在磁盘上使用概要文件

对于简单的二进制比较来说，计算时间通常不是问题(即。只与两个样本进行比较)，这很快就会成为将样本与其他几个样本进行比较(a vs B, a vs C，等等)的分析中的一个问题;对于带注释的VCF文件更是如此。因此，在某些情况下，将概要文件保存到磁盘是非常有用的，以便在以后的阶段进行重新分析。这可以用write_profile功能:

write_profile (hct116、“hct116.profile.txt”)

您还可以以其他几种格式存储配置文件，包括BED, GTF和GFF;根据文件名自动检测:

write_profile (hct116、“hct116.profile.bed”)

的write_profiles函数的方便包装器write_profile，它可以同时保存多个配置文件(存储在一个列表中)到磁盘:

(profiles, format = "GTF"， directory = "./")

存储在磁盘上的概要文件可以在稍后使用read_profile功能:

Hct116 <- read_profile(" Hct116 .profile.txt")

的read_profiles函数是一个方便的包装器read_profile，它将自动读取给定目录中出现的所有概要文件(基于模式参数)并以列表的形式返回。

Profile_list <- read_profiles(profile_dir = "。/"， pattern = ".gtf") head(profile_list[[1]])

# #杆pos rsID基因ENSGID ENSTID REF ALT 1 # # 16229没有DDX11L1 ENSG00000223972 ENST00000456328 C # # 2 1 16298 rs200451305 DDX11L1 ENSG00000223972 ENST00000456328 C T # # 3 1 16495 rs141130360 DDX11L1 ENSG00000223972 ENST00000450305 G C # # 4 16495 rs141130360 WASH7P ENSG00000227232 ENST00000423562 G C # # 5 1 16534 rs201459529 DDX11L1 ENSG00000223972 ENST00000450305 C T # # 6 1 16534 rs201459529 WASH7P ENSG00000227232 ENST00000423562 C T # # # # 1改性剂影响效应特征downstream_gene_variant转录# # 3 # # 2修改器downstream_gene_variant转录修饰符downstream_gene_variant转录# # 5 # # 4修改器intron_variant转录修饰符downstream_gene_variant转录# # # # 6修饰符intron_variant转录生物型DP AD1 AD2 A1 A2过滤器警告示例# # 1 processed_transcript 27日21日6 C通过sample1 # # 2 processed_transcript 19 8 11 C T通过sample1 # # 3 transcribed_unprocessed_pseudogene 33 24 9 G C通过sample1 # # 45 C T PASS的样本1 ## 9 C T PASS的样本1 ## 6 C T PASS的样本1 ##

3.比较SNV配置文件

3．1比较完整的资料

一旦每个相关样品都有自己的SNV配置文件，就可以进行比较。SNV配置文件包含来自原始VCF文件的大部分相关注释数据，包括SNV影响、基因/转录本ID和突变ID。的DP(depth)字段列出了该变体的总测序深度，而具体的等位基因深度可以在AD1而且AD2．每个变异的等位基因都可以在A1而且A2．

一旦每个剖面已经定义，他们之间的重叠变异的基因型可以比较使用compare_profiles函数。默认情况下，只有在两个配置文件中发现的变体才被认为是重叠的，因为在配置文件之间的相似性计算中，一些变体只在其中一个样本中有自信调用可能是不合适的。一个SNV被认为是一个匹配，如果它有一个相同的基因型在两个概况。

Hct116_rko <- compare_profiles(hct116, rko) head(Hct116_rko)

# #杆pos sample_1 sample_2匹配rsID基因12 # # 80729 HCT116匹配RKO rs375960073 abc7 - 42389800 n19.1 # # 2 12 83508 HCT116匹配RKO rs374142069 abc7 - 42389800 n19.1 12 # # 83560 HCT116匹配RKO rs368663404 abc7 - 42389800 n19.1 # # 4 12 83979 HCT116匹配RKO rs369733672 abc7 - 42389800 n19.1 # # 5 12 84000 HCT116匹配RKO rs374158904 abc7 - 42389800 n19.1 # # 6 12 84096 HCT116匹配RKO rs376990822 abc7 - 42389800 n19.1 # # ENSGID ENSTID REF ALT影响效应特性# # 1 ENSG00000226210 ENST00000400706A G MODIFIER intron_variant transcript ## 2 ENSG00000226210 ENST00000400706 T G MODIFIER intron_variant transcript ## 3 ENSG00000226210 ENST00000400706 G T MODIFIER intron_variant transcript ## 4 ENSG00000226210 ENST00000400706 T C MODIFIER intron_variant transcript ## 5 ENSG00000226210 ENST00000400706 C G MODIFIER intron_variant transcript ## 6 ENSG00000226210 ENST00000400706 C G MODIFIER intron_variant transcript ## biotype DP.HCT116 AD1.HCT116 AD2.HCT116 A1.HCT116 A2.HCT116 ## 1 unprocessed_pseudogene 18 13 5 A G ## 2 unprocessed_pseudogene 26 21 5 T G ## 3 unprocessed_pseudogene 21 14 7 G T ## 4 unprocessed_pseudogene 51 42 9 T C ## 5 unprocessed_pseudogene 52 42 10 C G ## 6 unprocessed_pseudogene 65 49 16 C G ## FILTER.HCT116 warnings.HCT116 DP.RKO AD1.RKO AD2.RKO A1.RKO A2.RKO FILTER.RKO ## 1 PASS 15 8 7 A G PASS ## 2 PASS 17 6 11 T G PASS ## 3 PASS 16 4 12 G T PASS ## 4 PASS 23 14 9 T C PASS ## 5 PASS 18 9 9 C G PASS ## 6 PASS 18 10 8 C G PASS ## warnings.RKO ## 1 ## 2 ## 3 ## 4 ## 5 ## 6

生成的数据框架保留来自每个输入概要文件的所有信息(包括任何不同的注释，如果它们存在的话)，并通过将示例名称作为后缀添加到相关列名中来列出深度和等位基因。一个可选参数，模式，也可以提供:默认值(“十字路口”)丢弃比较中任何不重叠的变量，同时将其设置为“联盟”会留住他们。

Hct116_rko_union <- compare_profiles(hct116, rko, mode = "union") head(Hct116_rko_union)

# #杆pos sample_1 sample_2匹配rsID基因12 # # 80385 HCT116 HCT116_only RKO rs370087224 abc7 - 42389800 n19.1 # # 2 12 80399 HCT116 HCT116_only RKO没有abc7 - 42389800 n19.1 12 # # 80422 HCT116 HCT116_only RKO rs373297723 abc7 - 42389800 n19.1 # # 4 12 80610 HCT116 RKO_only RKO没有abc7 - 42389800 n19.1 # # 5 12 80729 HCT116匹配RKO rs375960073 abc7 - 42389800 n19.1 # # 6 12 83011 HCT116 HCT116_only RKO rs374646339 abc7 - 42389800 n19.1 # # ENSGID ENSTID REF ALT # # 1 ENSG00000226210影响效应特征ENST00000400706 C T修饰符intron_variant成绩单# # 2 ENSG00000226210 ENST00000400706 G一个修饰词intron_variant成绩单# # 3 ENSG00000226210 ENST00000400706 G一个修饰词intron_variant成绩单# # 4 ENSG00000226210 ENST00000400706 C G修饰符intron_variant成绩单# # 5 ENSG00000226210 ENST00000400706 G修饰符intron_variant成绩单# # 6 ENSG00000226210 ENST00000400706 C G修饰符intron_variant成绩单# #生物型DP。HCT116 AD1。HCT116 AD2。HCT116 A1。HCT116 A2。HCT116## 1 unprocessed_pseudogene 10 8 2 C T ## 2 unprocessed_pseudogene 10 4 6 G A ## 3 unprocessed_pseudogene 15 11 4 G A ## 4 unprocessed_pseudogene ## 5 unprocessed_pseudogene 18 13 5 A G ## 6 unprocessed_pseudogene 10 3 7 C G ## FILTER.HCT116 warnings.HCT116 DP.RKO AD1.RKO AD2.RKO A1.RKO A2.RKO FILTER.RKO ## 1 PASS ## 2 PASS ## 3 PASS ## 4 16 11 5 C G PASS ## 5 PASS 15 8 7 A G PASS ## 6 PASS ## warnings.RKO ## 1 ## 2 ## 3 ## 4 ## 5 ## 6

3.2与COSMIC档案相比

如果您只想分析数据的一个子集，或者作为与其他方法互补的正交方法，您可以将您的概要文件与COSMIC概要文件进行比较。这与比较另一个完整配置文件的方式相同，但输出略有不同:

Hct116_cosmic <- compare_profiles(hct116, cosmic) head(Hct116_cosmic)

## chr pos sample_1 sample_2 match rsID ENSGID ## 1 12 25398281 HCT116 COSMIC。HCT116match rs112445441 ENSG00000133703 ## impact effect feature biotype gene ## 1 MODERATE missense_variant transcript protein_coding KRAS ## ENSTID REF ALT DP.HCT116 AD1.HCT116 AD2.HCT116 ## 1 [ENST00000256078,ENST00000311936] C T 180 96 84 ## A1.HCT116 A2.HCT116 FILTER.HCT116 warnings.HCT116 A1.COSMIC.HCT116 ## 1 C T PASS C ## A2.COSMIC.HCT116 gene_cds_length.COSMIC.HCT116 hgnc_id.COSMIC.HCT116 ## 1 T 567 6407 ## id_sample.COSMIC.HCT116 id_tumour.COSMIC.HCT116 primary_site.COSMIC.HCT116 ## 1 905936 823462 LARGE_INTESTINE ## site_subtype_1.COSMIC.HCT116 site_subtype_2.COSMIC.HCT116 ## 1 colon NS ## site_subtype_3.COSMIC.HCT116 primary_histology.COSMIC.HCT116 ## 1 NS carcinoma ## histology_subtype_1.COSMIC.HCT116 histology_subtype_2.COSMIC.HCT116 ## 1 NS NS ## histology_subtype_3.COSMIC.HCT116 genome_wide_screen.COSMIC.HCT116 ## 1 NS y ## id.COSMIC.HCT116 cds.COSMIC.HCT116 aa.COSMIC.HCT116 description.COSMIC.HCT116 ## 1 COSM532 c.38G>A p.G13D Substitution - Missense ## loh.COSMIC.HCT116 grch.COSMIC.HCT116 snp.COSMIC.HCT116 ## 1 u 37 n ## fathmm_prediction.COSMIC.HCT116 fathmm_score.COSMIC.HCT116 ## 1 PATHOGENIC 0.97875 ## somatic_status.COSMIC.HCT116 ## 1 Reported in another cancer sample as somatic ## verification_status.COSMIC.HCT116 pubmed_pmid.COSMIC.HCT116 ## 1 Verified ## id_study.COSMIC.HCT116 institute.COSMIC.HCT116 ## 1 619 Developmental Therapeutics Program ## institute_address.COSMIC.HCT116 catalogue_number.COSMIC.HCT116 ## 1 National Cancer Institute,Frederick,MD 21701 ## sample_source.COSMIC.HCT116 tumour_origin.COSMIC.HCT116 age.COSMIC.HCT116 ## 1 cell-line primary

您可以使用所有的函数进行下游分析，以便与COSMIC数据进行比较，但考虑到COSMIC数据库偏向于已知的和有特征的突变，您对功能分析的选择将受到限制。然而，这是一种很好的方法来验证你的细胞系，并断言存在于被分析细胞中的突变状态。

4计算二进制比较

4．1相似度和全局统计

当你有了匹配的、重叠的snv时，是时候分析和描述它们了。首先要检查的是全局相似性和汇总统计信息，可以使用calculate_similarity函数。的和谐简单来说就是匹配基因型的数量除以重叠变异的总数，而相似性得分是二项实验形式的一致性的加权度量，考虑到可用的重叠变量的数量:

\[相似度= \frac{s + a}{n + a + b}\]

…年代是匹配基因型的数量，n为重叠snv的总数，一个而且b作为用于衡量一致性的参数，以支持与更多重叠的比较。的默认参数1而且5被选择来产生与Yuet al。(2015)，这导致了完美匹配重叠变体的下限44，相似度评分为90。因此，相似度比一致性更能衡量生物等效性。

相似度<- calculate_similarity(hct116_rko)相似度

## sample_1 sample_2 variants_1 variants_2重叠匹配一致性## 1 HCT116 RKO 259 259 259 181 69.9 ##相似度_score ## 1 68.7

在这里，您可以看到您的特定比较的相关统计数据的摘要:每个配置文件的总变体的数量(如果比较是与模式= "union"，否则这个数字将只相当于重叠)，你的两个样本之间的重叠数量，匹配的基因型的数量，他们的一致性以及他们的相似得分。禹所用的边界线et al。细胞系的真实性是90%他们的48个SNP小组，这也可以被认为是这种方法的基线。的分数,68.7，远低于这个界限，因此我们可以确定这两个细胞确实不一样(正如预期的那样)。虽然硬性的相似性阈值是不可取的，但一般的指导方针是与以上分数进行比较90可以认为是相似的，而下面的可以认为是不相似的。而分数略低于90并不意味着细胞一定是不同的，对吗做意味着需要进行更严格的评估，以确保它们的生物等效性。例如，是否有特定的基因或区域是特别感兴趣的?如果是这样，那么专门调查两者的相似性可能会提供信息下面)．

您还可以更改分数的参数(例如，如果您想要更严格的计算)。你也可以提供calculate_similarity函数使用现有的数据框架和之前生成的汇总数据，以便为任意数量的比较聚合分数和统计数据。

#创建并读取HKE3配置文件HKE3 <- create_profile(vcf， "HKE3") #比较HCT116和HKE3 hct116_hke3 <- compare_profiles(HCT116, HKE3) #添加HCT116/HKE3相似性到HCT116/RKO相似性相似性<- calculate_similarity(hct116_hke3, similarity, b = 10)相似性

## sample_1 sample_2 variants_1 variants_2重叠匹配一致性## 1 HCT116 RKO 259 259 259 181 69.9 ## 2 HCT116 HKE3 493 493 493 475 96.3 ##相似度_score ## 1 68.7 ## 2 94.4

注意到新的相似之处数据帧包含HCT116/RKO和HCT116/HKE3的比较，我们可以清楚地看到HCT116和HKE3确实非常相似，正如预期的那样(HKE3源自HCT116)。的值更高时也是如此b参数。可以添加任意数量的样本calculate_similarity函数，用于进一步的下游分析。

4.2SNV影响评估

SNV的影响表示变体可能对产生的蛋白质功能产生的假定影响，范围从HIGH到MODERATE, LOW和MODIFIER，按数量级递减。例如，由于引入了终止密码子，HIGH影响变体可能导致蛋白质被截断，而MODIFIER变体对蛋白质几乎没有影响。虽然不能保证特定的表型是由HIGH而不是MODERATE影响变体产生的(例如)，但观察两个配置文件之间重叠snv的影响分布可能是有信息的。可以很容易地通过plot_impacts功能:

影响<- plot_impacts(hct116_rko)

##警告:' separate_() '在tidyr 1.2.0中已弃用。请使用“separate()”代替。此警告每8小时显示一次。调用' lifecycle::last_lifecycle_warnings() '查看此警告是在哪里生成的。

影响

该函数以比较数据框架作为输入，并绘制重叠变量的影响分布。它有许多带有默认值的参数，例如，如果您想将带有实际数字的文本添加到图形中(注解= TRUE默认情况下)，如果您想显示图例(传说=真(默认情况下)以及您想要用什么颜色绘制匹配类别(调色板= c("#0D2D59"， "#1954A6")默认情况下，两种蓝色深浅)。我们可以看到大多数SNV都出现在MODIFIER影响类别中，并且没有一个不匹配的HIGH影响SNV。(你也可以用完全相同的方式来可视化你的样本和COSMIC数据库之间的影响分布。)

你可能也想只看变种的一个子集，如。只有高或中等影响的变量，这可以通过一些数据操作轻松实现:

hct116_rko_hm <- hct116_rko[hct116_rko$impact == "HIGH" | hct116_rko$impact == "MODERATE"，] nrow(hct116_rko_hm)

19 . ## [1]

4.３评估特定的染色体，区域，基因和转录本

您可能对特定的染色体或染色体上的某个区域感兴趣，只处理该子集的数据可能会很有用。这个操作很容易在比较数据帧上执行:

Hct116_rko_region <- hct116_rko[hct116_rko$chr == 12 & hct116_rko$pos >= 25000000 & hct116_rko$pos <= 30000000，] head(Hct116_rko_region)

# #杆pos sample_1 sample_2匹配rsID基因ENSGID # # 247 12 25358650 HCT116匹配RKO rs12245 LYRM5 ENSG00000205707 # # 248 12 25358828 HCT116匹配RKO rs12587 LYRM5 ENSG00000205707 # # 249 12 25358943 HCT116匹配RKO rs8720 LYRM5 ENSG00000205707 # # 250 12 25358969 HCT116匹配RKO rs1137196 LYRM5 ENSG00000205707 # # 251 12 25359328 HCT116匹配RKO rs1137189 LYRM5 ENSG00000205707 # # 252 12 25359352 HCT116匹配RKO rs1137188 LYRM5 ENSG00000205707 # # # 247 # ENSTID REF ALT的影响效果[ENST00000381356, ENST00000557540] T修饰符downstream_gene_variant # # 248 (ENST00000381356, ENST00000557540) T G修饰符downstream_gene_variant # # 249 (ENST00000381356, ENST00000557540) T C修饰符downstream_gene_variant # # 250 (ENST00000381356, ENST00000557540) T G修饰符downstream_gene_variant # # 251 (ENST00000381356 ENST00000557540] T修饰符downstream_gene_variant # # 252 (ENST00000381356 ENST00000557540] G一个修饰词downstream_gene_variant # #生物型DP的特性。HCT116 AD1。HCT116 AD2。HCT116 A1。HCT116## 247 transcript protein_coding 351 196 155 A ## 248 transcript protein_coding 382 224 158 T ## 249 transcript protein_coding 380 223 157 T ## 250 transcript protein_coding 306 184 122 T ## 251 transcript protein_coding 436 282 154 A ## 252 transcript protein_coding 407 242 165 G ## A2.HCT116 FILTER.HCT116 warnings.HCT116 DP.RKO AD1.RKO AD2.RKO A1.RKO ## 247 T PASS 414 217 197 A ## 248 G PASS 422 244 178 T ## 249 C PASS 420 238 182 T ## 250 G PASS 349 200 149 T ## 251 T PASS 508 297 211 A ## 252 A PASS 507 270 237 G ## A2.RKO FILTER.RKO warnings.RKO ## 247 T PASS ## 248 G PASS ## 249 C PASS ## 250 G PASS ## 251 T PASS ## 252 A PASS

您可能还对对您的研究特别重要的特定基因或转录本感兴趣:

hct116_rko_eps8_t <- hct116_rko[hct116_rko$ENSTID == "ENST00000281172"，] hct116_rko_vamp1 <- hct116_rko[hct116_rko$ENSGID == "ENSG00000139190"，] hct116_rko_ldhb <- hct116_rko[hct116_rko$gene == "LDHB"，] head(hct116_rko_ldhb)

# #杆pos sample_1 sample_2匹配rsID基因ENSGID # # 243 12 21788465 HCT116不匹配没有RKO LDHB ENSG00000111716 # # 244 12 21797029 HCT116匹配RKO rs1650294 LDHB ENSG00000111716 # # # # ENSTID REF ALT影响243 [ENST00000350669, ENST00000542765] G T修饰符# # 244 (ENST00000350669 ENST00000539782] G低点243 # # # #效应特性[3 _prime_utr_variant non_coding_exon_variant]记录# # 244 (sequence_feature, synonymous_variant) # #生物型DP螺旋,成绩单。HCT116 AD1。HCT116 AD2。HCT116 A1。HCT116## 243 [protein_coding,retained_intron] 1353 754 599 G ## 244 protein_coding 5157 2 5155 G ## A2.HCT116 FILTER.HCT116 warnings.HCT116 DP.RKO AD1.RKO AD2.RKO A1.RKO ## 243 T PASS 1347 1347 G ## 244 G PASS 4253 2 4251 G ## A2.RKO FILTER.RKO warnings.RKO ## 243 G PASS ## 244 G PASS WARNING_TRANSCRIPT_NO_STOP_CODON

这里我们看到LDHB基因的两个突变，一个不匹配的MODIFIER变体和一个匹配的LOW变体。这是一种检查数据集中已知突变的好方法。例如，HCT116细胞系应该具有KRAS^G13D突变。我们可以用已知来找这个rsID或位置:

hct116_rko_kras <- hct116_rko[hct116_rko$rsID == "rs112445441"，] hct116_rko_kras <- hct116_rko[hct116_rko$chr == 12 & hct116_rko$pos == 25398281，] nrow(hct116_rko_kras)

## [1] 0

我们在HCT116和雷电华比对中没有发现这个特殊的变体的原因是，它不存在于雷电华的谱图中，要么因为它不是雷电华的突变，要么因为对那个特定的位置没有可靠的变体调用。的compare_profiles函数在默认情况下只查看重叠位置，因此我们将不得不查看单个配置文件。seqCAT有两个功能来帮助:list_variants而且plot_variant_list：

的list_variants函数在每个提供的SNV剖面中寻找每个指定变体的基因型。首先，让我们创建一组有趣的变量，我们想仔细看看:

known_variables <- data.frame(chr = c(12,12,12,12)， pos = c(25358650, 21788465, 21797029,25398281)， gene = c("LYRM5"， "LDHB"， "LDHB"， "KRAS")， stringsAsFactors = FALSE) known_variables

## chr pos基因## 1 12 25358650 LYRM5 ## 2 12 21788465 LDHB ## 3 12 21797029 LDHB ## 4 12 25398281 KRAS

所需的最低信息是空空的而且pos列;任何附加列(例如基因(此处)将只是传递给以后使用。我们现在可以将这个集合(以及我们的SNV配置文件)传递给list_variants功能:

Variant_list <- list_variables (list(hct116, rko)， known_variables) Variant_list

## chr pos基因HCT116 RKO ## 1 12 21788465 LDHB G/T G/G ## 2 12 21797029 LDHB G/G G/G ## 3 12 25358650 LYRM5 A/T A/T ## 4 12 25398281 KRAS C/T 0

虽然这给了你一个关于你的特定变异的基因型的漂亮的小列表，我们也可以用plot_variant_list函数。方法的输出稍加修改后的版本list_variants功能:可仅包含基因型列。因此，我们需要创建行名来识别变量，如下所示:

#设置行名为"chr: pos(基因)" row.names(variant_list) <- paste0(variant_list$chr， ":"， variant_list$pos， " ("， variant_list$gene， ")") #删除"chr"， "pos"和"gene"列to_remove <- c("chr"， "pos"， "gene") variant_list <- variant_list[， !names(variant_list) %in% to_remove] #在一个grid中绘制基因型gentype_grid <- plot_variant_list(variant_list)

##警告:' gather_() '在tidyr 1.2.0中已弃用。请使用“gather()”代替。此警告每8小时显示一次。调用' lifecycle::last_lifecycle_warnings() '查看此警告是在哪里生成的。

##警告:' guides( = FALSE) '已弃用。请使用' guides( = ## "none") '代替。

genotype_grid

这给了我们一个简单的概览图像，哪些变异存在于哪些样本中，以及它们的精确基因型。我们可以看到KRAS^G13DHCT116中确实存在突变，但RKO中不存在。我们还可以看到RKO有一个纯合子G / GLDHB变异之一为基因型，而HCT116为杂合(T / G)是一样的。(请注意，此数据是使用GRCh37 / hg19组件进行对齐和分析的，所列位置对于其他组件可能不准确。)

5评估多重比较

许多科学研究不仅比较两个数据集，更不用说元研究和大规模比较了。因此，能够描述和评估多对一或多对多的情况也很重要seqCAT包提供了许多函数和过程。

5.1执行多个概要文件比较

这种分析的第一步是为要评估的每个样本创建和读取SNV配置文件(请参见第二节)．这里使用的示例数据有三个不同的样本:HCT116、HKE3和RKO。的compare_many函数是一个帮助函数，用于创建一对多或多对多SNV配置文件比较列表所有配置文件组合及其各自数据的整体相似性(用于下游分析):

#创建SNV profile profile <- list(hct116, hke3, rko) #执行多对多比较many <- compare_many(profiles) many[[1]]

# # sample_1 sample_2 variants_1 variants_2重叠匹配一致性# # 1 HCT116 HCT116 523 523 523 523 100.0 # # 2 HCT116 HKE3 493 493 493 475 96.3 # # 3 HCT116 259 259 259 181 69.9 # # 4 RKO HKE3 HKE3 1604 1604 1604 1604 100.0 # # 5 HKE3 RKO 299 299 299 204 68.2 # # 6 583 583 583 583 100.0 # # RKO RKO similarity_score # 95.4 # 99.1 # 1 # 2 # 3 # 68.7 # 99.7 # 4 # 5 # 67.2 # 6 # 99.2

我们可以在这里看到示例数据中所有三种细胞系组合的汇总统计信息。请注意,compare_many将只执行尚未执行的比较，即。如果已经执行了HCT116与RKO的比较，则不会执行RKO与HCT116的比较。还要注意它确实执行自比较(即。HCT116 vs. HCT116)，这对下游可视化很有用。

相似性存储在结果的第一个元素中(许多[[1]])，而每次比较的数据则存储在第二个(许多[[2]])．第二个元素本身也是一个列表，其下标对应于相似度对象的行名。例如，如果我们对HKE3的自比较感兴趣，我们可以看到它的行名是4．然后我们可以像这样访问它的数据:

Hke3_hke3 <- many[[2]][[4]] head(Hke3_hke3)

# #杆pos sample_1 sample_2匹配rsID基因ENSGID 12 # # 73805 HKE3 HKE3匹配rs375835195 rp11 - 598 f7.1 ENSG00000249054 # # 12 75190 HKE3 HKE3匹配rs374099059 AC215219.1 ENSG00000238823 12 # # 75308 HKE3 HKE3匹配rs370314061 AC215219.1 ENSG00000238823 12 # # 75337 HKE3 HKE3匹配rs147539459 AC215219.1 ENSG00000238823 12 # # 76316 HKE3 HKE3匹配rs370768066 AC215219.1 ENSG00000238823 # # 12 76349 HKE3 HKE3匹配rs71412503 AC215219.1 ENSG00000238823 # # ENSTID REF ALT的影响效果功能生物型# # 1 ENST00000504074 G C修饰符downstream_gene_variant成绩单lincRNA # # 2 ENST00000458783 G修饰符upstream_gene_variant成绩单microrna的# # 3 ENST00000458783 C T修饰符upstream_gene_variant成绩单microrna的# # 4 ENST00000458783 G修饰符upstream_gene_variant成绩单microrna的# # 5 ENST00000458783 T C修饰符upstream_gene_variant成绩单microrna的# # 6 ENST00000458783 G修饰符upstream_gene_variant成绩单microrna的# # DP。HKE3 AD1。HKE3 AD2。HKE3 A1。HKE3 A2。HKE3FILTER.HKE3 warnings.HKE3 ## 1 15 8 7 G C PASS ## 2 45 39 6 A G PASS ## 3 38 38 C C PASS ## 4 38 27 11 A G PASS ## 5 63 46 17 T C PASS ## 6 44 35 9 A G PASS

您还可以指定一个而且b相似度评分参数，如上所述。如果您只对一对多比较感兴趣(当您有一个“真实的”基线概要文件进行比较时)，您可以通过指定1 = 函数调用中的参数。如果你有一个COSMIC概要文件来比较，这是很有用的，例如:

Many_cosmic <- compare_many(profiles, one = cosmic) Many_cosmic [[1]]

## sample_1 sample_2 variants_1 variants_2重叠匹配## 1 COSMIC。HCT116宇宙。HCT1161111## 2 COSMIC.HCT116 HCT116 1 1 1 1 ## 3 COSMIC.HCT116 HKE3 1 1 1 1 ## 4 COSMIC.HCT116 RKO 1 1 0 0 ## concordance similarity_score ## 1 100 28.6 ## 2 100 28.6 ## 3 100 28.6 ## 4 NaN 16.7

重要的是要注意，执行许多这样的比较可能需要相当长的时间，这取决于概要文件的数量以及每个概要文件有多少数据。通过返回列表中的所有数据，您可以将每个比较保存到一个文件中，以便以后重新分析，而不必重新进行比较。

5.2可视化多重比较

可视化多个剖面比较的一个有用而直接的方法是使用热图。我们可以使用上面相似度对象中列出的汇总统计信息作为函数的输入plot_heatmap，它可以让你对所有的比较有一个简单的概述:

Heatmap <- plot_heatmap(many[[1]])热图

在这里，我们看到了三个细胞系的相似性分数的蓝色梯度，这是根据它们的相似性(使用cluster = TRUE，默认值)。您可以使用更改文本注释的大小注解_size = 5(默认值)或完全抑制它们(注释= FALSE)．你也可以压制传说(传说=假)，更改渐变的主颜色(color = "#1954A6"默认情况下)或更改梯度的限制(极限= c(0,50,90,100)默认情况下)。梯度极限的选择基于清晰度(相似度小于50分的比较，即。那些可能一开始就有太少重叠变体的基因被抑制)和前面提到的90%一致性阈值(Yu et al. 2015)．

这张热图清楚地表明，HCT116和HKE3确实非常相似，而雷电华与它们都不同。这些类型的热图可以为任意数量的样本创建，这将给出所有研究样本的全球相似性的一个很好的概述。这可用于评估数据集的质量(如。看看哪些比较重叠很少)，找到相似簇和潜在的意外异常值。如果一个样本在这样的热图中很突出，那就有理由进一步调查，使用上面描述的方法和更经典的测序数据评估(读取质量、适配器污染、校准、变体调用等等)。

引用

如果您正在使用seqCAT分析您的数据，请引用以下文章:

seqCAT: Bioconductor用于高通量变异分析的r包测序数据
Fasterius E.和Al-Khalili Szigyarto C.。
F1000Research(2018), 7:1466
https://f1000research.com/articles/7-1466

会话信息

## R版本4.2.0 RC (2022-04-21 r82226) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:[7] Biobase_2.57.0 MatrixGenerics_1.9.0 ## [9] matrixStats_0.62.0 GenomicRanges_1.49.0 ## [11] GenomeInfoDb_1.33.1 IRanges_2.31.0 ## [13] S4Vectors_0.35.0 BiocGenerics_0.43.0 ## [15] BiocStyle_2.25.0 ## ##通过命名空间加载(并且没有附加):## [10] colorspace_2.0-3 DBI_1.1.2 tidyselect_1.1.2 ## [13] prettyunits_1.1.1 bit_4.0.4 curl_4.3.2 ## [13] DelayedArray_0.23.0 labeling_0.4.2 rtracklayer_1.57.0 ## [22] bookdown_0.26 sass_0.4.1 scales_1.2.0 ## [25] rappdirs_0.3.3 string_1 .4.0 digest_0.6.29 ## [28] rmarkdown_2.14 pkgconfig_2.0.3 htmltools_0.5.2 ## [31][40] generics_0.1.2 jsonlite_1.8.0 BiocParallel_1.31.0 ## [43] dplyr_1.0.9 RCurl_1.98-1.6 magrittr_2.0.3 ## [46] GenomeInfoDbData_1.2.8 Matrix_1.4-1 munsell_0.5.0 ## [52] stringi_1.7.6 yaml_2.3.5 zlibbioc_1.43.0 ## [55] BiocFileCache_2.5.0 grid_4.2.0 blob_1.2.3 ## [58] parallel_2.0 crayon_1.5.1lattice_0.20-45 ## [61] genomicfeature_1 .49.1 hms_1.1.1 KEGGREST_1.37.0 ## [64] magick_2.7.3 knitr_1.39 pillar_1.7.0 ## [67] rjson_0.2.21 biomaRt_2.53.0 XML_3.99-0.9 ## [73] png_0.1-7 vctrs_0.4.1 gtable_0.3.0 ## [76] purrr_0.3.4 tidyr_1.2.0 assertthat_0.2.1 ## [79] cachem_1.0.6 ggplot2_3.3.5 xfun_0.30 ## [82] restfulr_0.0.13 tibble_3.1.6 GenomicAlignments_1.33.0 ## [85] AnnotationDbi_1.59.0 memoise_2.0.1 ellipsis_0.3.2

参考文献

Fasterius, Erik, Cinzia Raso, Susan Kennedy, Nora Rauch, Pär Lundin, Walter Kolch, Mathias Uhlén, Cristina Al-Khalili Szigyarto. 2017。一种用于细胞系认证的新型RNA测序数据分析方法《公共科学图书馆•综合》12 (2): e0171435。

法斯特里乌斯，埃里克，克里斯蒂娜·阿尔-卡利利·斯齐亚托，2018年。公共RNA测序数据的分析揭示了细胞系种群中遗传异质性的生物学后果。科学报告8(1)(1): 1 - 11。http://dx.doi.org/10.1038/s41598 - 018 - 29506 - 3 papers3: / /出版/ doi 10.1038 / s41598 - 018 - 29506 - 3．

福布斯，Simon A, David Beare, Prasad Gunasekaran, Kenric Leung, Nidhi Bindal, Harry Boutselakis，丁敏杰等，2015。“宇宙:探索人类癌症体细胞突变的世界知识。”核酸研究43(数据库问题):D805-11。http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed {\ &} id = 25355519 {\ &} retmode = ref {\ &} cmd = prlinks papers3: / /出版/ doi 10.1093 / nar / gku1075．

于，Mamie, Suresh K Selvaraj, May M Y Liang-Chu, Sahar Aghajani, Matthew Busse, Jean Yuan, Genee Lee，等。2015。“用于细胞系认证、注释和质量控制的资源。”自然520(7547): 307-11。

seqCAT:高通量测序细胞认证工具包

2022-05-01

包

1简介