lineagspot用户指南

Nikolaos Pechlivanis1 *， Maria Tsagiopoulou1，玛丽亚·克里斯蒂娜·马尼欧1， Anastasis Togkousidis1，埃Evangelia Mouchtaropoulou1， Taxiarchis Chassalevris2， Serafeim Chaintoutis2，金口斯多瓦斯2，玛丽亚·佩塔拉3.，玛格丽提斯·科斯托格鲁4，卡拉潘西奥斯4， Stamatia Laidou1， Elisavet Vlachonikola1， Anastasia Chatzidimitriou1阿吉斯·帕帕多普洛斯5， Nikolaos Papaioannou2阿纳诺斯蒂斯·阿吉里乌1和福提斯·e·波索波洛斯1

1希腊塞萨洛尼基研究与技术中心应用生物科学研究所
2希腊塞萨洛尼基亚里斯多德大学兽医学院
3.希腊塞萨洛尼基亚里斯多德大学土木工程系
4希腊塞萨洛尼基亚里斯多德大学化学系
5EYATH s.a.，塞萨洛尼基供水和污水处理公司，塞萨洛尼基，GR

＊nikosp41@certh.gr

2022年5月17日

包

lineagespot 1.1.1

1简介

lineagespot是一个用R语言编写的框架，旨在基于单个(或列表)变体文件(即变体调用格式)识别与SARS-CoV-2相关的突变。该方法有助于利用下一代测序技术检测废水样品中的SARS-CoV-2谱系，并试图推断SARS-CoV-2谱系的潜在分布。

2快速启动

2.1安装

lineagespot分布为Bioconductor包装和要求R(“4.1”版本)，可安装于任何操作系统凹口、Bioconductor(版本“3.14”)。

安装lineagespot包中输入以下命令R会话:

如果(!requireNamespace("BiocManager"， quiet = TRUE)) {install.packages("BiocManager")} BiocManager::install("lineagespot") ##检查您有一个有效的Bioconductor安装BiocManager::valid()

2．2原始数据分析

fastq文件示例通过zenodo．针对它们的预处理步骤，提供了生物信息学分析管道在这里．

2．3运行lineagespot

一次lineagespot安装成功后，可以按如下方式加载:

库(lineagespot)

lineagespot可以通过调用一个实现整个管道的函数来运行:

结果<- lineagspot (vcf_folder = system. exe)文件("extdata"， "vcf-files"， package = " lineagspot ")， gff3_path =系统。文件(“extdata”、“NC_045512.2_annot。Gff3 "， package = " lineagspot ")， ref_folder = system。文件("extdata"， "ref"， package = " lineagspot "))

2.4探索结果

该函数返回三个表:

一个包含输入VCF文件中所有变量的整体变量表，以及相关信息(基因，位置等)

#总表的头(结果variants.table美元)# >铬POS ID REF ALT DP AD_ref AD_alt # > 1: NC_045512.2 328 NC_045512.2; 328; ACA, ACCA ACA ACCA 36 34 1 # > 2: NC_045512.2 355 NC_045512.2; 355; C; T C T 42 41 1 # > 3: NC_045512.2 366 NC_045512.2; 366; C; T C T 42 28 14 # > 4: NC_045512.2 401 NC_045512.2; 401; CTTAA; CTAA CTTAA CTAA 37 35 2 # > 5: NC_045512.2 406 NC_045512.2; 406; AGA; AA AGA AA 35 34 1 # > 6: NC_045512.2 421 NC_045512.2; 421; C, C 35 34 1 # > Gene_Name Nt_alt AA_alt AF codon_num示例# > 1:ORF1a 64dupC Q22fs 0.02777778 21 SampleA_freebayes_ann #> 2: ORF1a 90C>T G30G 0.02380952 30 SampleA_freebayes_ann #> 3: ORF1a 101C>T S34F 0.33333333 34 SampleA_freebayes_ann #> 4: ORF1a 138delT D48fs 0.05405405 46 SampleA_freebayes_ann #> 5: ORF1a 142delG D48fs 0.02857143 47 SampleA_freebayes_ann #> 6: ORF1a 156C>A G52G 0.02857143 52 SampleA_freebayes_ann #>

一个表，在变体表和给定的沿袭报告之间识别出重叠/命中。

#血统'击中头部(结果lineage.hits美元)# > Gene_Name AA_alt样本DP AD_alt AF血统# > 1:M I82T SampleC_freebayes_ann 3984 2770 0.6952811 AY.1 # > 2: N D63G SampleC_freebayes_ann 2180 787 0.3610092 AY.1 # > 3: N R203M SampleC_freebayes_ann 4147 4125 0.9946950 AY.1 # > 4: N G215C SampleC_freebayes_ann 4477 2574 0.5749386 AY.1 # > 5: N D377Y SampleC_freebayes_ann 4271 1623 0.3800047 AY.1 # > 6: ORF1a A1306S SampleC_freebayes_ann AY.1 2202 1267 0.5753860

一个谱系报告表，其中计算每个谱系丰度的指标。为此，计算每个谱系的变异的平均AF(等位基因频率)，每个谱系的唯一变异的平均AF和谱系的唯一变异的非零最小AF。此外，给定一个AF阈值，每个样本中的变量数量连同结果的比例(变量的数量与沿袭规则的数量)一起计算。

# lineagespot报告头(results$ linepot .report) #> lineage sample meanAF meanAF_uniq minAF_uniq_nonzero N #> 1: ay1 SampleB_freebayes_ann 0.08333333 0.0000000 NA 1 #> 2: ay1 SampleB_freebayes_ann 0.08333333 0.0000000 NA 1 #> 3: ay1 SampleB_freebayes_ann 0.43162568 0.0000000 NA 6 #> 4: ay2 SampleB_freebayes_ann 0.07692308 0.0000000 NA 1 #> 6: ay2 SampleB_freebayes_ann 0.07692308 0.0000000 NA 1 #> 6: ay2 SampleB_freebayes_ann 0.07692308 0.0000000ay2 SampleC_freebayes_ann 0.33117826 0.1198191 0.1594335 4 #>谱系N.规则谱系道具。#> 1: 31 0.03225806 #> 2: 31 0.03225806 #> 3: 31 0.19354839 #> 4: 29 0.03448276 #> 5: 29 0.03448276 #> 6: 29 0.13793103

会话信息

这是的输出sessionInfo ()在编译此文档的系统上运行pandoc2.5：

#> R version 4.2.0 RC (2022-04-21 r82226) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.4 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# > #>附加基础包:#> [1]stats graphics grDevices utils datasets methods base #> #>其他附加包:#> [1]lineagespot_1.1.1 RefManageR_1.3.0 BiocStyle_2.25.0 #> #>通过命名空间加载(且未附加):# > [1] MatrixGenerics_1.9.0 Biobase_2.57.0 # > [3] httr_1.4.3 sass_0.4.1 # > [5] bit64_4.0.5 jsonlite_1.8.0 # > [7] bslib_0.3.1 assertthat_0.2.1 # > [9] BiocManager_1.30.17 stats4_4.2.0 # > [11] BiocFileCache_2.5.0 blob_1.2.3 # > [13] BSgenome_1.65.1 GenomeInfoDbData_1.2.8 # > [15] Rsamtools_2.13.2 yaml_2.3.5 # > [17] progress_1.2.2 pillar_1.7.0 # > [19] RSQLite_2.2.14 lattice_0.20-45 # > [21] glue_1.6.2 digest_0.6.29 # > [23] GenomicRanges_1.49.0 XVector_0.37.0 # > [25] htmltools_0.5.2 Matrix_1.4-1 # > [27]plyr_1.8.7 XML_3.99-0.9 #> [29] pkgconfig_2.0.3 biomaRt_2.53.2 #> [31] bookdown_0.26 zlibbioc_1.43.0 #> [33] purrr_0.3.4 BiocParallel_1.31.3 #> [35] tibble_3.1.7 KEGGREST_1.37.0 #> [37] generics_0.1.2 IRanges_2.31.0 #> [39] ellipsis_0.3.2 cachem_1.0.6 #> [41] SummarizedExperiment_1.27.1 GenomicFeatures_1.49.3 #> [43] BiocGenerics_0.43.0 cli_3.3.0 #> [45] magrittr_2.0.3 crayon_1.5.1 #> [47] memoise_2.0.1 evaluate_0.15 #> [49] fansi_1.0.3 xml2_1.3.3 #> [51] tools_4.2.0 data.table_1.14.2 #> [53] prettyunits_1.1.1 hms_1.1.1 #> [55] BiocIO_1.7.1 lifecycle_1.0.1 #> [57] matrixStats_0.62.0 stringr_1.4.0 #> [59] S4Vectors_0.35.0 DelayedArray_0.23.0 #> [61] AnnotationDbi_1.59.0 Biostrings_2.65.0 #> [63] compiler_4.2.0 jquerylib_0.1.4 #> [65] GenomeInfoDb_1.33.3 rlang_1.0.2 #> [67] grid_4.2.0 RCurl_1.98-1.6 #> [69] rjson_0.2.21 rappdirs_0.3.3 #> [71] VariantAnnotation_1.43.2 bitops_1.0-7 #> [73] rmarkdown_2.14 restfulr_0.0.13 #> [75] curl_4.3.2 DBI_1.1.2 #> [77] R6_2.5.1 GenomicAlignments_1.33.0 #> [79] lubridate_1.8.0 rtracklayer_1.57.0 #> [81] dplyr_1.0.9 knitr_1.39 #> [83] utf8_1.2.2 fastmap_1.1.0 #> [85] bit_4.0.4 filelock_1.0.2 #> [87] stringi_1.7.6 parallel_4.2.0 #> [89] Rcpp_1.0.8.3 vctrs_0.4.1 #> [91] png_0.1-7 tidyselect_1.1.2 #> [93] dbplyr_2.1.1 xfun_0.31