简介

系统发育谱记录了物种间基因的存在-缺失模式(Pellegrini等人，1999)。在一个给定的物种中存在一个正交正交物通常被认为是相应函数也被表示的证据(Lee et al.， 2007)。此外，如果两个基因在系统发育谱上一致，则可以表明它们在功能上相互作用(Pellegrini et al.， 1999)。因此，系统发育谱通常用于追踪跨物种和跨时间的功能蛋白簇或代谢网络。然而，orthology推断并非没有错误(Altenhoff et al.， 2016)， orthology不能保证两个基因的功能对等(Studer和Robinson-Rechavi, 2009)。因此，系统发育谱通常与附属信息层集成，如序列相似性、域结构相似性或基因本体术语描述的语义相似性。

有各种方法可以可视化这样的概要文件。然而，目前仍缺乏一套功能全面的工具来显示、筛选和分析由数百个基因和类群组成的多层系统发育图谱。为了弥补这一方法上的差距，我们在这里提出PhyloProfile,一个基于r的工具可视化，探索和分析多层系统发育概况．

如何安装PhyloProfile

安装PhyloProfile包Bioconductor使用BiocManager:

如果(!requireNamespace("BiocManager")) install.packages("BiocManager") BiocManager::install("PhyloProfile")

要从Bioconductor安装开发版本:

如果(!requireNamespace("BiocManager"， quiet = TRUE)) install.packages("BiocManager") BiocManager::install(version='devel') BiocManager::install("PhyloProfile")

来安装开发版本github：

如果(!requireNamespace("devtools"))安装。devtools::install_github("BIONF/PhyloProfile"， INSTALL_opts = c('——no-lock')， build_vignettes = TRUE)

或直接使用在线版本http://applbio.biologie.uni-frankfurt.de/phyloprofile/．

输入

系统发育剖面期望作为一个主要输入的系统发育分布的直系同源，或更一般的同源。该信息可以使用领域体系结构注释和最多两个额外注释层的数据进行补充。

除了以制表符分隔的文本和FASTA格式的序列外，该工具还接受orthoXML (Schmitt et al.， 2011)或OMA id列表(Altenhoff et al.， 2015)作为输入。

下面是一个用制表符分隔的输入的例子，它有两个额外的注释层:

geneID	ncbiID	orthoID	FAS_F	FAS_B
100136 at6656	ncbi36329	100136 at6656 \| PLAF7@36329@1\| Q8ILT8 \| 1	0.9875289	0.8427314
100136 at6656	ncbi319348	100136 at6656 \| POLVAN@319348@0\| 319348 _0:004132 \| 1	1.0000000	1.0000000
100136 at6656	ncbi208964	100136 at6656 \| PSEAE@208964@1\| Q9I5U5 \| 1	0.9971027	0.9971027
100136 at6656	ncbi418459	100136 at6656 \| PUCGT@418459@1\| E3KFA2 \| 1	0.9895679	0.8232540
100136 at6656	ncbi10116	100136 at6656 \| RAT@10116@1\| G3V7R8 \| 1	0.9996617	0.8541265
100136 at6656	ncbi284812	100136 at6656 \| SCHPO@284812@1\| Q9USU2 \| 1	0.9994874	0.9994874
100136 at6656	ncbi35128	100136 at6656 \| THAPS@35128@1\| B8C2N6 \| 1	0.9852370	0.7002961
100136 at6656	ncbi7070	100136 at6656 \| TRICA@7070@1\| D6X457 \| 1	1.0000000	1.0000000
100136 at6656	ncbi237631	100136 at6656 \| USTMA@237631@1\| A0A0D1C927 \| 1	0.9912998	0.6172244
100136 at6656	ncbi559292	100136 at6656 \| YEAST@559292@1\| P41819 \| 1	0.9978912	0.9978912

的维基附带的PhyloProfile提供了如何格式化输入数据的全面指南。

特性和功能

系统发育概况的交互式可视化和动态探索

我们提供了一个交互式可视化应用程序，连同探索系统发育概况的几个功能闪亮的（https://CRAN.R-project.org/package=shiny)．

图1:PhyloProfile的GUI

对于基于命令和可视化的分析，用户可以:

动态改变分析的分辨率通过将输入分类单元分解为更高的系统等级，从单个物种到门或整个王国。物种自动链接到NCBI分类学，并从用户指定的参考分类单元按递增的分类学距离排序。如果工作分类等级是输入分类单元中可以找到的最深的一个(例如品系或种)，则系统谱系可以表示协同正交(in-para - ogs)。
动态过滤数据通过对整合的信息应用不同的阈值(例如，在一个系统群体中，增加在该基因被认为存在于该群体之前必须拥有同源基因的物种的比例，以减少伪同源识别对进化解释的影响)。
动态修改配置文件的外观具有不同的情节配置选项。

PhyloProfile能够表示整个数据矩阵(主要配置文件)或只对基因和分类群的一个子集进行详细检查(定制的概要文件)，而无需修改输入数据。

此外，PhyloProfile的界面会根据用户的输入文件自动变化，例如两个附加信息层的名称或输入分类单元列表。

分析功能

系统发育概况提供了动态分析系统发育概况的几个功能。

概要集群

鉴定具有相似系统发育特征的蛋白质是鉴定和描述新型功能蛋白相互作用网络的关键步骤(Pellegrini, 2012)。系统发育谱提供了选择聚类基因根据他们的系统发育谱的距离。

一个绘制集群配置文件树的例子。参见getDendrogram获取更多细节。#'加载内置数据数据("finalProcessedProfile"， package="PhyloProfile") data <- finalProcessedProfile #'计算距离矩阵#' Check ?getDistanceMatrix profileType <- "binary" profiles <- getdataclu群集(data, profileType, var1AggregateBy, var2AggregateBy) method <- "mutualInformation" distanceMatrix <- getDistanceMatrix(profiles, method) #'创建集群配置树clusterMethod <- "complete" dd <- clusterDataDend(distanceMatrix，getDendrogram(dd) #> $type #>[1]“phylogram”#> #> $use.edge。长度#> [1]TRUE #> #> $节点。pos # > [1] 1 # > # > $ node.depth # > [1] 1 # > # > show.tip美元。$show.node. label #> [1] TRUE #> #>标签#> [1]FALSE#> #> $font #> [1] 3 #> #> $cex #> [1] 1 #> #> $adj #> [1] 0 #> #> $srt #> [1] 0 #> #> $no.margin #> [1] FALSE #> #> $label.offset #> [1] 0 #> #> $x.lim #> [1] 0.0000000 0.1135851 #> #> $y.lim #> [1] 1 4 #> #> $direction #> [1] "rightwards" #> #> $tip.color #> [1] "black" #> #> $Ntip #> [1] 4 #> #> $Nnode #> [1] 3 #> #> $root.time #> NULL #> #> $align.tip.label #> [1] FALSE

基因年龄估计

系统发育谱可以使用LCA算法从系统发育谱中估计基因的进化年龄(Capra et al.， 2013)。具体来说，显示某一特定基因的两个最远亲缘物种的最后一个共同祖先作为最小基因年龄。年龄估计在数据过滤后动态更新。

为内置数据集计算基因年龄的示例。参见?estimateGeneAge了解更多细节。#'加载内置数据数据("fullProcessedProfile"， package="PhyloProfile") #'选择工作等级和参考分类rankName <- "class" refTaxon <- "Mammalia" #'计数每个超分类中的分类taxonIDs <- levels(as.factor(fullProcessedProfile$ncbiID)) sortedInputTaxa <- sortInputTaxa(taxonIDs, rankName, refTaxon, NULL) taxaCount <- plyr:: Count (sortedInputTaxa，“supertaxon”)#'为2个额外变量设置截断值和当前物种的百分比#'在每个supertaxon var1Cutoff <- c(0,1) var2Cutoff <- c(0,1) percentCutoff <- c(0,1) #'估计基因年龄estimateGeneAge(fullProcessedProfile, taxaCount, rankName, refTaxon, var1Cutoff, var2Cutoff, percentCutoff) #> 1: 100136at6656 000000001 10_古细菌-真核生物#> 2:100265at6656 000000111 06_Opisthokonta #> 3: 101621at6656 000000001 10_古细菌-真核生物#> 4:103479at6656 000000011 08_真核生物

核心基因鉴定

系统基因组重建通常基于核心基因的集合(Daubin et al.， 2002)，即一个分类单元集合中所有基因组共享的基因。PhyloProfile允许用户选择一组分类群并返回其核心基因。

为内置数据集计算核心基因集的示例。参见getCoreGene获取更多细节。#'加载内置数据数据("fullProcessedProfile"， package="PhyloProfile") #'选择工作等级和一组感兴趣的分类群rankName <- "class" refTaxon <- "Mammalia" taxaCore <- c("Mammalia"， "Saccharomycetes"， "Insecta") #'在每个超分类单元var1Cutoff <- c(0.75, 1.0) var2Cutoff <- c(0.75, 1.0) percentCutoff <- c(0.0, 1.0) #'设置核心覆盖率所选集合中必须存在的类群的百分比coreCoverage <- 1 #'计数每个超类群中的类群taxonIDs <- levels(as.factor(fullProcessedProfile$ncbiID)) sortedInputTaxa <- sortInputTaxa(taxonIDs, rankName, refTaxon, NULL) taxaCount <- plyr:: Count (sortedInputTaxa， "supertaxon") #'识别核心基因getCoreGene(rankName, taxaCore, fullProcessedProfile, taxaCount, var1Cutoff, var2Cutoff, percentCutoff，coreCoverage) #> [1] "100136at6656" "100265at6656" "101621at6656" "103479at6656"

组比较

该函数用于比较两个分类单元组(内组和外组)之间附加变量的分布。用户可以定义内组，而不包括在内组中的所有分类单元都被用作外组。然后比较变量的值分布使用统计检验(Kolmogorov-Smirnov和Wilcoxon-Mann-Whitney)使用指定显著性水平(默认为0.05)．分布有显著差异的基因将显示在候选基因列表中，以便进一步分析。

#'加载内置数据data("mainLongRaw"， package="PhyloProfile") data <- mainLongRaw #'选择组内分类inGroup <- c("ncbi9606"， "ncbi10116") #'选择要比较的变量变量<- colnames(data)[4] #'比较组内分类和组外分类中所选变量compareTaxonGroups(data, inGroup, TRUE, variable, 0.05) #> 103479at6656 100136at6656 101621at6656 100265at6656 #> 0.1399542 0.4889198 0.5620258 0.5850421

分布分析

系统发育谱的解释和下游分析的结果可以在过滤数据后发生重大变化。为了帮助用户确定合理的过滤阈值，PhyloProfile提供了绘制由集成信息层产生的值的分布的功能。

绘制第一个附加变量分布的示例。更多细节参见?createVarDistPlot。#'加载内置数据数据("mainLongRaw"， package="PhyloProfile") #'处理分布分析数据#'参见?createVariableDistributionData data <- createVariableDistributionData(mainLongRaw, c(0,1)， c(0.5, 1)) head(data，6) # > orthoID var1 var2 # > 4596 100136 at6656 | PLAF7@36329@1 | Q8ILT8 | 1 0.9875289 - 0.8427314 # > 4597 100136 at6656 | POLVAN@319348@0 | 319348 _0:004132 | 1 1.0000000 - 1.0000000 # > 4598 100136 at6656 | PSEAE@208964@1 | Q9I5U5 | 1 0.9971027 - 0.9971027 # > 4599 100136 at6656 | PUCGT@418459@1 | E3KFA2 | 1 0.9895679 - 0.8232540 # > 4600 100136 at6656 | RAT@10116@1 | G3V7R8 | 1 0.9996617 - 0.8541265 # > 4602 100136 at6656 | SCHPO@284812@1 | Q9USU2 | 1 0.9994874 - 0.9994874 #的绘图和选择一个变量设置变量名varType < -“var1”varName <- "变量1" #'设置每个超级类群中当前物种百分比的截断值percentCutoff <- c(0,1) #'设置文本大小distTextSize <- 12 #'创建分布图createVarDistPlot(data, varName, varType, percentCutoff, distTextSize)

例子

处理原始输入

将原始输入(以不同格式)处理为包含系统发育剖面分析所需所有信息的数据框架。

如果输入数据是其他格式(例如fasta, OrthoXML，或wide matrix)， #'参见?createLongMatrix rawInput <- system. xml)。文件("extdata"， "test.main. "长”,包= " PhyloProfile”,mustWork = TRUE) #”设置工作等级和参考分类单元rankName < -“类”refTaxon < -“哺乳动物”#”输入一个用户定义的分类树来代替NCBI分类树(可选)taxaTree < -零号的选择如何聚合的额外变量当pocessing数据#”到supertaxon var1AggregateBy < -“max”var2AggregateBy < - - - - - -”意味着“#”设置达标比例的物种存在于supertaxon, #”允许公司直接同源,和附加变量的截止值percentCutoff <- c(0.0, 1.0) coorthologCutoffMax <- 10 var1Cutoff <- c(0.75, 1.0) var2Cutoff <- c(0.5, 1.0) #'选择附加变量之间的关系，如果它们与#'同源蛋白质或物种相关var1Relation <- "protein" var2Relation <- "species" #'识别输入基因的类别(通过映射制表符分隔的文件)groupByCat <- FALSE catDt <- NULL #'将输入文件处理为包含#'分类学信息和2个额外变量的聚合值profileData <- fromInputToProfile(rawInput, rankName, refTaxon, taxaTree, var1AggregateBy, var2AggregateBy，% cutoff, coorthologCutoffMax, var1Cutoff, var2Cutoff, var1Relation, var2Relation, groupByCat，catDt)头(profileData) # > geneID supertaxon supertaxonID var1 presSpec类别# > 40674 0.9996617 - 1 100136 at6656 100136 _mammalia猫# > 2 100136 at6656 100002 _aves 8782 0.9994875 - 1只猫# > 186623 1.0000000 100136 at6656 100136 _actinopteri 1只猫# > 4 100136 at6656 100136 _leptocardii 100136 1.0000000 1只猫# > 50557 1.0000000 100136 at6656 100136 _insecta 1只猫# > 6 100136 at6656 100136 _branchiopoda 6658 0.9887614 - 1只猫# > orthoID var2假字# > 1 100136 at6656 | RAT@10116@1 | G3V7R8 | 1 0.8674499 - 1> 2 100136at6656|CHICK@9031@1|E1C0U9|1 0.9994875 1 #> 3 100136at6656|DANRE@7955@1|B0S688|1 0.8277451 1 #> 4 100136at6656|BRAFL@7739@1 b| C3YM50|1 1.0000000 1 #> 5 100136at6656|HARPE@610380@0|610380_0:000737|1 0.9167176 1 #> 6 100136at6656|DAPMA@35525@0|35525_0:001fd7|1 0.7286372 1

创建剖面图

处理原始输入文件后生成系统发育剖面热图。

#'加载内置处理过的数据数据("superTaxonProfile"， package="PhyloProfile") #'创建用于绘制plotDf <- dataMainPlot(superTaxonProfile)的数据#'您也可以选择一个基因和/或分类单元的子集用于绘制:#' selectedTaxa <- c("Mammalia"， "Echinoidea"， "Gunneridae") #' selectedSeq <- "all" #' plotDf <- dataCustomizedPlot(#' superTaxonProfile, selectedTaxa, selectedSeq #') #'识别plot的参数plotParameter <- list("xAxis" = "taxa"， "var1ID" = "FAS_FW"， "var2ID" = "FAS_BW"， "midVar1" = 0.5， "midColorVar1" = "#FFFFFF"， "lowColorVar1" = "#FF8C00"， "lowColorVar1" = "# ff8c4 "， "midVar2" = "#FFFFFF"， "lowColorVar2" = "#FFFFFF"， "lowColorVar2" = "#CB4C4E"， "highColorVar2" = "#3E436F"，“paraColor”=“# 07 d000”、“xSize”= 8,“ySize”= 8,“legendSize”= 8,“mainLegend”=“顶级”、“dotZoom”= 0,“xAngle”= 60,“指南”= 0,“colorByGroup”= FALSE) #“生成概要图heatmapPlotting (plotDf plotParameter) #“突出感兴趣的基因和/或分类单元taxonHighlight < -“哺乳动物”rankName < -“类”geneHighlight < -“没有“#”然后用? highlightProfilePlot功能# highlightProfilePlot (# plotDf, plotParameter、taxonHighlight rankName, geneHighlight #)

创建蛋白质结构域结构图

为感兴趣的基因及其邻域生成域结构图。

#'加载蛋白质域架构文件domainFile <- system. xml文件。file("extdata"， "domainFiles/101621at6656. "domains"， package = "PhyloProfile"， mustWork = TRUE) #'识别感兴趣的基因及其ortholog partner的id seedID <- "101621at6656" orthoID <- "101621at6656|AGRPL@224129@0|224129_0:001955|1" info <- c(seedID, orthoID) #'从输入文件domainDf <- parseDomainInput(seedID, domainFile， "file") #'生成plot plot <- createArchiPlot(info, domainDf, 9,9) #>在RColorBrewer::brewer中警告。pal(n = n, name = "Set1"): n的最小值为3，返回所请求的3个不同级别的调色板

其他用例

获取输入文件中分类单元的指定等级的分类id和名称。

#'加载原始输入数据("mainLongRaw"， package="PhyloProfile") inputDf <- mainLongRaw #'设置工作等级和参考分类号rankName <- "phylum" #'获取输入数据的分类id和名称inputTaxonID <- getInputTaxaID(inputDf) inputTaxonName <- getInputTaxaName(rankName，inputTaxonID) head(inputTaxonName) #> ncbiID fullName rank parentID #> 1 1117蓝藻门1798711 #> 2 1224变形菌门2 #> 3 1224变形菌门2 #> 4 1224变形菌门2 #> 5 1297热球菌门1783272 #> 6 2836杆菌门2696291

获取输入分类单元列表的分类法信息，并根据分类法进行排序到参考分类单元的距离

#'获取输入概要数据的分类单元id和名称列表("mainLongRaw"， package="PhyloProfile") inputDf <- mainLongRaw rankName <- "phylum" inputTaxonID <- getInputTaxaID(inputDf) #'输入一个自定义的分类树，以取代NCBI分类树(可选)inputTaxaTree <- NULL #'根据选定的refTaxon refTaxon <- "Microsporidia" sortedTaxonomy <- sortInputTaxa(taxonid = inputTaxonID, rankName = rankName, refTaxon = refTaxon，taxaTree = inputTaxaTree) head(sortedTaxonomy[， c("ncbiID"， "fullName"， " supertaxonon "， "supertaxonID"，2 ncbi224324 aeolicus VF5 100006_Aquificae 200783门> 3 ncbi7165冈比亚按蚊100007_节肢动物6656门> 4 ncbi319348万氏多足动物100007_节肢动物6656门> 5 ncbi7260威氏果蝇100007_节肢动物6656门> 6 ncbi7227黑腹果蝇100007_节肢动物6656门

更多的例子吗?请告诉我们你想看什么;-)

如何引用

Ngoc-Vinh Tran, Bastian Greshake Tzovaras, Ingo Ebersberger，系统发育谱的动态可视化和探索，生物信息学，第34卷，第17期，2018年9月1日，第3041-3043页，https://doi.org/10.1093/bioinformatics/bty225

或者使用R CMD中的引用功能，以BibTex或LaTeX格式引用

要在出版物中引用PhyloProfile，请使用:#> #> Ngoc-Vinh Tran, Bastian Greshake Tzovaras, Ingo Ebersberger;#>系统发育概况:多层动态可视化和探索#>系统发育概况，生物信息学，第34卷，第17期，01 # b> 2018年9月，第3041-3043页# b> https://doi.org/10.1093/bioinformatics/bty225 #> #> LaTeX用户的BibTeX条目是#> #> @文章{，#>标题= {{PhyloProfile}:多层系统发育概况的动态可视化和探索}，#>作者= {Ngoc Vinh Tran and Bastian Greshake Tzovaras and Ingo Ebersberger}， #>期刊={生物信息学}，#>卷={34(17)}，#>页={3041-3043}，#>年= {2018}，#> url = {https://doi.org/10.1093/bioinformatics/bty225}， #>}

如何贡献

非常感谢你有兴趣为PhyloProfile

贡献PhyloProfile可以有很多种形式。如果你是

生物学家，你可以

报告错误在线版和独立版，
告诉我们你希望看到什么功能，
改进我们的文档在维基上在我们的自述，
讨论非编码问题

生物学家和热爱编码，你可以

修复现有bug，
或者添加新功能。我们希望看到的一些东西是:添加脚本，为进一步的骨科预测工具添加开箱即用的支持，将测试覆盖率从0%提高到更高的水平，或者基本上任何你有好的想法!
对非编码贡献者也是一样:)

不是生物学家，但会编码如果你能的话，那就太好了

在不同的环境中测试工具(Windows, Linux, Mac - Firefox, Chrome, IE, Safari，…)
建议一个更好的用户界面，
提高代码质量

如果你有任何问题，请不要犹豫与我们联系。你可以与我们联系tran@bio.uni-frankfurt.de

贡献者

SessionInfo ()

这是的输出sessionInfo ()在编译本文档的系统上:

#> R version 4.2.0 RC (2022-04-21 r82226) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.4 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# > #>附加基础包:#>字符(0)#> #>其他附加包:#> [1]PhyloProfile_1.11.4 #> #>通过命名空间加载(且未附加):#> [1] utils_4.2.0 nlme_1 -157 #> [3] bitops_1.0-7 fs_1.5.2 #> b[5] bit64_4.0.5 filelock_1.0.2 #> [9] GenomeInfoDb_1.33.3 tools_4.2.0 #> [11] bslib_0.3.1 utf8_1.2.2 #> [13] b6_2 .5.1 DT_0.23 #> [15] DBI_1.1.2 BiocGenerics_0.43.0 #> [17] colorspace_2.0-3 tidyselect_1.1.2 #> [19] gridextra_3 . 2.3 bit_4.0.4 #> b[21] curl_4.3.2 compiler_4.2.0 #> [23] cli_3.3.0 Biobase_2.57.1 #> [25] datasets_4.2.0 xml2_1.3.3 #> [27] shinyjs_2.1.0 labeling_0.4.2 #> [29]colorpicker_1.1.1 bookdown_0.26 #> [31] base_4.2.0 sass_0.4.1 #> b[33] scales_1.2.0 rappdirs_0.3.3 #> [35] string_1 .4.0 digest_0.6.29 #> [37] biodist_1 .69 shinyBS_0.61.1 #> [39] rmarkdown_2.14 XVector_0.37.0 #> [41] pkgconfig_2.0.3 htmltools_0.5.2 #> [43] highr_0.9 dbplyr_2.1.1 #> [45] fastmap_1.1.0 grDevices_4.2.0 #> [47] htmlwidgets_1.5.4 rlang_1.0.2 #> [49] RSQLite_2.2.14 shiny_1.7.1 #> b[51] farver_2.1.0 jquerylib_0.1.4 #> [53] generics_0.1.2 energy_1.7-10 #> [55] jsonlite_1.8.0dplyr_1.0.9 # > [57] rcurl_1.98 - 1.6 magrittr_2.0.3 # > [59] GenomeInfoDbData_1.2.8 Rcpp_1.0.8.3 # > [61] munsell_0.5.0 S4Vectors_0.35.0 # > [63] fansi_1.0.3 ape_5.6-2 # > [65] lifecycle_1.0.1 stringi_1.7.6 # > [67] yaml_2.3.5 zlibbioc_1.43.0 # > [69] plyr_1.8.7 BiocFileCache_2.5.0 # > [71] AnnotationHub_3.5.0 grid_4.2.0 # > [73] blob_1.2.3 shinyFiles_0.9.2 # > [75] parallel_4.2.0 promises_1.2.0.1 # > [77] ExperimentHub_2.5.0 crayon_1.5.1 # > [79] miniUI_0.1.1.1 methods_4.2.0 # > [81] lattice_0.20-45Biostrings_2.65.0 #> [83] KEGGREST_1.37.0 knitr_1.39 #> [85] pillar_1.7.0 boot_1.3-28 #> [87] stats4_4.2.0 glue_1.6.2 #> [89] BiocVersion_3.16.0 evaluate_0.15 #> [91] data.table_1.14.2 BiocManager_1.30.18 #> [93] png_0.1-7 vctrs_0.4.1 #> [95] httpuv_1.6.5 graphics_4.2.0 #> [97] gtable_0.3.0 purrr_0.3.4 #> [99] assertthat_0.2.1 cachem_1.0.6 #> [101] ggplot2_3.3.6 xfun_0.31 #> [107] tibble_3.1.7 stats_4.2.0 #> [109]AnnotationDbi_1.59.1 memoise_2.0.1 #> [111] IRanges_2.31.0 ellipsis_0.3.2 #> [113] interactiveDisplayBase_1.35.0 BiocStyle_2.25.0

参考文献

阿德巴利，O.和朱林，I.B. (2017) aquium:分类聚类基因组树上基于域的蛋白质发生比较探索的web应用程序。蛋白质，85,72 -77。
Altenhoff, A.M.等人(2016)寻求矫形医师的标准化基准。物理学报，13,425- 429。
Altenhoff, A.M.等(2015)2015年的OMA orthology数据库:功能预测，更好的植物支持，同向视图和其他改进。中国生物工程学报，43,D240-249。
Capra, J.A. et al.(2013)我的基因有多大岁数?热内，29,659-668。Daubin, V.， Gouy, M.和Perriere, G.(2002)细菌系统发育的系统基因组学方法:共享共同历史的基因核心的证据。基因组研究，12,1080-1090。
Huerta-Cepas, J.， Serra, F.和Bork, P. (2016) ETE 3:系统基因组数据的重建、分析和可视化。生物化学学报，33,1635-1638。
Koestler, T.， Haeseler, A.v.和Ebersberger, I.(2010)事实:具有相似特征结构的蛋白质之间的功能注释转移。BMC生物信息学，11,417。
Lee, D.， Redfern, O.和Orengo, C.(2007)从序列和结构预测蛋白质功能。中国生物医学工程学报，8,995 -1005。
Moore, A.D.等人(2014)DoMosaics:用于蛋白质结构域排列可视化和结构域中心分析的软件。生物信息学，30,282-283。
佩莱格里尼，M.(2012)使用系统发育谱预测功能关系。方法Mol生物学，804,167-177。
佩莱格里尼等人(1999)通过比较基因组分析分配蛋白质功能:蛋白质系统发育谱。中国科学:自然科学，39(4):366 - 366。
Schmitt, T. et al.(2011)致编辑的信:SeqXML和OrthoXML:序列和正交信息的标准。简短。Bioinform。，12, 485-488.
Studer, R.A.和Robinson-Rechavi, M.(2009)我们能有多大的信心认为正交线是相似的，而平行线是不同的?全球趋势，25,210-216。

PhyloProfile

2022-05-26

摘要

包

简介