PhyloProfile 1.11.4
系统发育谱记录了物种间基因的存在-缺失模式(Pellegrini等人,1999)。在一个给定的物种中存在一个正交正交物通常被认为是相应函数也被表示的证据(Lee et al., 2007)。此外,如果两个基因在系统发育谱上一致,则可以表明它们在功能上相互作用(Pellegrini et al., 1999)。因此,系统发育谱通常用于追踪跨物种和跨时间的功能蛋白簇或代谢网络。然而,orthology推断并非没有错误(Altenhoff et al., 2016), orthology不能保证两个基因的功能对等(Studer和Robinson-Rechavi, 2009)。因此,系统发育谱通常与附属信息层集成,如序列相似性、域结构相似性或基因本体术语描述的语义相似性。
有各种方法可以可视化这样的概要文件。然而,目前仍缺乏一套功能全面的工具来显示、筛选和分析由数百个基因和类群组成的多层系统发育图谱。为了弥补这一方法上的差距,我们在这里提出PhyloProfile,一个基于r的工具可视化,探索和分析多层系统发育概况.
安装PhyloProfile包Bioconductor使用BiocManager:
如果(!requireNamespace("BiocManager")) install.packages("BiocManager") BiocManager::install("PhyloProfile")
要从Bioconductor安装开发版本:
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager") BiocManager::install(version='devel') BiocManager::install("PhyloProfile")
来安装开发版本github:
如果(!requireNamespace("devtools"))安装。devtools::install_github("BIONF/PhyloProfile", INSTALL_opts = c('——no-lock'), build_vignettes = TRUE)
或直接使用在线版本http://applbio.biologie.uni-frankfurt.de/phyloprofile/.
系统发育剖面期望作为一个主要输入的系统发育分布的直系同源,或更一般的同源。该信息可以使用领域体系结构注释和最多两个额外注释层的数据进行补充。
除了以制表符分隔的文本和FASTA格式的序列外,该工具还接受orthoXML (Schmitt et al., 2011)或OMA id列表(Altenhoff et al., 2015)作为输入。
下面是一个用制表符分隔的输入的例子,它有两个额外的注释层:
geneID | ncbiID | orthoID | FAS_F | FAS_B |
---|---|---|---|---|
100136 at6656 | ncbi36329 | 100136 at6656 | PLAF7@36329@1| Q8ILT8 | 1 | 0.9875289 | 0.8427314 |
100136 at6656 | ncbi319348 | 100136 at6656 | POLVAN@319348@0| 319348 _0:004132 | 1 | 1.0000000 | 1.0000000 |
100136 at6656 | ncbi208964 | 100136 at6656 | PSEAE@208964@1| Q9I5U5 | 1 | 0.9971027 | 0.9971027 |
100136 at6656 | ncbi418459 | 100136 at6656 | PUCGT@418459@1| E3KFA2 | 1 | 0.9895679 | 0.8232540 |
100136 at6656 | ncbi10116 | 100136 at6656 | RAT@10116@1| G3V7R8 | 1 | 0.9996617 | 0.8541265 |
100136 at6656 | ncbi284812 | 100136 at6656 | SCHPO@284812@1| Q9USU2 | 1 | 0.9994874 | 0.9994874 |
100136 at6656 | ncbi35128 | 100136 at6656 | THAPS@35128@1| B8C2N6 | 1 | 0.9852370 | 0.7002961 |
100136 at6656 | ncbi7070 | 100136 at6656 | TRICA@7070@1| D6X457 | 1 | 1.0000000 | 1.0000000 |
100136 at6656 | ncbi237631 | 100136 at6656 | USTMA@237631@1| A0A0D1C927 | 1 | 0.9912998 | 0.6172244 |
100136 at6656 | ncbi559292 | 100136 at6656 | YEAST@559292@1| P41819 | 1 | 0.9978912 | 0.9978912 |
的维基附带的PhyloProfile提供了如何格式化输入数据的全面指南。
我们提供了一个交互式可视化应用程序,连同探索系统发育概况的几个功能闪亮的(https://CRAN.R-project.org/package=shiny).
图1:PhyloProfile的GUI
对于基于命令和可视化的分析,用户可以:
PhyloProfile能够表示整个数据矩阵(主要配置文件
)或只对基因和分类群的一个子集进行详细检查(定制的概要文件
),而无需修改输入数据。
此外,PhyloProfile的界面会根据用户的输入文件自动变化,例如两个附加信息层的名称或输入分类单元列表。
系统发育概况提供了动态分析系统发育概况的几个功能。
鉴定具有相似系统发育特征的蛋白质是鉴定和描述新型功能蛋白相互作用网络的关键步骤(Pellegrini, 2012)。系统发育谱提供了选择聚类基因根据他们的系统发育谱的距离。
一个绘制集群配置文件树的例子。参见getDendrogram获取更多细节。#'加载内置数据数据("finalProcessedProfile", package="PhyloProfile") data <- finalProcessedProfile #'计算距离矩阵#' Check ?getDistanceMatrix profileType <- "binary" profiles <- getdataclu群集(data, profileType, var1AggregateBy, var2AggregateBy) method <- "mutualInformation" distanceMatrix <- getDistanceMatrix(profiles, method) #'创建集群配置树clusterMethod <- "complete" dd <- clusterDataDend(distanceMatrix,getDendrogram(dd) #> $type #>[1]“phylogram”#> #> $use.edge。长度#> [1]TRUE #> #> $节点。pos # > [1] 1 # > # > $ node.depth # > [1] 1 # > # > show.tip美元。$show.node. label #> [1] TRUE #> #>标签#> [1]FALSE#> #> $font #> [1] 3 #> #> $cex #> [1] 1 #> #> $adj #> [1] 0 #> #> $srt #> [1] 0 #> #> $no.margin #> [1] FALSE #> #> $label.offset #> [1] 0 #> #> $x.lim #> [1] 0.0000000 0.1135851 #> #> $y.lim #> [1] 1 4 #> #> $direction #> [1] "rightwards" #> #> $tip.color #> [1] "black" #> #> $Ntip #> [1] 4 #> #> $Nnode #> [1] 3 #> #> $root.time #> NULL #> #> $align.tip.label #> [1] FALSE
系统发育谱可以使用LCA算法从系统发育谱中估计基因的进化年龄(Capra et al., 2013)。具体来说,显示某一特定基因的两个最远亲缘物种的最后一个共同祖先作为最小基因年龄。年龄估计在数据过滤后动态更新。
为内置数据集计算基因年龄的示例。参见?estimateGeneAge了解更多细节。#'加载内置数据数据("fullProcessedProfile", package="PhyloProfile") #'选择工作等级和参考分类rankName <- "class" refTaxon <- "Mammalia" #'计数每个超分类中的分类taxonIDs <- levels(as.factor(fullProcessedProfile$ncbiID)) sortedInputTaxa <- sortInputTaxa(taxonIDs, rankName, refTaxon, NULL) taxaCount <- plyr:: Count (sortedInputTaxa,“supertaxon”)#'为2个额外变量设置截断值和当前物种的百分比#'在每个supertaxon var1Cutoff <- c(0,1) var2Cutoff <- c(0,1) percentCutoff <- c(0,1) #'估计基因年龄estimateGeneAge(fullProcessedProfile, taxaCount, rankName, refTaxon, var1Cutoff, var2Cutoff, percentCutoff) #> 1: 100136at6656 000000001 10_古细菌-真核生物#> 2:100265at6656 000000111 06_Opisthokonta #> 3: 101621at6656 000000001 10_古细菌-真核生物#> 4:103479at6656 000000011 08_真核生物
系统基因组重建通常基于核心基因的集合(Daubin et al., 2002),即一个分类单元集合中所有基因组共享的基因。PhyloProfile允许用户选择一组分类群并返回其核心基因。
为内置数据集计算核心基因集的示例。参见getCoreGene获取更多细节。#'加载内置数据数据("fullProcessedProfile", package="PhyloProfile") #'选择工作等级和一组感兴趣的分类群rankName <- "class" refTaxon <- "Mammalia" taxaCore <- c("Mammalia", "Saccharomycetes", "Insecta") #'在每个超分类单元var1Cutoff <- c(0.75, 1.0) var2Cutoff <- c(0.75, 1.0) percentCutoff <- c(0.0, 1.0) #'设置核心覆盖率所选集合中必须存在的类群的百分比coreCoverage <- 1 #'计数每个超类群中的类群taxonIDs <- levels(as.factor(fullProcessedProfile$ncbiID)) sortedInputTaxa <- sortInputTaxa(taxonIDs, rankName, refTaxon, NULL) taxaCount <- plyr:: Count (sortedInputTaxa, "supertaxon") #'识别核心基因getCoreGene(rankName, taxaCore, fullProcessedProfile, taxaCount, var1Cutoff, var2Cutoff, percentCutoff,coreCoverage) #> [1] "100136at6656" "100265at6656" "101621at6656" "103479at6656"
该函数用于比较两个分类单元组(内组和外组)之间附加变量的分布。用户可以定义内组,而不包括在内组中的所有分类单元都被用作外组。然后比较变量的值分布使用统计检验(Kolmogorov-Smirnov和Wilcoxon-Mann-Whitney)使用指定显著性水平(默认为0.05).分布有显著差异的基因将显示在候选基因列表中,以便进一步分析。
#'加载内置数据data("mainLongRaw", package="PhyloProfile") data <- mainLongRaw #'选择组内分类inGroup <- c("ncbi9606", "ncbi10116") #'选择要比较的变量变量<- colnames(data)[4] #'比较组内分类和组外分类中所选变量compareTaxonGroups(data, inGroup, TRUE, variable, 0.05) #> 103479at6656 100136at6656 101621at6656 100265at6656 #> 0.1399542 0.4889198 0.5620258 0.5850421
系统发育谱的解释和下游分析的结果可以在过滤数据后发生重大变化。为了帮助用户确定合理的过滤阈值,PhyloProfile提供了绘制由集成信息层产生的值的分布的功能。
绘制第一个附加变量分布的示例。更多细节参见?createVarDistPlot。#'加载内置数据数据("mainLongRaw", package="PhyloProfile") #'处理分布分析数据#'参见?createVariableDistributionData data <- createVariableDistributionData(mainLongRaw, c(0,1), c(0.5, 1)) head(data,6) # > orthoID var1 var2 # > 4596 100136 at6656 | PLAF7@36329@1 | Q8ILT8 | 1 0.9875289 - 0.8427314 # > 4597 100136 at6656 | POLVAN@319348@0 | 319348 _0:004132 | 1 1.0000000 - 1.0000000 # > 4598 100136 at6656 | PSEAE@208964@1 | Q9I5U5 | 1 0.9971027 - 0.9971027 # > 4599 100136 at6656 | PUCGT@418459@1 | E3KFA2 | 1 0.9895679 - 0.8232540 # > 4600 100136 at6656 | RAT@10116@1 | G3V7R8 | 1 0.9996617 - 0.8541265 # > 4602 100136 at6656 | SCHPO@284812@1 | Q9USU2 | 1 0.9994874 - 0.9994874 #的绘图和选择一个变量设置变量名varType < -“var1”varName <- "变量1" #'设置每个超级类群中当前物种百分比的截断值percentCutoff <- c(0,1) #'设置文本大小distTextSize <- 12 #'创建分布图createVarDistPlot(data, varName, varType, percentCutoff, distTextSize)
将原始输入(以不同格式)处理为包含系统发育剖面分析所需所有信息的数据框架。
如果输入数据是其他格式(例如fasta, OrthoXML,或wide matrix), #'参见?createLongMatrix rawInput <- system. xml)。文件("extdata", "test.main. "长”,包= " PhyloProfile”,mustWork = TRUE) #”设置工作等级和参考分类单元rankName < -“类”refTaxon < -“哺乳动物”#”输入一个用户定义的分类树来代替NCBI分类树(可选)taxaTree < -零号的选择如何聚合的额外变量当pocessing数据#”到supertaxon var1AggregateBy < -“max”var2AggregateBy < - - - - - -”意味着“#”设置达标比例的物种存在于supertaxon, #”允许公司直接同源,和附加变量的截止值percentCutoff <- c(0.0, 1.0) coorthologCutoffMax <- 10 var1Cutoff <- c(0.75, 1.0) var2Cutoff <- c(0.5, 1.0) #'选择附加变量之间的关系,如果它们与#'同源蛋白质或物种相关var1Relation <- "protein" var2Relation <- "species" #'识别输入基因的类别(通过映射制表符分隔的文件)groupByCat <- FALSE catDt <- NULL #'将输入文件处理为包含#'分类学信息和2个额外变量的聚合值profileData <- fromInputToProfile(rawInput, rankName, refTaxon, taxaTree, var1AggregateBy, var2AggregateBy,% cutoff, coorthologCutoffMax, var1Cutoff, var2Cutoff, var1Relation, var2Relation, groupByCat,catDt)头(profileData) # > geneID supertaxon supertaxonID var1 presSpec类别# > 40674 0.9996617 - 1 100136 at6656 100136 _mammalia猫# > 2 100136 at6656 100002 _aves 8782 0.9994875 - 1只猫# > 186623 1.0000000 100136 at6656 100136 _actinopteri 1只猫# > 4 100136 at6656 100136 _leptocardii 100136 1.0000000 1只猫# > 50557 1.0000000 100136 at6656 100136 _insecta 1只猫# > 6 100136 at6656 100136 _branchiopoda 6658 0.9887614 - 1只猫# > orthoID var2假字# > 1 100136 at6656 | RAT@10116@1 | G3V7R8 | 1 0.8674499 - 1> 2 100136at6656|CHICK@9031@1|E1C0U9|1 0.9994875 1 #> 3 100136at6656|DANRE@7955@1|B0S688|1 0.8277451 1 #> 4 100136at6656|BRAFL@7739@1 b| C3YM50|1 1.0000000 1 #> 5 100136at6656|HARPE@610380@0|610380_0:000737|1 0.9167176 1 #> 6 100136at6656|DAPMA@35525@0|35525_0:001fd7|1 0.7286372 1
处理原始输入文件后生成系统发育剖面热图。
#'加载内置处理过的数据数据("superTaxonProfile", package="PhyloProfile") #'创建用于绘制plotDf <- dataMainPlot(superTaxonProfile)的数据#'您也可以选择一个基因和/或分类单元的子集用于绘制:#' selectedTaxa <- c("Mammalia", "Echinoidea", "Gunneridae") #' selectedSeq <- "all" #' plotDf <- dataCustomizedPlot(#' superTaxonProfile, selectedTaxa, selectedSeq #') #'识别plot的参数plotParameter <- list("xAxis" = "taxa", "var1ID" = "FAS_FW", "var2ID" = "FAS_BW", "midVar1" = 0.5, "midColorVar1" = "#FFFFFF", "lowColorVar1" = "#FF8C00", "lowColorVar1" = "# ff8c4 ", "midVar2" = "#FFFFFF", "lowColorVar2" = "#FFFFFF", "lowColorVar2" = "#CB4C4E", "highColorVar2" = "#3E436F",“paraColor”=“# 07 d000”、“xSize”= 8,“ySize”= 8,“legendSize”= 8,“mainLegend”=“顶级”、“dotZoom”= 0,“xAngle”= 60,“指南”= 0,“colorByGroup”= FALSE) #“生成概要图heatmapPlotting (plotDf plotParameter) #“突出感兴趣的基因和/或分类单元taxonHighlight < -“哺乳动物”rankName < -“类”geneHighlight < -“没有“#”然后用? highlightProfilePlot功能# highlightProfilePlot (# plotDf, plotParameter、taxonHighlight rankName, geneHighlight #)
为感兴趣的基因及其邻域生成域结构图。
#'加载蛋白质域架构文件domainFile <- system. xml文件。file("extdata", "domainFiles/101621at6656. "domains", package = "PhyloProfile", mustWork = TRUE) #'识别感兴趣的基因及其ortholog partner的id seedID <- "101621at6656" orthoID <- "101621at6656|AGRPL@224129@0|224129_0:001955|1" info <- c(seedID, orthoID) #'从输入文件domainDf <- parseDomainInput(seedID, domainFile, "file") #'生成plot plot <- createArchiPlot(info, domainDf, 9,9) #>在RColorBrewer::brewer中警告。pal(n = n, name = "Set1"): n的最小值为3,返回所请求的3个不同级别的调色板
获取输入文件中分类单元的指定等级的分类id和名称。
#'加载原始输入数据("mainLongRaw", package="PhyloProfile") inputDf <- mainLongRaw #'设置工作等级和参考分类号rankName <- "phylum" #'获取输入数据的分类id和名称inputTaxonID <- getInputTaxaID(inputDf) inputTaxonName <- getInputTaxaName(rankName,inputTaxonID) head(inputTaxonName) #> ncbiID fullName rank parentID #> 1 1117蓝藻门1798711 #> 2 1224变形菌门2 #> 3 1224变形菌门2 #> 4 1224变形菌门2 #> 5 1297热球菌门1783272 #> 6 2836杆菌门2696291
获取输入分类单元列表的分类法信息,并根据分类法进行排序到参考分类单元的距离
#'获取输入概要数据的分类单元id和名称列表("mainLongRaw", package="PhyloProfile") inputDf <- mainLongRaw rankName <- "phylum" inputTaxonID <- getInputTaxaID(inputDf) #'输入一个自定义的分类树,以取代NCBI分类树(可选)inputTaxaTree <- NULL #'根据选定的refTaxon refTaxon <- "Microsporidia" sortedTaxonomy <- sortInputTaxa(taxonid = inputTaxonID, rankName = rankName, refTaxon = refTaxon,taxaTree = inputTaxaTree) head(sortedTaxonomy[, c("ncbiID", "fullName", " supertaxonon ", "supertaxonID",2 ncbi224324 aeolicus VF5 100006_Aquificae 200783门> 3 ncbi7165冈比亚按蚊100007_节肢动物6656门> 4 ncbi319348万氏多足动物100007_节肢动物6656门> 5 ncbi7260威氏果蝇100007_节肢动物6656门> 6 ncbi7227黑腹果蝇100007_节肢动物6656门
更多的例子吗?请告诉我们你想看什么;-)
Ngoc-Vinh Tran, Bastian Greshake Tzovaras, Ingo Ebersberger,系统发育谱的动态可视化和探索,生物信息学,第34卷,第17期,2018年9月1日,第3041-3043页,https://doi.org/10.1093/bioinformatics/bty225
或者使用R CMD中的引用功能,以BibTex或LaTeX格式引用
要在出版物中引用PhyloProfile,请使用:#> #> Ngoc-Vinh Tran, Bastian Greshake Tzovaras, Ingo Ebersberger;#>系统发育概况:多层动态可视化和探索#>系统发育概况,生物信息学,第34卷,第17期,01 # b> 2018年9月,第3041-3043页# b> https://doi.org/10.1093/bioinformatics/bty225 #> #> LaTeX用户的BibTeX条目是#> #> @文章{,#>标题= {{PhyloProfile}:多层系统发育概况的动态可视化和探索},#>作者= {Ngoc Vinh Tran and Bastian Greshake Tzovaras and Ingo Ebersberger}, #>期刊={生物信息学},#>卷={34(17)},#>页={3041-3043},#>年= {2018},#> url = {https://doi.org/10.1093/bioinformatics/bty225}, #>}
非常感谢你有兴趣为PhyloProfile
贡献PhyloProfile可以有很多种形式。如果你是
生物学家,你可以
生物学家和热爱编码,你可以
不是生物学家,但会编码如果你能的话,那就太好了
如果你有任何问题,请不要犹豫与我们联系。你可以与我们联系tran@bio.uni-frankfurt.de
这是的输出sessionInfo ()
在编译本文档的系统上:
#> R version 4.2.0 RC (2022-04-21 r82226) #>平台:x86_64-pc-linux-gnu (64-bit) #>运行在:Ubuntu 20.04.4 LTS #> #>矩阵产品:默认#> BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。所以#> LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。so #> #> locale: #> [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# > [3] LC_TIME=en_GB LC_COLLATE= c# > [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 #> [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# > [9] LC_ADDRESS=C LC_TELEPHONE= c# > [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION= c# > #>附加基础包:#>字符(0)#> #>其他附加包:#> [1]PhyloProfile_1.11.4 #> #>通过命名空间加载(且未附加):#> [1] utils_4.2.0 nlme_1 -157 #> [3] bitops_1.0-7 fs_1.5.2 #> b[5] bit64_4.0.5 filelock_1.0.2 #> [9] GenomeInfoDb_1.33.3 tools_4.2.0 #> [11] bslib_0.3.1 utf8_1.2.2 #> [13] b6_2 .5.1 DT_0.23 #> [15] DBI_1.1.2 BiocGenerics_0.43.0 #> [17] colorspace_2.0-3 tidyselect_1.1.2 #> [19] gridextra_3 . 2.3 bit_4.0.4 #> b[21] curl_4.3.2 compiler_4.2.0 #> [23] cli_3.3.0 Biobase_2.57.1 #> [25] datasets_4.2.0 xml2_1.3.3 #> [27] shinyjs_2.1.0 labeling_0.4.2 #> [29]colorpicker_1.1.1 bookdown_0.26 #> [31] base_4.2.0 sass_0.4.1 #> b[33] scales_1.2.0 rappdirs_0.3.3 #> [35] string_1 .4.0 digest_0.6.29 #> [37] biodist_1 .69 shinyBS_0.61.1 #> [39] rmarkdown_2.14 XVector_0.37.0 #> [41] pkgconfig_2.0.3 htmltools_0.5.2 #> [43] highr_0.9 dbplyr_2.1.1 #> [45] fastmap_1.1.0 grDevices_4.2.0 #> [47] htmlwidgets_1.5.4 rlang_1.0.2 #> [49] RSQLite_2.2.14 shiny_1.7.1 #> b[51] farver_2.1.0 jquerylib_0.1.4 #> [53] generics_0.1.2 energy_1.7-10 #> [55] jsonlite_1.8.0dplyr_1.0.9 # > [57] rcurl_1.98 - 1.6 magrittr_2.0.3 # > [59] GenomeInfoDbData_1.2.8 Rcpp_1.0.8.3 # > [61] munsell_0.5.0 S4Vectors_0.35.0 # > [63] fansi_1.0.3 ape_5.6-2 # > [65] lifecycle_1.0.1 stringi_1.7.6 # > [67] yaml_2.3.5 zlibbioc_1.43.0 # > [69] plyr_1.8.7 BiocFileCache_2.5.0 # > [71] AnnotationHub_3.5.0 grid_4.2.0 # > [73] blob_1.2.3 shinyFiles_0.9.2 # > [75] parallel_4.2.0 promises_1.2.0.1 # > [77] ExperimentHub_2.5.0 crayon_1.5.1 # > [79] miniUI_0.1.1.1 methods_4.2.0 # > [81] lattice_0.20-45Biostrings_2.65.0 #> [83] KEGGREST_1.37.0 knitr_1.39 #> [85] pillar_1.7.0 boot_1.3-28 #> [87] stats4_4.2.0 glue_1.6.2 #> [89] BiocVersion_3.16.0 evaluate_0.15 #> [91] data.table_1.14.2 BiocManager_1.30.18 #> [93] png_0.1-7 vctrs_0.4.1 #> [95] httpuv_1.6.5 graphics_4.2.0 #> [97] gtable_0.3.0 purrr_0.3.4 #> [99] assertthat_0.2.1 cachem_1.0.6 #> [101] ggplot2_3.3.6 xfun_0.31 #> [107] tibble_3.1.7 stats_4.2.0 #> [109]AnnotationDbi_1.59.1 memoise_2.0.1 #> [111] IRanges_2.31.0 ellipsis_0.3.2 #> [113] interactiveDisplayBase_1.35.0 BiocStyle_2.25.0
阿德巴利,O.和朱林,I.B. (2017) aquium:分类聚类基因组树上基于域的蛋白质发生比较探索的web应用程序。蛋白质,85,72 -77。
Altenhoff, A.M.等人(2016)寻求矫形医师的标准化基准。物理学报,13,425- 429。
Altenhoff, A.M.等(2015)2015年的OMA orthology数据库:功能预测,更好的植物支持,同向视图和其他改进。中国生物工程学报,43,D240-249。
Capra, J.A. et al.(2013)我的基因有多大岁数?热内,29,659-668。Daubin, V., Gouy, M.和Perriere, G.(2002)细菌系统发育的系统基因组学方法:共享共同历史的基因核心的证据。基因组研究,12,1080-1090。
Huerta-Cepas, J., Serra, F.和Bork, P. (2016) ETE 3:系统基因组数据的重建、分析和可视化。生物化学学报,33,1635-1638。
Koestler, T., Haeseler, A.v.和Ebersberger, I.(2010)事实:具有相似特征结构的蛋白质之间的功能注释转移。BMC生物信息学,11,417。
Lee, D., Redfern, O.和Orengo, C.(2007)从序列和结构预测蛋白质功能。中国生物医学工程学报,8,995 -1005。
Moore, A.D.等人(2014)DoMosaics:用于蛋白质结构域排列可视化和结构域中心分析的软件。生物信息学,30,282-283。
佩莱格里尼,M.(2012)使用系统发育谱预测功能关系。方法Mol生物学,804,167-177。
佩莱格里尼等人(1999)通过比较基因组分析分配蛋白质功能:蛋白质系统发育谱。中国科学:自然科学,39(4):366 - 366。
Schmitt, T. et al.(2011)致编辑的信:SeqXML和OrthoXML:序列和正交信息的标准。简短。Bioinform。,12, 485-488.
Studer, R.A.和Robinson-Rechavi, M.(2009)我们能有多大的信心认为正交线是相似的,而平行线是不同的?全球趋势,25,210-216。