ALDEx2 1.28.1
本指南提供R包ALDEx版本2的概述(ALDEx2)用于高通量测序计数组成数据的差异(相对)丰度分析1所有高通量测序数据都是合成的(Gloor et al. 2017)因为这些工具所施加的限制.该软件包开发并最初用于高通量测序平台(meta-RNA-Seq)生成的多生物RNA-Seq数据。2Macklaim et al. (2013)但测试表明,它在传统RNA-Seq数据集上表现非常好3.奎因、克劳利和理查德森(2018), 16S rRNA基因可变区测序4Bian et al.(未注明)选择性生长型(SELEX)实验5McMurrough et al. (2014);沃尔夫斯等人(2016).原则上,该分析方法应该适用于几乎所有由高通量测序生成的数据类型,该测序为每个样本生成每个特征计数表(Fernandes et al. 2014):除了上面概述的例子,这将包括ChIP-Seq或宏基因组测序。
的ALDEx2包使用来自狄利克雷分布的蒙特卡罗实例估计每个样本中的每个特征的技术变化。从该分布中采样返回重复采样模型下观测数据的后验概率分布。所有输出ALDEx2是后验分布的输出,要么是期望值,要么是置信区间。
ALDEx2使用中心对数比(clr)变换(或密切相关的对数比变换),以确保数据是尺度不变的和子组成相干的6特(1986).尺度不变性属性消除了样本数据归一化步骤的需要,因为数据都放在一致的数值坐标上。亚成分一致性特性确保了当数据集的部分被移除时(例如,从RNA-seq研究中移除rRNA reads或从16S rRNA基因扩增研究中移除稀有OTU物种)获得的答案是一致的。所有特征丰度值都表示相对于样本中其他特征的几何平均丰度。这在概念上类似于定量PCR,其中丰度表示相对于标准:在clr转换的情况下,标准是每个样本的几何平均丰度。详见Aitchison(1986)的完整描述。
相比之下,用于分析高通量测序(HTS)数据差异丰度的最常用工具都假设通量测序数据是按计数交付的7安德斯等人(2013);安德斯和胡贝尔(2010);gierlizynski等人(2015).已经做了很多工作来规范化数据集,使它们近似于这个假设8布拉德等人(2010);迪利斯等人(2013).即便如此,通过在不同容量的仪器上运行相同的库并尝试规范化,可以简单地证明数据是计数。特征(基因,OTUs,功能)之间的相对关系被保留,但实际的计数值没有被保留。
通过这个简单的实现,许多小组已经意识到HTS数据集实际上是计数组合9洛弗尔等人(2011);弗里德曼和阿尔姆(2012);费尔南德斯等人(2013);费尔南德斯等人(2014);Gloor等人(2017);托马斯·p·奎因等人(2017)与计数有显著不同的统计属性10特(1986);Pawlowsky-Glahn, Egozcue, and Tolosana-Delgado (2015);Pawlowsky-Glahn and Buccianti (2011).因此,ALDEx2是一个R
考虑到这些数据的计数组成性质的差异相对丰度包。
有两种方法下载和安装最新的ALDEx2.软件包的最新版本可以在github.com/ggloor/ALDEx_bioc.该包将只与基本R包和最小的Bioconductor安装一起运行,如果安装了“并行”包,则能够运行几个功能。它已经在版本R版本3上进行了测试,但是只要满足依赖关系,就应该在版本2.12上运行。建议在最新的R和Bioconductor版本上运行该包。ALDEx2将尽可能使用BiocParallel包,否则,ALDEx2将以串行模式运行。
install.packages (devtools) devtools: install_github(“ggloor / ALDEx_bioc”)
如果(!requireNamespace("BiocManager", quiet = TRUE) install.packages("BiocManager") BiocManager::install("ALDEx2")
aldex
分为两组:的ALDEx2Bioconductor的封装是模块化的,适用于许多不同的实验设计的比较。这是通过公开底层的中心对数比转换狄利克雷蒙特卡洛复制值来实现的,使任何人都可以为他们的实验设计添加特定的R代码-下面列出了这些值的指南。
然而,ALDEx2包含一个aldex
可以执行许多简单分析的包装器函数。这个包装器将把模块元素链接在一起进行模拟ALDEx2在模块化方法之前。在最简单的例子中,我们将在下面使用,aldex
进行双样本t检验并计算效应大小。如果测试值为' t ',则effect应设置为真正的
.“t”选项使用Welch’s t和Wilcoxon秩检验将数据作为双因素实验进行评估。在使用方差分析模块进行更复杂的多样本测试时,不应计算效应量,然后再计算效果
参数应该为FALSE。“kw”选项使用glm和Kruskal-Wallace检验将数据作为单向方差分析进行评估。所有测试都包括原始P值的Benjamini-Hochberg校正。数据可以绘制到Bland-Altmann上11阿尔特曼和布兰德(1983)(MA)或效应(MW)图12格洛尔、麦克莱姆和费尔南德斯(2016)的双向测试aldex.plot
函数。有关图的示例,请参见模块化部分的末尾。
本节包含对收集的数据集的分析,其中单个基因库包含1600个序列变体,序列中有4个密码子13McMurrough et al. (2014).这些变体以等摩尔量克隆到表达载体中。该基因的野生型具有对拓扑异构酶毒素的抗性。在选择性和非选择性条件下对基因文库进行了7个独立的生长,并通过在Illumina MiSeq上对汇总的条形码文库进行测序来读取每个变体的丰度。数据表作为selex_table.txt包含在包中。在这个数据表中,有1600个特征和14个样本。分析大约需要2分钟,当我们使用128个Dirichlet蒙特卡罗实例(DMC)时,在移动i7级处理器上的内存使用量最高不到1Gb。出于速度考虑,我们只使用前400个特性,只执行16个DMC。命令用于ALDEx2如下:
首先,我们加载库和包含的selex数据集。然后我们设置比较组。这必须是与输入计数表中的样本顺序相同的条件向量。的aldex
命令在后台调用其他几个函数,每个函数都返回诊断信息。在这个小插图中,这些诊断被抑制了。
library(ALDEx2) data(selex) #只集合最后400个高效selex的特征。子< - selex[1:400]气孔导度< - c(代表(“NS”,7),代表(“S”,7)x.all < - aldex (selex。sub, conds, mc.samples=16, test="t", effect=TRUE, include.sample。summary=FALSE, denom="all", verbose=FALSE, paired.test=FALSE) par(mfrow=c(1,2)) aldex.plot(x。all, type="MA", test="welch", xlab="Log-ratio丰度",ylab="差异")all, type="MW", test="welch", xlab="色散",ylab="差值")
图1:ALDEx2输出的MA和Effect图
左边的面板是Bland-Altman或MA图,显示了(相对)丰度和差异之间的关系。右边的面板是一个效果图,显示了差异和色散之间的关系。在这两个图中,不显著的特征用灰色或黑色表示。具有统计学意义的特征用红色表示。对数比丰度轴是特征的clr值。
模块化方法公开底层中间数据,以便用户可以生成自己的测试。上面概述的简单方法只是调用aldex.clr, aldex.ttest, aldex.effect
然后依次将数据合并到一个名为x.all
.我们将依次展示这些模块,然后研究其他模块。
aldex.clr
模块模块化方法的工作流首先生成中心对数比转换值的随机实例。有三个输入:计数表、条件向量和蒙特卡罗(DMC)实例的数量;和几个参数:一个字符串,指示是否iqlr,零或所有特征被用作分母,以及详细程度(TRUE或FALSE)。我们推荐128个或更多mc.样本用于t检验,1000个用于严格的效应量计算,至少16个用于方差分析。14事实上,我们建议最小组的样本数量乘以DMC的数量至少等于1000,以便对后验分布产生合理稳定的估计
这个操作很快。
#输出在S3对象'x' x <- aldex.clr(selex. clr)sub, conds, mc.samples=16, denom="all", verbose=F)
aldex.ttest
模块下一个操作对只有两个条件的情况执行Welch’s t和Wilcoxon秩检验。只有两个输入:来自的aldex对象aldex.clr
以及是否应进行配对测试(TRUE或FALSE)。
这个操作相当快。
X.tt <- aldex。tt (x,配对。测试= FALSE, verbose = FALSE)
aldex.kw
模块除了t检验,用户还可以对两个或多个条件的单向方差分析执行glm和Kruskal Wallace检验。这里只有两个输入:来自aldex的aldex对象。Clr和条件向量。注意,这是缓慢的!在本文档中不进行计算。
x.kw <- aldex.kw(x)
aldex.effect
模块最后,我们估计了两种情况下的效应大小和条件值之间。这一步是绘图所必需的,在我们的实验室中,我们的结论主要基于这个函数的输出15Macklaim et al. (2013);McMurrough et al. (2014);Bian et al.(未注明).这里有一个输入:aldex.clr中的aldex对象;还有几个参数:是否包含所有样本的值的标志被用作分母,以及详细程度。也可以在标记中包含效应量估计的95%置信区间信息CI = TRUE
.这在决定是否包含或排除特定特性时很有帮助。我们发现,一个较大的效应,但这是一个异常值的极端效应分布可能是假阳性。新增了计算配对t检验或重复样本的效应大小的选项。测试= TRUE选项。请注意,配对时不计算效应大小的置信区间。test = TRUE。
X.effect <- aldex。效果(x, CI=T, verbose=FALSE, paired.test=FALSE)
aldex.plot
模块最后,将t检验和效果数据合并为一个对象。
X.all <- data.frame(x.tt,x.effect)
数据被绘制出来。我们看到图1和图2中绘制的数据本质上是相同的。
票面价值(mfrow = c(1、2)aldex.plot (x。所有, type="MA", test="welch") aldex.plot(x.all, type="MW", test="welch")
图2:aldex的输出。绘制函数
左图为MA图,右图为MW(效应)图。在这两个图中,红色代表的特征被称为q的差异丰度\ (< 0.1 \);灰色丰富,但没有差异丰富;黑色很少,但数量并不多。该函数使用aldex的组合输出。Ttest和aldex。影响功能
如上所述,ALDEx2包生成给定所收集数据的观察计数概率的后验分布。在这里,我们通过检查效应量的95% CI来表明这种方法的重要性。在整个过程中,我们使用了一个标准化的效应量,类似于科恩的d度量,尽管我们的效应量更稳健,也更保守(当数据为正态分布时,大约为0.7科恩的d)16Fernandes Gloor未出版.
对比图2和图3的输出可以发现一个非常重要的一点:测序数据中存在着巨大的潜在变异。我们在图2中看到,有一些特征的期望q值在统计上有显著差异,这些特征既相对罕见,又具有相对较小的差异。即使根据预期的效应大小来识别特征也会产生误导。我们发现最安全的方法是识别那些效应量的95% CI不超过0的特征。
通过检查图表,我们发现,最稀有的特征最不可能通过简单随机抽样重现效应量。95% CI度量的行为完全符合我们的直觉:稀有特征的估计精度很差——如果你想对稀有特征有更多的信心,你必须花更多的钱来更深入地排序。
通过这种方法,我们接受了所接收数据中的生物变异17也就是说,我们没有推断出任何额外的生物变异:也就是说,实验设计总是既定的但他们也在识别这些特征,在这些特征中,简单的随机抽样库每次都会给出相同的结果。这是在(Macklaim et al. 2013),其结果经过独立验证,发现非常可靠(Nelson et al. 2015).
图3:将平均效应与95% CI进行比较
左图为MA图,右图为MW(效应)图。在这两个图中,红色点表示具有预期效果值的特征\ (> 2 \);蓝色圆圈表示95% CI不与0重叠;灰色是不感兴趣的特征。这个图只使用了aldex的输出。影响的功能。效果图中的灰线表示effect=2等值线。
aldex。GLM模块被包括在内,因此概率组合方法可以用于复杂的研究设计。这个模块比上面的两个比较测试慢得多,但我们认为如果你有复杂的研究设计,它是值得的。
从本质上讲,该方法是上面的模块化方法,但使用模型矩阵和协变量提供给r中的glm函数。返回的值是给定输入的glm函数的期望值。在下面的例子中,我们分别测量变量A和B的预测值。请参阅R公式函数的文档,或http://faculty.chicagobooth.edu/richard.hahn/teaching/formulanotation.pdf获取更多信息。
在aldex识别的任何变量下的差异特征的验证。GLM函数应使用aldex执行。作为事后测试的效果功能。
请注意,aldex.clr
将接受分母项= "所有"
或者当提供模型矩阵时,用户定义的分母偏移向量。因此,当打算下游分析时aldex.glm
函数只有这两个分母选项可用。这将在以后的版本中解决。
数据(selex) selex。sub <- selex[1:500,]协变量<- data.frame("A" = sample(0:1, 14, replace=TRUE), "B" = c(rep(0,7), rep(1,7)), "Z" = sample(c(1,2,3), 14, replace=TRUE)) mm <- model。矩阵(~ A + Z + B,协变量)x <- aldex.clr(selex. clr)sub, mm, mc.samples=4, denom="all", verbose=F) glm。测试<- aldex。全球语言监测机构(x毫米)
## |------------( 25 %)----------( 50 %)----------( 75年 %)----------|
全球语言监测机构。- aldex.glm.effect(x)
的aldex.glm.effect
函数将计算矩阵中所有二元模型的效应大小。每个二元预测器的效应量计算输出到一个命名列表。这些效应大小和输出aldex.glm
可以在下面的示例代码块中绘制,该代码块绘制了实际测试用例的bh校正glm值与二进制预测器的效应大小。
aldex.plot (glm)。效果[["B"]], test="effect", cutoff=2) sig <- glm.test[,20]<0.05 points(glm.effect[["B"]]$diff.win[sig], glm.effect[["B"]]$diff.btw[sig], col="blue") sig <- glm.test[,20]<0.2 points(glm.effect[["B"]]$diff.win[sig], glm.effect[["B"]]$diff.btw[sig], col="blue")
一个ALDEx2返回汇总统计信息的预期值。值得注意的是,ALDEx使用来自Dirichlet分布的贝叶斯抽样来估计潜在的技术变化。这是由的数量控制的,在实践中我们发现,对于大多数情况下,将其设置为16或128就足够了ALDEx2是估计分布的期望值吗18费尔南德斯等人(2013);费尔南德斯等人(2014);Gloor等人(2016).
实际上,ALDEx2采用给定的生物学观察结果,但多次使用的方法推断技术变化(同一样品再次测序)aldex.clr
函数。因此,返回的期望值是那些可能已经被观察到的值。用户需要注意的是,由于这个采样过程,被称为差异的特征的数量在不同的运行之间会有所不同。然而,只有值接近所选显著性截断值的特征才会在运行之间发生变化。
有几篇论文提出了这一点ALDEx2无法适当控制错误发现率,因为返回的P值并不遵循随机均匀分布,而是倾向于聚集在0.5附近19Hawinkel等人(2018);索尔森等人(2016).这些研究表明,点估计方法对特定的实验设计以及稀疏性和读取深度的差异非常敏感。然而,ALDEx2对数据的这些特征并不敏感,但似乎低估了真实的罗斯福。这些批评没有切中要害ALDEx2因为ALDEx2报告横跨Dirichlet蒙特卡洛复制的P值。仅仅因为随机抽样的不确定性而产生差异的特征确实会有一个随机统一的P值作为点估计,但在重复随机抽样0.5后会有一个期望P值。相比之下,由于真实生物变异而产生差异的特征对重复随机抽样具有鲁棒性。因此,ALDEx2仅将简单随机抽样(最小零假设)无法解释差异的特征识别为差异。
根据我们的经验,我们观察到这一点ALDEx2返回一组与作为多个独立工具交叉返回的集非常相似的特征,这是检查HTS数据集时的常见建议20.Soneson and Delorenzi (2013)
变体 | we.ep | we.eBH | wi.ep | wi.eBH | kw.ep |
---|---|---|---|---|---|
D:答:D | 4.03010 e-01 | 0.63080705 | 0.239383012 | 0.43732819 | 0.21532060 |
D: E | 1.15463 e-01 | 0.34744596 | 0.040901806 | 0.15725841 | 0.03745315 |
E: D | 8.98797 e-05 | 0.00329076 | 0.000582750 | 0.00820759 | 0.00174511 |
变体 | kw.eBH | glm.ep | glm.eBH | rab.all | rab.win.NS | rab.win.S |
---|---|---|---|---|---|---|
D:答:D | 0.3932743 | 3.61061 e-01 | 5.23582 e-01 | 1.42494 | 1.30886 | 2.45384 |
D: E | 0.1486590 | 8.12265 e-02 | 1.92292 e-01 | 1.71230 | 1.49767 | 4.23315 |
E: D | 0.0245786 | 7.73660 e-08 | 3.35492 e-06 | 3.97484 | 1.41163 | 11.02154 |
变体 | diff.btw | diff.win | 效果 | 重叠 |
---|---|---|---|---|
D:答:D | 1.12261 | 1.72910 | 0.471043 | 0.267260701 |
D: E | 2.73090 | 2.38134 | 1.034873 | 0.135857781 |
E: D | 9.64287 | 2.85008 | 3.429068 | 0.000156632 |
在下面的列表中,aldex.ttest
函数返回突出显示的值ast \ \ (\),aldex.kw
函数返回突出显示的值\(\保监会\),以及aldex.effect
函数返回突出显示的值\ \ diamondsuit \ ().
include.item.summary = TRUE
所使用的效应量度量ALDEx2是专门为此包开发的标准化分布效应量度量。该测量方法在一定程度上是稳健的,允许20%的样本在值受到影响之前是异常值,返回正态分布上Cohen’s d大小的71%的效应量,并且最坏情况下需要两倍的样本数量,因为全参数方法(不稳健)将以相同的精度估计值。度规对正态分布、随机均匀分布和柯西分布同样有效^((???)提交)。
我们更喜欢尽可能使用效应量,而不是统计显著性,因为效应量告诉科学家他们想知道的东西——“各组之间有什么可重复的差异”;这显然不是P值提供的东西。我们发现,与基于P值的方法不同,使用效应量返回一致的真正特征集,而不考虑样本量。此外,在低样本量下观察到的一半以上的假阳性特征具有和效应量\(> 0.5 \times \math {E}\)选择的效果大小截止\ (\ mathrm {E} \).这与数据集的来源无关((???)提交)。
我们建议在分析HTS数据集时使用1或更大的效应大小截止值。如果用户愿意,还可以设置折叠变化截止点,就像通常使用基于P值的方法一样。
下图显示了测试数据集中效应量和P值以及bh调整P值之间的关系。
par (mfrow = c(1、2))(x。所有影响美元,美元x.all我们。ep, log="y", cex=0.7, col=rgb(0,0,1,0.2), pch=19, xlab="效应大小",ylab="P值",main="效应大小图")点(x。所有影响美元,美元x.all我们。eBH cex = 0.7, =上校rgb (1 0 0, 0.2), pch = 19) abline (h = 0.05, lty = 2, =“灰色”)上校的传奇(15 1传说= c(“P值”、“BH-adjusted”),pch = 19日坳= c(“蓝”、“红”))情节(x.all diff美元。顺便说一句,x.all我们美元。ep, log="y", cex=0.7, col=rgb(0,0,1,0.2), pch=19, xlab="差值",ylab="P值",main="火山图")顺便说一句,x.all我们美元。eBH cex = 0.7, =上校rgb (1 0 0, 0.2), pch = 19) abline (h = 0.05, lty = 2,坳=“灰色”)
图4:效应、差值和P值之间的关系
我们可以看到,效应量与P值的关系比原始差紧密得多。整个数据集的效应量相对稳定,但P值随着样本量的增加而逐渐变小。
内置的aldex。绘制函数described above will usually be sufficient, but for more user control the example in Figure 4 shows a plot that shows which features are found by the Welchs’ or Wilcoxon test individually (blue) or by both (red).
#确定哪些值在t检验和GLM检验中都是重要的。eBH < 0.05 & x.all$wi。eBH < 0.05) #识别哪些值在小于所有测试found.by.one <- which(x.h all$we。eBH < 0.05 | x.all$wi。eBH < 0.05) #绘制数据图的内部和之间的变化(x.h all$diff。赢,x.all diff美元。btw, pch=19, cex=0.3, col=rgb(0,0,0,0.3), xlab="色散",ylab="差异")一),(found.by x.all diff.btw美元。1], pch=19, cex=0.7, col=rgb(0,0,1,0.5))点(x.all$diff.win[find .by. by.]所有],x.all diff.btw美元[found.by。所有], pch=19, cex=0.7, col=rgb(1,0,0,1)) abline(0,1,lty=2) abline(0,-1,lty=2)
图5:使用Welch 's t检验或Wilcoxon秩检验的selex数据集中的差异丰度
两个测试识别的特性用红色显示。仅通过一次测试识别的特征用蓝点表示。非显著特征用黑色表示稀有特征,用灰色点表示丰富特征。
在某些情况下,我们观察到由中心对数比返回的数据可能是不对称的。这种情况发生在数据极度不对称的情况下,比如一组数据主要由另一组数据不存在的特征组成。在这种情况下,几何平均值将不能准确地代表每一组比较的适当基础。不对称产生的原因有很多:在RNA-seq中,可能是因为一组样品含有质粒,而另一组样品不含;在宏基因组学或16S rRNA基因测序中,当两组样本来自不同的环境时,就会出现这种情况;在选择性实验中,这可能是因为两组人处于不同的选择约束下。这种不对称性既可以表现为稀疏性的差异(即一组比另一组包含更多的0值特征),也可以表现为丰度的系统差异。当这种情况发生时,每个样本和组的几何平均值可能显著不同,因此数据集中可能发生固有的倾斜,从而导致假阳性和假阴性特征调用。不对称通常表现为x.all$diff直方图的质心。顺便说一句,所有的美元效应不是以零为中心的。我们建议检查所有数据集的不对称性。
所采取的方法ALDEx2就是识别出那些在整个数据集中所有特征中相对不变的特征即使组间的许多特征可能是不对称的。从根本上说,对数比方法要求所有样本的分母具有可比性。的输出aldex.clr
属性中用于分母的特征的偏移量@denom
槽。
的aldex.clr
函数结合了多种方法来选择最能处理非对称数据集的分母:
注意:任何行都不应该包含全部0值,因为它们将被删除aldex.clr
函数
所有:默认是使用艾奇逊的中心对数比计算所有特征的几何平均值21特徵:1986.这是组合数据分析方法的默认方法。
_iqlr:iqlr方法识别在整个数据集中表现出可再现方差的那些特征。这叫做四分位间对数比iqlr的方法。为此,对数据集应用0.5的统一先验,应用clr变换,并计算每个特征的方差。那些方差值落在数据集中所有组中所有特征方差的第一和第三四分位数之间的特征将被保留。当aldex。称为CLR,只计算保留特征的几何平均丰度,并用作对数比计算的分母。建模表明,这种方法在处理高达25%的特征不对称的数据集时是有效的。这种方法的优点是它对对称数据集影响很小或没有影响,因此如果用户不确定数据是否轻度不对称,则是一种安全的方法。
lvha:该方法识别了在每组方差的底部四分位数和在每个样本的相对丰度的顶部四分位数以及在整个数据集中的那些特征。当群体非常不对称时,这种方法是合适的,但有一些特征预计是相对恒定的。这里的基本思想是识别那些在所有样本中相对恒定的特征,类似于将被选为qPCR内部标准的特征。经验表明,元基因组和元转录组数据集可以从这种选择分母的方法中受益。此方法不适用于selex数据集,因为没有符合标准的特征。
零:这种方法只识别和使用每组中非零的特征。在这种方法中,使用每组非零特征时aldex.clr
计算CLR变换中的几何平均值。这种方法在群体非常不对称的情况下是合适的,但实验人员必须问,在这些极端情况下,这种比较是否有效。
用户:最后一种新方法是让用户定义一组“不变”特征。在元rna-seq的例子中,可以认为管家基因的水平应该是所有样本的标准。在这种情况下,用户可以定义与特定的管家基因集相对应的行索引作为标准。
迭代:该方法使用选择的统计检验来识别组间没有统计学显著差异的特征。可与其他方法结合使用。
图5显示了iqlr校正对示例数据集的影响。当分母是全部时,我们可以看到大部分点都落在中点(虚线)上,但是对于iqlr和lvha分析,大部分点都集中在0附近。因此,在后两种方法中,我们可以明显更好地集中数据。实际上,在iqlr或lvha变换后,我们改变了显著性边缘附近特征的p值和效应量。对于那些接近大量数据点的特征,这种影响是最大的。
首先是代码:
# x@denominator data(synth2) block中的分母特征<- c(rep("N", 10),rep("S", 10)) x <- aldex。Clr (synth2, blocks, denom="all") x.e <- aldex.effect(x) plot(x.e$diff。赢,x.e diff美元。Btw, pch=19, col=rgb(0,0,0,0.1), cex=0.5, xlab="色散",ylab="差异",main="所有")点(x.e$diff。赢得[x@denom], x.e diff美元。顺便说一句[x@denom], pch = 19日坳= rgb (0.8, 0.5, 0, 0.7), cex (x.e diff美元= 0.5)点。赢得[47:86],x.e diff美元。顺便说一句[47:86],坳= rgb (0.7 0.8, 0, 0), cex (x.e diff美元= 0.5)点。赢得[980:1000],x.e diff美元。顺便说一句[980:1000],坳= rgb (0.7 0.8, 0, 0), cex = 0.5) abline (0, 1) abline (0, 1) abline (h = 0,坳=“灰色”,lty = 2)
图6:使用不同分母进行clr计算的合成数据集中的差异丰度
在这些数据中,2%的特征在一组中被建模为稀疏,而在另一组中则不是。两组之间不同的特征用红色表示。不重要的特征显示为灰色(或棕色)。棕色所示的分母中使用的特征:在计算clr变换时,这些特征的几何平均值被用作分母。在0和\下午(\ \)1.注意iqlr和lvha分母放在非对称特征的中间,组间差异为0。
我很感激ALDEx2已经有了自己的生命。
.该版本预计不会有进一步的更改,因为它可以在内部完全复制ALDEx2通过只使用aldex.clr
而且aldex.effect
命令。
版本2.0到2.05是支持P值计算的开发版本。版本2.06ALDEx2在分析中使用了这个版本吗24费尔南德斯等人(2014).该版本通过从数据的随机样本计算效应量,而不是从详尽的比较,实现了大样本比较。
版本2.07ALDEx2最初是公开中间计算的模块化版本,以便研究人员可以编写函数来分析不同的实验设计。作为示例,该版本包含一个示例单向ANOVA模块。这与提交给Bioconductor的0.99.1版本相同。
未来的版本ALDEx2现在使用Bioconductor版本编号。
sessionInfo ()
## R版本4.2.0(2022-04-22)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.4 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.15-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.15-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]stats graphics grDevices utils datasets methods base ## ##其他附加包:## [1]ALDEx2_1.28.1 zCompositions_1.4.0-1 truncnorm_1.0-8 ## [4] NADA_1.6-1.1 survival_3.3-1 MASS_7.3-57 ## [7] BiocStyle_2.24.0 ## ##通过命名空间加载(且未附加):# # # # [1] SummarizedExperiment_1.26.1 xfun_0.31 [3] bslib_0.3.1 splines_4.2.0 # # [5] lattice_0.20-45 htmltools_0.5.2 # # [7] stats4_4.2.0 yaml_2.3.5 # # [9] rlang_1.0.2 jquerylib_0.1.4 # # [11] BiocParallel_1.30.2 BiocGenerics_0.42.0 # # [13] RcppZiggurat_0.1.6 matrixStats_0.62.0 # # [15] GenomeInfoDbData_1.2.8 stringr_1.4.0 # # [17] zlibbioc_1.42.0 MatrixGenerics_1.8.0 # # [19] evaluate_0.15 Biobase_2.56.0 # # [21] knitr_1.39 IRanges_2.30.0 # # [23] fastmap_1.1.0 GenomeInfoDb_1.32.2 # # [25][29] BiocManager_1.30.17 DelayedArray_0.22.0 ## [31] S4Vectors_0.34.0 magick_2.7.3 ## [33] jsonlite_1.8.0 XVector_0.36.0 ## [35] digest_0.6.29 stringi_1.7.6 ## [37] bookdown_0.26 GenomicRanges_1.48.0 ## [39] grid_4.2.0 cli_3.3.0 ## [41] tools_4.2.0 bitops_1.0-7 ## [43] magrittr_2.0.3 sass_0.4.1 ## [45] RCurl_1.98-1.6 Matrix_1.4-1 ## [47] rmarkdown_2.14 R6_2.5.1 ## [49] multtest_2.52.0 compiler_4.2.0 ##
艾奇逊,1986。成分数据的统计分析.英国伦敦:查普曼和霍尔出版社。
阿尔特曼,d.g., J. M.布兰德,1983。医学测量:方法比较研究的分析皇家统计学会杂志。D组(统计学家)32(3):第307-17页。http://www.jstor.org/stable/2987937.
安德斯,西蒙,沃尔夫冈·胡贝尔,2010。序列计数数据的差分表达式分析基因组医学杂志11 (10): r106。https://doi.org/10.1186/gb-2010-11-10-r106.
安德斯,西蒙,戴维斯·J·麦卡锡,陈云顺,米哈尔·奥克尼耶夫斯基,戈登·K·史密斯,沃尔夫冈·胡贝尔和马克·D·罗宾逊。2013。“基于计数的RNA测序数据差异表达分析使用R和Bioconductor。”Nat Protoc8(9): 1765-86。https://doi.org/10.1038/nprot.2013.099.
卞爱华,高睿,Gregory B Gloor,龚爱华,贾长生,张伟,胡军,张宏,等。“中国健康老年人肠道菌群与健康年轻人相似”。mSphere2 (5): e00327-17。https://doi.org/10.1128/mSphere.00327-17.
布拉德,詹姆斯·H,伊丽莎白·珀多姆,卡斯珀·D·汉森,桑德琳·杜多特,2010。MRNA-Seq实验中归一化和差异表达的统计方法评估BMC生物信息学11: 94。https://doi.org/10.1186/1471-2105-11-94.
Dillies, Marie-Agnès, Andrea Rau, Julie Aubert, Christelle Hennequet-Antier, Marine Jeanmougin, Nicolas Servant, Céline Keime,等人。2013。Illumina高通量RNA测序数据分析归一化方法的综合评价短暂Bioinform14(6): 671-83。https://doi.org/10.1093/bib/bbs046.
费尔南德斯,安德鲁·D,让·M·马克莱姆,托马斯·G·林,格雷戈尔·里德,格里高利·B·格洛尔。2013。混合群体Rna-Seq的anova样差异表达(Aldex)分析《公共科学图书馆•综合》8 (7): e67019。https://doi.org/10.1371/journal.pone.0067019.
Fernandes, Andrew D, Jennifer Ns Reid, Jean M Macklaim, Thomas A McMurrough, David R Edgell, Gregory B Gloor, 2014。统一高通量测序数据集的分析:通过成分数据分析表征RNA-Seq, 16S RRNA基因测序和选择性生长实验微生物组2: 15.1 - -15.13。https://doi.org/10.1186/2049-2618-2-15.
乔纳森·弗里德曼,埃里克·J·Alm, 2012。“从基因组调查数据推断相关网络。”PLoS计算生物学8 (9): e1002687。https://doi.org/10.1371/journal.pcbi.1002687.
gierlizynski, Marek, Christian Cole, Pietà Schofield, Nicholas J Schurch, Alexander Sherstnev, Vijender Singh, Nicola Wrobel等。2015。来自双条件48重复实验的Rna-Seq数据的统计模型生物信息学31(22): 3625-30。https://doi.org/10.1093/bioinformatics/btv425.
格洛尔,格雷戈里·B,简·m·马克莱姆,安德鲁·d·费尔南德斯,2016。显示大数据集中的变化:绘制效应大小的可视化摘要。计算与图形统计杂志25 (3c): 971-79。https://doi.org/10.1080/10618600.2015.1131161.
格洛尔,格雷戈里·B.,让·m·马克莱姆,维拉·帕洛夫斯基-格拉恩,胡安·j·埃戈兹库,2017。微生物组数据集是组成的:这是不可选的。微生物学前沿8: 2224。https://doi.org/10.3389/fmicb.2017.02224.
格洛尔,格雷戈里·B,简·M·麦克莱姆,迈克尔·伍,安德鲁·D·费尔南德斯。2016。“在高通量测序数据分析中,成分不确定性不应被忽视。”奥地利统计杂志45: 73 - 87。https://doi.org/doi:10.17713/ajs.v45i4.122.
Hawinkel, Stijn, Federico Mattiello, Luc Bijnens和Olivier Thas, 2018。“一个不兑现的承诺:微生物组差异丰度方法不能控制错误发现率。”生物信息学简介会.http://dx.doi.org/10.1093/bib/bbx104.
大卫·洛弗尔,沃伦·Müller,珍·泰勒,亚历克·兹瓦特,克里斯·海利维尔,2011年。比例,百分比,Ppm:分子生物科学正确处理成分数据吗?在成分数据分析:理论与应用,由Vera Pawlowsky-Glahn和Antonella Buccianti编辑,193-207。伦敦:约翰·威利;儿子纽约,纽约。
马克莱姆,M·简,D·安德鲁·费尔南德斯,M·茱莉亚·迪·贝拉,乔-安妮·哈蒙德,格雷戈里·里德和格雷戈里·B·格洛尔,2013。阴道菌群和差异表达的比较元rna序列乳酸菌内心《健康与生态失调》。”微生物组1: 15。https://doi.org/doi: 10.1186 / 2049-2618-1-12.
麦克默罗,托马斯·A,罗素·J·迪克森,斯蒂芬妮·M·F·蒂伯特,格雷戈里·B·格洛尔,大卫·R·埃吉尔。2014。催化和非催化残留物的协同进化网络对催化效率的控制美国国立自然科学研究院111 (23): e2376-83。https://doi.org/10.1073/pnas.1322352111.
尼尔森,蒂芙妮M,乔安娜-林恩C博尔戈纳,丽贝卡M布罗特曼,雅克拉威尔,塞斯T沃克,卡尔J约曼。阴道生物胺:细菌性阴道病的生物标志物或阴道生态失调的前兆?生理学前沿6.
Vera Pawlowsky-Glahn和Antonella Buccianti, 2011。成分数据分析:理论与应用.John Wiley & Sons。
帕洛夫斯基-格拉恩,维拉,胡安José埃戈兹库,雷蒙·托洛萨纳-德尔加多。2015.成分数据的建模与分析.John Wiley & Sons。
奎因,托马斯·P,坦姆辛·M·克劳利,马克·F·理查德森,2018。Rna-Seq的基准差分表达分析工具:基于归一化与基于对数比转换的方法。BMC生物信息学19(1): 274。https://doi.org/10.1186/s12859-018-2261-8.
奎因,托马斯·P.,艾奥纳斯·厄尔布,马克·f·理查森,坦姆辛·m·克劳利,2017。“将测序数据理解为组合:展望与回顾”。bioRxiv.https://doi.org/10.1101/206425.
奎因,托马斯,马克·F·理查德森,大卫·洛弗尔,坦辛·克劳利,2017。Propr:使用成分数据分析识别比例丰富特征的r包。bioRxiv.https://doi.org/10.1101/104935.
Charlotte Soneson, Mauro Delorenzi, 2013。RNA-seq数据差异表达分析方法的比较BMC生物信息学14: 91。https://doi.org/10.1186/1471-2105-14-91.
Thorsen, Jonathan, Asker Brejnrod, Martin Mortensen, Morten A Rasmussen, Jakob Stokholm, Waleed Abu Al-Soud, Søren Sørensen, Hans Bisgaard和Johannes Waage. 2016。“大规模基准测试揭示了微生物组研究中使用的16S RRNA基因扩增子数据分析方法的错误发现和计数转换敏感性。”微生物组4(1): 62。https://doi.org/10.1186/s40168-016-0208-8.
沃尔夫,杰森·M,托马斯·A·汉密尔顿,杰里米·T·兰特,马尔孔·拉弗瑞特,珍妮·张,路易莎·M·萨莱米,格雷戈里·B·格洛尔,卡罗琳·席尔德-保尔特,大卫·R·埃吉尔。2016。“用rna引导的Tevcas9双核酸酶将基因组编辑事件偏向精确长度缺失。”美国国立自然科学研究院, 12月。https://doi.org/10.1073/pnas.1616343114.