梦想:微分表达式测试线性混合模型重复措施

加布里埃尔·霍夫曼

伊坎在西奈山医学院,纽约

文摘

Differential表达式再保险体育一个泰德米easures(梦想)使用线性模型模型为RNA-seq增加力量和减少假阳性与多个测量每个数据集。分析无缝符合limma /轰的广泛使用的工作流(法律et al . 2014年)。

梦想使用线性模型模型增加力量和减少假阳性与重复测量RNA-seq数据集。梦想实现多个统计概念结合到一个统计模型。该模型包括:

-灵活的重复测量基因表达数据的建模
-精确的重量在RNA-seq计数模型测量误差
——多个随机效应模型的能力
——随机效应估计分别为每个基因
——假设检验对固定在线性混合效应模型
——小样本大小的假设检验

梦想还包括多线程在多核机器上成千上万的基因分析。

variancePartition v1.26.0
2022年4月26日18:20:56

标准RNA-seq处理
Limma分析
梦的解析
并行处理
会话信息
引用

标准RNA-seq处理

本教程假设读者熟悉RNA-seq limma /轰工作流。过程原始统计数据使用limma /轰。

图书馆(“variancePartition”)图书馆(磨边机的)图书馆(“BiocParallel”)数据(varPartDEdata)#筛选基因的数量isexpr =rowSums(cpm(countMatrix)>0.1)> =5# limma /轰的标准用法geneExpr =DGEList(countMatrix [isexpr,)geneExpr =calcNormFactors(geneExpr)#让这个描述更快通过分析基因的一个子集geneExpr =geneExpr [1:1000年,)

Limma分析

Limma有一个内置的方法分析重复测量数据使用duplicateCorrelation ()。模型可以处理一个单一的随机效应,迫使随机效应的大小是相同的所有基因。

#应用duplicateCorrelation两轮设计=model.matrix(~疾病、元数据)vobj_tmp =轰(geneExpr,设计,情节=假)dupcor < -duplicateCorrelation(vobj_tmp,设计,块=元数据美元个人)#跑轰考虑duplicateCorrelation结果#为了计算精度更精确的重量#否则,使用结果从第一轰跑了vobj =轰(geneExpr,设计,情节=假,块=元数据美元个人,相关=dupcor美元共识)#用一个方差分量估计线性混合模型#适合每个基因的模型,dupcor < -duplicateCorrelation(vobj,设计,块=元数据美元个人)#但这一步只使用全基因组随机效应的平均水平fitDupCor < -lmFit(vobj,设计,块=元数据美元个人,相关=dupcor美元共识)#适合经验贝叶斯主持t统计量fitDupCor < -易趣(fitDupCor)

梦的解析

limma梦想方法取代两个核心功能的线性混合模型。

voomWithDreamWeights ()替换轰()估计精度的重量
梦想()替换lmFit ()估计回归系数。

否则使用相同的工作流limma与梦想topTable (),因为任何统计差异是在幕后处理。

#指定并行处理参数#这是隐式地使用梦想()并行运行param =SnowParam(4,“袜子”,progressbar =真正的)#要测试的变量必须是固定效果形式< -~疾病+(1|个人)#估计重量使用线性混合模型的梦想vobjDream =voomWithDreamWeights(geneExpr形式、元数据BPPARAM =参数)#梦想每个基因模型#默认情况下,使用Satterthwaite近似假设检验fitmm =梦想(vobjDream、形式、元数据)fitmm =易趣(fitmm)

#检查设计矩阵头(fitmm美元设计,3)

# # # #(拦截)疾病sample_01 1 0 # # sample_02 1 0 # # sample_03 1 0

#让假设检验的结果感兴趣的系数topTable(fitmm系数=“疾病”,数量=3)

# # logFC AveExpr t P。adj.P价值。Val B基因= # # ENST00000283033.5 TXNDC11 1.556233 3.567624 31.02068 3.099042 3.099042 e-21 e-18 38.15636 # # ENST00000257181.9基因= PRPF38A 1.380549 4.398270 21.59222 1.683871 8.419354 e-17 e15汽油29.93271 # # ENST00000525790.1基因= TDRKH 1.508341 3.184931 19.51845 1.767605 5.892017 e-16 e-14 27.78202 # # z。std = TXNDC11 9.459336 # # # # ENST00000283033.5基因ENST00000257181.9基因= PRPF38A 8.513757 # # ENST00000525790.1 = TDRKH 8.236879

因为梦想使用估计每个hypothsis自由度值测试,每个基因的自由度是不同的。因此,t不具有直接可比性,因为他们有不同的自由度。为了能够比较测试统计,我们的报告z.std这是假定值转换为z分数签署。这可以用于下游分析。

注意,如果没有指定一个随机效应,梦想()自动使用lmFit (),但是用户必须运行ebay ()之后。

先进的假设检验

使用对比比较系数

您还可以执行的假设检验区别两个或多个系数之间通过对比矩阵。当时的对比评估模型的结果可以提取topTable ()。这个像makeContrasts ()和contrasts.fit ()在limma。

可以将多个对比评估同时,为了节省计算时间。一定要检查你的对比矩阵来确认它是测试你的意愿。

形式< -~0+DiseaseSubtype+性+(1|个人)L =makeContrastsDream(形式、元数据对比=c(“DiseaseSubtype2 DiseaseSubtype1”,“DiseaseSubtype1 DiseaseSubtype0”))#可视化对比矩阵plotContrasts(左)

#梦想模型对比适合=梦想(vobjDream、形式、元数据、L)适合=易趣(适合)#获得名称可用系数和对比测试colnames(适合)

# # [1]“DiseaseSubtype2 DiseaseSubtype1”“DiseaseSubtype1 DiseaseSubtype0”# # [3]“DiseaseSubtype0”“DiseaseSubtype1”# # [5]“DiseaseSubtype2”“SexM”

#从第一次提取结果的对比topTable(健康,系数=“DiseaseSubtype2 DiseaseSubtype1”,数量=3)

# # logFC AveExpr t P。adj.P价值。Val B基因= # # ENST00000355624.3 RAB11FIP2 e-05 3.698015 -0.9493146 5.260280 -5.114589 0.03698015 - 0.1470281 # # ENST00000593466.1基因= DDA1 -1.7265709 3.901579 -3.700902 1.205688 0.60284415 - -1.2751588 e 03 # # = CETP基因ENST00000200676.3 1.4777422 3.723438 3.910146 3.397163 e 03 0.99951347 - -1.4383267 # # z。std = RAB11FIP2 -4.125580 # # # # ENST00000355624.3基因ENST00000593466.1基因= DDA1 -3.237531 # # ENST00000200676.3 = 2.929309 CETP基因

比较多个系数

到目前为止对比只涉及两个系数之间的差别。但对比还可以比较的线性组合系数。在这里,考虑比较DiseaseSubtype0的意思是DiseaseSubtype1和DiseaseSubtype2。注意您还可以自定义的名称的对比。

L2 =makeContrastsDream(形式、元数据对比=c(Test1 =“DiseaseSubtype0 - (DiseaseSubtype1 + DiseaseSubtype2) / 2”))plotContrasts(L2)

#梦想模型评价对比适合=梦想(vobjDream [1:10),形式、元数据L =L2)适合=易趣(适合)topTable(健康,系数=“Test1”,数量=3)

# # logFC AveExpr t P。adj.P价值。Val B = # # ENST00000456159.1基因满足-0.9830788 2.458926 -6.975125 3.529900 3.529900 e-08 e-07 8.662257 # # ENST00000570099.1基因= YPEL3 -0.9512918 2.063331 -6.648837 6.060468 2.172997 e-07 e-06 7.230068 # # ENST00000418210.2基因= TMEM64 -1.0343236 4.715367 -6.655755 6.518991 2.172997 e-07 e-06 7.694537 # # z。std =遇到-5.512889 # # # # ENST00000456159.1基因ENST00000570099.1基因= YPEL3 -4.989280 # # ENST00000418210.2 = TMEM64 -4.975171

联合假设检验多个系数

联合假设检验可以由多个系数同时使用一个野生。就像在limma,结果可以提取使用topTable ()

#从第一次提取结果的对比topTable(健康,系数=c(“DiseaseSubtype2”,“DiseaseSubtype1”),数量=3)

# # DiseaseSubtype2 DiseaseSubtype1 AveExpr F P。值# # ENST00000418210.2基因= TMEM64 5.301001 5.211674 4.715367 744.4317 5.216147 e-23 # # ENST00000555834.1基因= RPS6KL1 5.662699 5.719196 5.272063 657.9520 2.377852 e-22 # # ENST00000589123.1基因= NFIC 6.545195 6.181023 5.855335 519.2464 4.314164 e-21 # # adj.P。Val F。std = # # ENST00000418210.2基因TMEM64 5.216147 e-22 51.30770 # # ENST00000555834.1基因= 1.188926 RPS6KL1 e-21 49.79067 # # ENST00000589123.1 = NFIC 1.438055 e-20 46.89238

因为梦想使用估计每个hypothsis自由度值测试,每个基因的自由度是不同的。因此,统计量不具有直接可比性,因为他们有不同的自由度。为了能够比较测试统计,我们的报告F.std这是假定值转换为f统计量\ (df_1 \)系数测试的数量\ (df_2 = \ infty \)。这可以用于下游分析。

小方法

对于小数据集,Kenward-Roger方法可以更强大。但它是大幅更多的计算量。

fitmmKR =梦想(vobjDream形式、元数据地区指定基金=“Kenward-Roger”)fitmmKR =易趣(fitmmKR)

variancePartition情节

梦想和variancePartition共享相同的线性混合模型的基本框架。variancePartition分析可以显示重要变量,应该包括梦想的固定或随机效应分析。

#注意:这可能是跑轰的要么vobj ()#或vobjDream voomWithDreamWeights ()# resuylts是相似的形式=~(1|个人)+(1|病)vp =fitExtractVarPartModel(vobj、形式、元数据)plotVarPart(sortCols(副总裁)

从梦想和duplicateCorrelation假定值进行比较

为了了解empircal梦想和复制相关的区别,我们可以画出\ (- \ log_ {10} \)从这两种方法都假定值。

#比较假定值,使情节p1 =topTable(fitDupCor系数=“疾病”,数量=正,sort.by =“没有”)美元P.Valuep2 =topTable(fitmm数量=正,sort.by =“没有”)美元P.ValueplotCompareP(p1, p2,副总裁美元个人,dupcor美元共识)