((该小插图没有化为,因为它依赖于加载巨大的数据库文件)
运行Lola时的关键问题之一是您的背景集或“宇宙”。您应该将宇宙视为您测试的一组区域,以将宇宙包含在用户集中;或者,换句话说,经过测试的区域的限制背景集,包括您感兴趣的区域中的所有内容以及未包括的所有区域。
例如,如果您测试了一堆基因以差差异表达,那么感兴趣的基因可能是差异表达的基因(在一个方向或另一个方向或独立地)中,宇宙将是您测试过的所有基因的集合。差异(也许所有聚腺苷酸化的基因,或某些表达阈值以上的所有基因)。在Lola使用的基因组位置空间中,您感兴趣的区域可能是差异H3K27AC峰,并且宇宙可能是您的细胞类型中的H3K27AC峰。测试了与数据库重叠的宇宙集,并且计数用于确定用户集显着性的应急表中。这很重要的是,如果您有一些从未真正有可能进入的区域的区域,那么不公平地惩罚您的地区,因为不重叠数据库中的这些区域,从而改变了显着性测试的结果。
在DNA甲基化的情况下:所有具有合理甲基化读数的区域都是您的宇宙,而那些高度甲基化或低甲基化或低甲基化(或差异化甲基化)的宇宙都是您的感兴趣的亚群。这是包括所有具有足够读取的基因可以即使不是甲基甲基甲基化的。
宇宙有点开放,可以尝试一些不同的事情是合理的。改变宇宙不是对还是错,它只是改变了您要问的问题。在这里,我们将制作两个不同的宇宙,以说明它们的不同。首先,我们将使用Sheffield等人的112个样本中的所有DNase高度敏感地点的联合来创建一个通用的宇宙。(2013)。以此为宇宙,我们基本上正在测试我们感兴趣的地区在任何已知的主动监管元素中重叠的地方,因为这是一个广阔的宇宙。这是我创建宇宙的方式:
ActivedHs = lindist(regiondb $ regiongrl [(regiondb $ regionanno $ collection ==“ sheffield_dnase”)])Activedhs = disjoin(activedhs)Activedhs
同样有效的是考虑一个更受限制的宇宙。例如,如果我们建立一个宇宙,即区域集和区域集的结合(来自使用Lola Core Vignette),那么我们正在测试的是在一组中进行富集与其他集合。
因此,让我们也创建这个宇宙:
限制性昆虫= unlist(用户集)
根据使用的宇宙,查看UserSetB和userSetC的结果有何不同:
locresults = runlola(用户组,activedhs,regiondb,cores = 1)locresultsrenters = runlola(underets,rundersets,cristricteduniverse,regiondb,cores = 1)
locresults [useret == 2,] [order(maxrnk,depreseing = false)],] [1:10,] locresultsrenter [userset == 2,] [order(maxrnk,decseasing = false),] [1:10,] [1:10,]locresults [useret == 3,] [order(maxrnk,depreseing = false)],] [1:10,] locresultsrenter [userset == 3,] [order(maxrnk,decdeasing = false),] [1:10,]
受限制的宇宙告诉我们,相对于实验中所有变化的H3K27ac峰的集合,增加具有C-FOS结合的增长,而减少的结合则富含CTCF结合。