miRLAB

Thuc Duy勒

2022-04-28

介绍

小分子核糖核酸(microrna)很重要的调节基因在转录后水平,他们控制范围广泛的生物过程和参与几种类型的癌症。因此,探索microrna的功能是重要的诊断和therapeuticsinferring和推断miRNA-mRNA监管关系是一个至关重要的问题。

microrna的signiffcant角色产生了一个快速的发展越来越多的方法近年来推断miRNA-mRNA监管的关系。巨大的努力已经在发现microrna的目标基于序列数据的microrna mrna。然而,预测结果的方法不一致,并包含错误发现率很高。最近,它提出了基因表达数据合并到miRNA-mRNA监管关系的研究。这些方法已被证明是有效地减少了错误的发现。然而,缺乏计算工具因超速microrna的研究,鉴于时间处理数据,对比不同的计算方法,验证预测非常耗费时间。例如,一个典型的过程为研究来测试一个新的microrna的目标预测方法:

  1. 收集microrna的匹配和mRNA表达谱在一个特定的条件,例如,TCGA的癌症数据集,

  2. 新的计算方法应用到所选择的数据集,

  3. 从文学和第三方验证预测对知识数据库,和

  4. 比较该方法与一些现有的方法的性能。

这个过程是费时的时间收集和处理数据的时候,重复的工作从现有的方法,从文献搜索知识和第三方数据库来验证结果,并比较不同方法的结果。耗时的程序可以防止人员快速测试新的计算模型,分析新的数据集,选择合适的方法协助实验设计。

在这里,我们提供了一个R包、miRLAB推断的过程自动化和验证miRNA-mRNA监管的关系。包提供了一组完整的管道进行测试新方法和新数据集的分析。miRLAB包括一组内置microrna的匹配和mRNA表达数据集,一个管道数据直接从癌症基因组图谱(TCGA),基准计算方法推断miRNA-mRNA监管关系,验证预测的功能使用microrna的实验验证目标数据和microrna的转染数据,和工具来比较不同计算方法的结果。

# miRLAB microrna的目标预测的计算方法[1],我们提供一些常用的microrna的目标预测的计算方法。我们已经重新实现的方法,这样他们很容易使用一个简单的函数调用(就一行代码调用的方法)。用户只需要提供数据集以csv格式(参见数据集和地面事实部分的更多细节),并指定的列索引的原因(microrna)和结果(mrna)。这些函数调用有相同的语法,因此它是方便用户。在下面我们将展示如何使用皮尔逊相关性(皮尔逊函数),互信息(MI函数),因果推论(IDA)函数,和回归(套索函数)来推断microrna与mrna之间的关系。每个函数将返回一个包含相关系数矩阵/分数代表microrna的影响对mrna。行和列是microrna mrna。请参阅[1]或手工包的所有功能的完整列表(方法推断miRNA-mRNA关系)。

图书馆(miRLAB)数据集=执行(“extdata”,“EMT35.csv”,包=“miRLAB”)导致=1:35# 1时35是抵达microrna列影响=36:1189年#列36:1189 mrna#使用皮尔逊相关性预测microrna的目标皮尔森=皮尔森(数据、原因、影响)#使用互信息预测microrna的目标mi =心肌梗死(数据、原因、影响)#预测microrna的目标使用因果推论艾达=艾达(数据集,原因,影响,“稳定”,0.01)#使用线性回归预测microrna的目标套索=套索(数据、原因、影响)

#验证计算预测

预测结果可以根据实验进行验证确认数据库。我们可能需要提取每个microrna的预测目标进行验证。

图书馆(miRLAB)#验证每个microrna的巨鲸音乐网目标预测的结果#的四种方法数据集=执行(“extdata”,“ToyEMT.csv”,包=“miRLAB”)皮尔森=皮尔森(数据集,1:3,4:18)miR200aTop10 =荞麦(皮尔森,3,10,真正的)groundtruth =执行(“extdata”,“Toygroundtruth.csv”,包=“miRLAB”)miR200aTop10Confirmed =验证(miR200aTop10 groundtruth)

或者,我们可以提取预测交互(可能包括多个microrna)和验证这些预测与实验证实数据库。

图书馆(miRLAB)#验证每个microrna的巨鲸音乐网目标预测的结果#的四种方法数据集=执行(“extdata”,“ToyEMT.csv”,包=“miRLAB”)EMTresults =皮尔森(数据集,1:3,4:18)全球=Extopk(EMTresults10)groundtruth =执行(“extdata”,“Toygroundtruth.csv”,包=“miRLAB”)top10Confirmed =验证(全球groundtruth)

#数据集和地面真理

输入数据集应该在csv格式和包含两个microrna的表达数据和mrna。第一行的数据集(头)必须包含基因microrna和mrna的象征。下面的示例显示了一个有效的前几行和列的输入数据集。

图书馆(miRLAB)数据集=执行(“extdata”,“ToyEMT.csv”,包=“miRLAB”)数据集=(数据集)数据集(1:5,1:7]

为了验证计算方法的结果,用户需要提供地面真理csv格式。地面真理文件应该包含两列,第一个显示microrna的符号和第二显示了信使rna的象征。地面真理的正确格式文件如下所示。

图书馆(miRLAB)groundtruth =执行(“extdata”,“Toygroundtruth.csv”,包=“miRLAB”)groundtruth =(groundtruth)groundtruth [1:5,)

结论

到目前为止,已经提出的几种计算方法推断miRNA-mRNA监管关系使用表达数据有或没有microrna的目标信息。每个方法都有自己的优点,没有单一的方法总是表现最好的在所有的数据集。仍然有缺乏工具评估计算方法和探索microrna的功能在一个新的数据集,验证microrna的预测结果,协助试验设计和选择合适的方法。

为了解决这一问题,我们建议创建一个全面的想法干在一台计算机实验室环境。想法后,我们已经开发了一个叫miRLAB R包,为探索和试验提供这样一个计算实验室miRNA-mRNA监管的关系。miRLAB包括三个部分:数据预处理、计算方法、验证和后处理。请参考参考论文四个不同的场景展示如何使用包。细节用户手册中列出的所有功能,用户可以设计自己的工作流使用这些易于使用的函数。

引用

Thuc Duy Le, Junpeng张、刘林和李Jiuyong miRLAB:基于R干实验室探索miRNA-mRNA关系,提交。