前言

本文档走用户通过一个典型管道添加注释信息空间蛋白质组学数据。对于一般的实用介绍pRoloc和空间蛋白质组学数据分析,读者被称为教程,可以使用装饰图案(“pRoloc-tutorial”,包=“pRoloc”)

1介绍

探索蛋白质注释和亚细胞定位标记定义(即已知的居民一个特定亚细胞定位在一个物种,利息)条件下,扮演了一个重要的角色在空间蛋白质组学数据的分析。后者是必不可少的下游监督机器学习(ML)分类对蛋白质本地化预测(见装饰图案(“pRoloc-tutorial”,包=“pRoloc”)装饰图案(“pRoloc-ml”,包=“pRoloc”)信息可用毫升方法)和前首次生物通过匹配注释解释很有趣的数据结构。

健壮protein-localisation预测是依赖标记反映真正的多元数据的亚细胞多样性。标记通常是由专家确定管理的有效性。这可能是耗时和困难由于有限数量的标记蛋白质,存在于数据库和其他地方。基因本体论(去)数据库,特别是细胞室(CC)名称空间提供一个很好的起点对蛋白质注释和标记定义。然而,自动从数据库中提取,特别是CC,仅仅是第一步在亚细胞定位分析,需要额外的管理计数器不可靠的注释基于不准确的数据或断章取义的生物问题接受调查。

为了便于上面,我们已经开发出一种注释检索和管理系统,提供了一个灵活的框架的探索亚细胞蛋白质组学数据。我们已经开发出一种方法来关联注释信息的多元数据空间识别密集带注释的地区和评估集群紧张。给定的一组蛋白质,分享一些属性如一个指定的术语,k - means聚类用于适应数据(测试k = 1:5),然后为每个的数量k组件测试,所有成对欧几里得距离计算每个组件,然后正常化。距离最小均正常然后提取并用作衡量集群的紧张。这是所有蛋白质/重复注释集。这些集然后排名根据最小均正常距离可以显示和探索使用pRolocGUI包中。

在这个描述我们向用户呈现一个循序渐进的指南如何(1)如何添加蛋白质注释,这里我们使用的数据库作为一个例子,和(2)和订单信息(如条款)根据他们的相关的数据结构,为最优数据的提取特定的带注释的集群。

2加载数据

我们将展示我们的管道添加和排名注释信息使用多能LOPIT实验老鼠胚胎茎(Christoforou等2016),并记录在可用pRolocdata包数据hyperlopit2015

库(pRoloc)库(pRolocdata) # #子集的数据标记示例数据(“hyperLOPIT2015”) hyperLOPIT2015 < - markerMSnSet (hyperLOPIT2015)

3添加亚细胞定位信息

所有相关条款去蛋白质出现在检索数据集,用于创建一个二进制矩阵1(0)的位置\ ((i, j) \)表明这一项\ (j \)(不)已经被用于注释特性我\ \ ()。这个矩阵是附加特性的数据槽和存储MSnSet数据集使用addGoAnnotations函数。但是我们首先需要准备注释参数将使我们能够使用包查询Biomart库,能够检索到哪儿去的条款。具体Biomart库和查询将取决于物种正在研究和特性的类型。这个可以设置使用setAnnotationParams函数。

在下面的代码块中我们设置了注释参数hyperLOPIT2015数据集。作为这个物种是鼠标和使用featureNameshyperLOPIT2015数据集是Uniprot加入数字的输入函数被定义为输入= c(“亩骶”、“UniProtKB / Swiss-Prot ID”)。看到setAnnotationParams ?获取详细信息。

参数< - setAnnotationParams(输入= c(“老鼠基因”,“UniProtKB / Swiss-Prot ID”))
# #鼠标使用物种基因(GRCm39)
# #警告:运用将很快执行使用https。# #确保主机的参数包括“https://”
# #使用功能类型UniProtKB / Swiss-Prot ID (s)(如。A0A087WPF7]
# #连接Biomart……
# #警告:运用将很快执行使用https。# #确保主机的参数包括“https://”

现在搜索已经定义的参数我们可以使用addGoAnnotations函数来添加一个信息矩阵featureData槽的数据集。的addGoAnnotations函数接受一个MSnSet的实例作为输入(featureNames将提取)和下载CC条款(默认、生物过程和分子功能也支持名称空间)发现数据集中每个蛋白质。输出MSnSetCC术语二进制矩阵附加到吗fData默认情况下,这就是所谓的GOAnnotations使用(和改变fcol参数)。

cc < - addGoAnnotations (hyperLOPIT2015、参数名称空间=“cellular_component”) fvarLabels (cc)
# # [1]“entry.name”# # [3]“protein.description肽。rep1”“肽。rep2 psm # # [5]。rep1”“psm。rep2 phenodisco“# # [7]”。输入“phenodisco。输出curated.phenodisco # # [9]。输出“标记”# # [11]“svm。分类”“支持向量机。分数svm.top“# # [13]”。四分位数”“决赛。“# #”[15]第一任务。证据" "curated.organelles" ## [17] "cytoskeletal.components" "trafficking.proteins" ## [19] "protein.complexes" "signalling.cascades" ## [21] "oct4.interactome" "nanog.interactome" ## [23] "sox2.interactome" "cell.surface.proteins" ## [25] "markers2015" "TAGM" ## [27] "GOAnnotations"

addGoAnnotationsdefualt不做任何过滤函数的代码,除非指定的证据证据论点,看到addGoAnnotations ?为更多的细节。

通常有许多好的注释物种和数据集包含成千上万的蛋白质,我们常常发现许多CC术语,其中许多可能不是特别有意义。这些条件可以使用的过滤掉filerMinMarkersfilterMaxMarkers功能。

# #下我们过滤词矩阵删除任何条款有# #小于“n”蛋白质或大于总蛋白质的“p”% # #在数据集(删除,只有很少的蛋白质# #和一般条款)cc < - filterMinMarkers (cc) cc < - filterMaxMarkers (cc)

4关联和命令注释信息

现在我们有提取和过滤数据集我们重新订货的注释信息GOAnnotations矩阵的术语根据其相关的数据集的结构。为此我们使用orderGoAnnotations函数。

对于每个块注释信息,如每个去CC的矩阵,这个函数:

  1. 提取所有实例(蛋白质)指定的项
  2. 适合k使用组件集群这个子集kmeans算法(默认的测试k = 1:5)。
  3. 集群计算所有成对欧几里得距离/组件
  4. 立方根正常化每个组件的每个组件实例的数量(这是设置一些通过个人测试,可以使用参数设置p)
  5. 订单的注释信息GOAnnotations根据最小正常化欧几里得距离。

我们发现高密度集群低意味着正常化欧几里得距离。在下面一块我们测试尝试拟合k = 1:3组件集群每项和正常化p = 1/3。命令可以显示使用条款pRolocVis功能pRolocGUI包中。

# #提取标记可以使用n指定选择前n项res < - orderGoAnnotations (cc, k = 1:3, p = 1/3, verbose = FALSE)
# #计算集群密度
库(pRolocGUI) pRolocVis (res fcol =“GOAnnotations”)

4.1检查距离

而不是使用orderGoAnnotations函数是一个包装上面的步骤1 - 5,可以使用手动计算欧氏距离clustDist函数。输入是一个MSnSet数据集的矩阵标记。GOAnnotations附加到fData槽。输出是一个“ClustDistList”。的“ClustDist”“ClustDistList”类总结了算法等信息kmeans k测试的数量,意味着和正常化成对欧几里得距离每号码组件集群测试。

# #现在计算距离dd < - clustDist (cc fcol =“GOAnnotations k = 1:3, verbose = FALSE) dd ([1])
# #对象的类“ClustDist”# # fcol = GOAnnotations # #项=:0005856 # # id =细胞骨架# # nrow = 32 # # k测试:1 2 3 # #尺寸:32 # #尺寸:24 # #尺寸:21 # #集群信息:# # ks。意思是意味着ks。标准规范# # k = 1 0.13253 0.4208 1 # # 0.2104 k = 2 1 1 # # 0.07293 k = 3 1 1 * 0.1601 * 0.05803

我们可以使用plotClustDistplotComponents想象这些结果。

# #情节正常化距离情节(dd, p = 1/3)

# #检查kmeans聚类图(dd [[1]], cc)

的输出plotClustDist箱线图的每项和的输出正常距离好吗plotComponents是一组主成分分析(PCA)的情节,一个为每个k测试,强调根据kmeans组件集群发现算法。

getNormDist函数可以用来提取向量正常的距离。然后可以使用等级和秩序的条款GOAnnotations矩阵,按下面的代码块。

# #正常化×n ^ 1/3 minDist < - getNormDist (dd, p = 1/3) # #得到新订单根据最低距离o < -订单(minDist) # #重新订货的GOAnnotations矩阵的fData fData (cc) $ GOAnnotations < - fData (cc) GOAnnotations美元[o]

最后,我们可以使用pRolocVis函数pRolocGUI想象我们的集群。

pRolocVis (cc fcol = " GOAnnotations”)