# # #巴克提已经和珍妮·科瓦尔斯基
Winship癌症研究所、埃默里大学、亚特兰大,30322年,美国
# # #的介绍
基因综合设置概要设计分析(GISPA)是一种方法来定义与类似的基因集,先天的定义分子概要文件(Kowalski et al ., 2016)。GISPA可以执行一个,两个,或three-feature分析。这里的功能是定义为一个特定的数据类型(例如,表达式(EXP),甲基化(遇到),变体(VAR),或拷贝数变异(CNV))和概要文件的基因组变化的方向增加()或减少(下降)在一个特性。GISPA开发方法是为了解决全基因组的比较三个样本的类(或组)根据每组只有一个样品,在剖面变化从多个基因组数据类型;比较也可以完成基于单一数据类型。使用这个R包,用户结合和比较几种全基因组数据类型从三个示例类发现基因与基因组配置特定于样本集类。GISPA工作流程包括以下步骤:(A)定义你们的样品:用户指定一个参考样本(样本利息),剩下的其他两个对比样本。(B)选择的数据类型:用户可以执行单个,两个或两个three-feature分析。(C)选择的方向变化数据类型:用户输入数据类型感兴趣的数据和资料的分析类型选择。(D)诊断情节显示感兴趣的基因集支持配置文件的参考示例:(E)排名最高的基因集视觉样本类间的差异为多个功能分析和数据类型。
# # #先决条件1)下载并安装R或RStudio(3.2.2版本。或更高版本)https://cran.r-project.organd2)开放R和安装所需的以下包:
# # #示例数据集包包含三个预处理和标准化的示例数据集:RNA-seq派生的基因表达,Exome-seq派生变量改变,DNA拷贝数变化数据从三个多发性骨髓瘤细胞系。提供的数据集作为ExpressionSet对象称为GISPAdata GISPA包。
示例数据集可以加载如下:
# # ExpressionSet (storageMode: lockedEnvironment) # # assayData: 1500功能,3 # #样品元素名称:exprs # # protocolData:没有# # phenoData # # sampleNames: sample1 sample2 sample3 # # varLabels:组# # varMetadata: labelDescription # # featureData # # featureNames: CDKN2C KIAA0125……LRCH1 (1500) # # fvarLabels:基因# # fvarMetadata: labelDescription # # experimentData:使用“experimentData(对象)# #注释:
# # ExpressionSet (storageMode: lockedEnvironment) # # assayData: 1101功能,3 # #样品元素名称:exprs # # protocolData:没有# # phenoData # # sampleNames: sample1 sample2 sample3 # # varLabels:组# # varMetadata: labelDescription # # featureData # # featureNames: chr1; 10044379; 10044379;一个;G chr1; 100489996; 100489996;; G # #……chr9; 98224149; 98224149; C T (1101) # # fvarLabels:基因# # fvarMetadata: labelDescription # # experimentData:使用“experimentData(对象)# #注释:
# # ExpressionSet (storageMode: lockedEnvironment) # # assayData: 534功能,3 # #样品元素名称:exprs # # protocolData:没有# # phenoData # # sampleNames: sample1 sample2 sample3 # # varLabels:组# # varMetadata: labelDescription # # featureData # # featureNames: 4:164613808:164622810 1:87122399:88231174……# # 19:11780793:11785401 (534)# # fvarLabels:基因# # fvarMetadata: labelDescription # # experimentData:使用“experimentData(对象)# #注释:
输入数据集包含的行代表基因(ids)或其他形式的基因和列代表样本。请参阅示例ExpressionSet为每个数据类型(例如,exprset, varset, cnvset)提供的包。
# # # 1)输入数据需求的最大文件大小限制为500 MB。2) GISPA两下或threee-feature分析需要多个数据类型之间的重叠基因的名字。3)至少至少10基因和三个示例类是必需的。4)不重复样本(列)名称或允许重复基因(行)名称和分析将会停止。5)基因与零方差在所有这些样本将被排除在分析之外。
# # # GISPA分析用户选择分析类型(单一特征,两部剧情或three-feature),提供了数据文件,定义了标准样品(样品感兴趣的),选择感兴趣的资料,为每个功能和数据类型定义基因集。输入数据可以全基因组或基于先验知识来源于生物过程、途径,生物标志物的发现,或基因组分析。用户可以选择一个概要文件要么增加(“向上”)或减少(“向下”)在每一个特定的功能或数据类型。一些示例数据类型选择包括表达式(“经验值”),体细胞突变或变体(VAR),拷贝数变化(CNV))和甲基化(“遇见”),但它可以是任何数值数据类型的组合。用户定义样本的类(或组)通过指定输入数据文件中的示例列索引对应于“参考”(利息)样本和两个相关样本比较的参考样本。引用的列索引和另外两个相对的样品应该是一致的数据文件中跨多个数据类型。
GISPA生成以下输出:(1)基因的数据表设置配置文件确定变化点。(2)散点图代表基因排序从最小的(至少可取的)最大(最可取的)概要分数按变化点分组根据那些满足概要文件最(改变点1;以上水平橙色虚线),仅次于(改变2或更高;灰色虚线以上)等等。用户可以指定/修改变化点检测方法(小锚R, et al ., 2016)中找到最佳的破发点估计剖面样品得分(科瓦尔斯基,et al ., 2016)。的变化可以在均值或方差使用变化点方法(“大西洋经向翻转环流”,“BinSeg”,“皮”,或“SeqNeigh”)规定的最大数量的变化点。(3)边坡情节的选择变化点代表最好的基因集概要文件。在每一个基因,一个数据类型的变化,例如,表达和变异进行了总结参考与其他两个样品的计算斜率。山坡上然后总结所有基因集内点通过他们的平均变化。平均斜率变化点的数据类型是策划这样一个点代表的支持级别排名为每一个变化点基因集,在顶端的“最好”的概要文件(变化点(1)表示orange-filled点颜色。 (4) Stacked bar plots using HH R package (Heiberger 2016) of the ranked gene sets profiles to depict their distribution based on observed input data in the reference relative to other two samples to access the sample and data type driving the profile. This enables users to visualize the level-wise breakdown of each data type, whether or not output gene set satisfy the profile of interest, and if not, is there a particular feature that appears to be prominent for a particular gene. The stacked bar plots highlight the between-feature differences, i.e., the percent contribution from each input data type to the gene profile displayed, and between-sample differences, i.e., the percent contribution from each sample to the summed total of each feature. The stacked barplots are only generated for two- and three- feature analysis.
这里我们通过一个示例来说明GISPA两部剧情分析使用全基因组表达和拷贝数改变数据集的三组多发性骨髓瘤细胞系获得基因表达增加,增加拷贝数(与复制获得表达基因)配置特定于KMS-11细胞系。
结果< -GISPA(特点=2,f.sets =c(exprset cnvset),g.set =零,ref.samp.idx =1,comp.samp.idx =c(2,3),f.profiles =c(《飞屋环游记》,《飞屋环游记》),cpt.data =“var”,cpt.method =“BinSeg”,cpt.max =5)
排名基因的功能还生成散点图中的变化点数据集分类从最小的(理想的)到最大(最可取的)之间的基因资料统计
Changepoint散点图代表平均斜率计算每个变化点为每个数据类型的参考样品相对于其他两个对比样本可以获得如下:
# #空
堆叠barplot代表点之间差异的基因集选择改变点使用表达式和变体数据值。样本组的利益(引用)显示为红色,而两个相关样本所示蓝色和绿色,分别。
stackedBarplot(gispa.output =结果美元cpt_out,特点=2,cpt =1,类型=c(“经验”,“CNV”),input.cex =1.5,input.cex.lab =1.5,input.gap =0.5,samp.col =c(“红色”,“绿色”,“蓝色”),strip.col =c(“黄色”,“陶瓷”))
堆叠barplot代表介于功能差异基因集的选择变化点。百分比贡献可以用来识别驾驶特性(s)的基因集,例如,显示基因集具由复制变化(浅灰色)比表达式(深灰色)。
同样,用户可以使用单一特征如GISPA运行定义基因表达数据集与基因表达谱和three-feature分析定义与表达,增加集在KMS-11变体,复制改变形象
结果< -GISPA(特点=1,f.sets =c(exprset),g.set =零,ref.samp.idx =1,comp.samp.idx =c(2,3),f.profiles =c(《飞屋环游记》),cpt.data =“var”,cpt.method =“BinSeg”,cpt.max =5)
结果< -GISPA(特点=3,f.sets =c(cnvset exprset varset),g.set =零,ref.samp.idx =1,comp.samp.idx =c(2,3),f.profiles =c(“向下”,“向下”,“向下”),cpt.data =“var”,cpt.method =“BinSeg”,cpt.max =5)# #(结果)
# # #资金资助的这项工作是白血病和淋巴瘤协会转化研究项目奖(Jeanne Kowalski);格鲁吉亚研究联盟科学家奖(Jeanne Kowalski);一组科学种子资金Winship癌症研究所的埃默里大学(Lawrence h .博伊西Sagar Lonial,迈克尔·r·罗西);生物统计学和生物信息学共享资源Winship癌症研究所的埃默里大学和NIH / NCI(奖P30CA138292数量,部分)。内容是完全的责任作者,不一定代表美国国立卫生研究院的官方观点。
# # #引用请引用GISPA方法:Kowalski J,已经受理B,纽曼年代,Switchenko JM,保利R,古特曼哒,Arora J, K,甘地Ainslie K, Doho G,秦Z,莫雷诺CS,罗西先生,Vertino点,Lonial年代,Bernal-Mizrachi L,博伊西LH。基因综合设置概要分析:基于上下文的方法推断生物端点。核酸研究》2016年4月20日,44 (7):e69。doi: 10.1093 / nar / gkv1503。Epub 2016年1月29日。PubMed PMID: 26826710;PubMed Central PMCID: PMC4838358。
# # # 1的引用。科瓦尔斯基J,已经受理B,纽曼年代,Switchenko JM,保利R,古特曼哒,Arora J, K,甘地Ainslie K, Doho G,秦Z,莫雷诺CS,罗西先生,Vertino点,Lonial年代,Bernal-Mizrachi L,博伊西LH。(2016)。基因综合设置概要分析:基于上下文的方法推断生物端点。核酸的研究doi: 10.1093 / nar / gkv1503。2。小锚R,海恩斯K和IA,大肠changepoint: R包changepoint分析。2.2.1 2016 R包版本。3所示。heiberg . HH:统计分析和数据显示:海伯格和荷兰。R包版本3.1 -32 2016。