我们用一个例子来说明基因组臭氧包。的大肠杆菌转录组数据集(Gault和Rodrigue 2016)包含的转录组谱大肠杆菌K-12在镍应力下,三个样品暴露于镍和三个正常样品。
要运行此示例,需要另外两个包GEOquery
(Davis和Meltzer 2007)下载资料及readxl
为Excel文件读取是必需的,并应已安装,此外GenomicOZone
.
需要(GenomicOZone)#需要(GEOquery)需要(readxl)
下面的代码块读取数据转录组集,准备基因组注释,并在突出区域分析之前创建参数。具体地说,一个大肠杆菌从GEO数据库下载序列号为GSE76167的转录组数据集(埃德加,多姆拉切夫,拉什2002年)并保存在包中。我们从6个样品中提取了RPKM值,其中包括3个应力样品和3个野生型样品。基因组注释被准备成农庄
(Lawrence et al. 2013)对象。
#从GSE76167补充文件中获取数据矩阵#看不见(getGEOSuppFiles(“GSE76167”))# data <- read_excel(".//GSE76167_GeneFPKM_AllSamples.xlsx")执行(“extdata”,“GSE76167_GeneFPKM_AllSamples.xlsx”,包=“GenomicOZone”,mustWork =真正的) 文件< -read_excel(文件) 数据< -#调整输入数据1:5] data.info < -数据(-c(1:5)] 数据< -数据(字符串的子串(colnames(数据),1,4)= =“FPKM”] 数据< -数据(data.matrix(数据,c(1,5,6,3.,4,2))) 数据< -colnames(数据)< - - - - - -c(粘贴(代表(“WT”,3.),“_”,c(1,2,3.),9月=""),粘贴(代表(“倪”,3.),“_”,c(1,2,3.),9月=""))rownames(数据)< - - - - - -data.info$tracking_id#获取基因$gene_short_name 数据。基因< -data.info= =“-”) < -data.info$tracking_id [data.genes= =“-”] data.genes [data.genes#创建colDatadata.frame(Sample_name =colnames(数据), colData < -条件=因素(代表(c(“WT”,“倪”),每一个=3.),水平=c(“WT”,“倪”)))#创建设计~条件 设计< -#创建rowData。农庄”((^\ \:] *)\ \([0 - 9] +)\ \——([0 - 9]+)” 模式< -regexec(模式,as.character(data.info$轨迹) 匹配< -regmatches(as.character(data.info$轨迹)、匹配) 值< -data.frame(空空的=as.character(酸式焦磷酸钠(价值观,函数(x) {x [[2]]})), data.gene.coor < -开始=as.numeric(酸式焦磷酸钠(价值观,函数(x) {x [[3.]]})),结束=as.numeric(酸式焦磷酸钠(价值观,函数(x) {x [[4]]})))rownames(data.gene.coor) < -as.character(data.info$tracking_id)农庄(seqnames =data.gene.coor$空空的, rowData。农庄<-IRanges(开始=data.gene.coor$开始,结束=data.gene.coor$结束),Gene.name =data.genes)的名字(rowData.GRanges) < -data.info$tracking_id4646332 chr.size<-的名字(chr.size) < -“NC_007779”seqlevels(rowData.GRanges) < -的名字(chr.size)seqlengths(rowData.GRanges) < -chr.size
使用格式化的数据、参数和注释,我们运行未完成的区域分析如下:
#创建一个输入对象,同时检查数据格式、一致性和完整性GOZDataSet(data =数据, 沙丘状积砂。ds < -colData =colData,设计=设计,rowData。农庄=rowData.GRanges)#运行突出区域分析GenomicOZone(GOZ.ds) 沙丘状积砂。ds < -
以下四个辅助函数分别提取基因注释、区域注释、优秀区域注释和区域表达矩阵:
#提取基因/区域GRanges对象extract_genes(GOZ.ds) 基因。农庄< -头(Gene.GRanges)#> GRanges对象有6个范围和2个元数据列:#> seqnames ranges strand | Gene.name zone#> | #>基因0 NC_007779 189-255 * | thrL NC_007779_1#>基因1 NC_007779 336-2799 * | thrA NC_007779_1#>基因2 NC_007779 2800-3733 * | thrB NC_007779_1#> gen3 NC_007779 3733-5020 * | thrC NC_007779_1#> gen4 NC_007779 5233-5530 * | yaaX NC_007779_1#>基因5 NC_007779 5682-6459 * | yaaA NC_007779_1#> -------#> seqinfo:一个未知基因组序列extract_zones(GOZ.ds) 区。农庄< -头(Zone.GRanges)#> GRanges对象有6个范围和3个元数据列:#> seqnames ranges#> | <因子> <数字> #> NC_007779_1 1-10641 * | NC_007779_1 5.12662e-02#> NC_007779_2 10642-37896 * | NC_007779_2 7.18169e-01#> NC_007779_3 37897-72227 * | NC_007779_3 1.43496e-02# | NC_007779_4 72228-96000 * | NC_007779_4 1.72429e-06#> NC_007779 96001-117750 * | NC_007779_5 3.22434e-05#> nc_007779117751 -147942 * | NC_007779_6 9.22932e-01# > effect.size# > <数字>#> NC_007779_1 7.46667e-02#> NC_007779_2 9.40623e-04#> NC_007779_3 4.08649e-02#> n_007779_4 1.86783 -01#> NC_007779_5 1.52381e-01#> NC_007779_6 6.61376e-05#> -------#> seqinfo:一个未知基因组序列# min.effect.size = 0.36从#最小5%的效应大小值extract_outstanding_zones( 臭氧。农庄< - GOZ.ds,α=0.05,min.effect.size =0.36)头(OZone.GRanges)#> GRanges对象有6个范围和3个元数据列:#> seqnames ranges#> | <因子> <数字> #> NC_007779 194902-211875 * | NC_007779_9 2.24272e-08#> NC_007779 505826-538369 * | NC_007779_20 7.00190e-18#> NC_007779_40 nc_0077791027532 -1044650 * | NC_007779_40 3.67993e-11#> NC_007779 3256940-3288667 * | NC_007779_127 4.06311e-20#> NC_007779 3542408-3569464 * | NC_007779_140 1.33424e-28#> NC_007779 4190532-4193530 * | NC_007779_164 3.55346e-13# > effect.size# > <数字>#> nc_007779_9 0.369738#> nc_007779_20 0.367495#> nc_007779_40 0.368724#> nc_007779_127 0.384379#> nc_007779_140 0.591375#> nc_007779_164 0.771429#> -------#> seqinfo:一个未知基因组序列extract_zone_expression(GOZ.ds) Zone.exp.mat < -头(Zone.exp.mat)#> WT_1 WT_2 WT_3 Ni_1 Ni_2 Ni_3#> nc_007779_1 62254.279 84002.857 73827.669 48028.196 55300.012 49693.918#> nc_007779_2 14081.429 30395.490 34327.503 31066.653 31408.564 35835.076#> nc_007779_3 3969.418 4348.122 4297.210 5082.839 6690.894 6168.065#> nc_007779_4 10769.938 10361.703 11069.645 13117.399 14347.793 16482.038#> nc_007779_5 5118.158 4878.421 4847.403 4985.081 4368.440 4238.027#> nc_007779_6 8668.344 8609.166 9161.151 9130.383 8987.596 8840.630
方法返回的对象可以生成三种类型的图GenomicOZone ()
包括全基因组概述、染色体内热图和区域内表达。图是用R包生成的ggplot2
韦翰(2016)而且ggbio
(Yin, Cook,和Lawrence 2012).的价值最小效果。size = 0.36
从前5%的效应大小值的最小值中选择。方差分析的效应量采用R包法计算sjstats
(Ludecke 2019).
#全基因组概述plot_genome(GOZ.ds情节。文件=“E_coli_genome.pdf”,情节。宽度=15,情节。身高=4,α=0.05,min.effect.size =0.36)#>警告:忽略未知参数:填充“x”的刻度已经存在。为“x”添加另一个刻度,这将#>替换现有的刻度。“x”的刻度已经存在。为“x”添加另一个刻度,这将#>替换现有的刻度。# >零::include_graphics(“E_coli_genome.pdf”) knitr