例如:发现大肠杆菌在镍胁迫下的显著基因组区

钟华和宋乔

2021年1月26日更新;创建于2019年8月9日

我们用一个例子来说明基因组臭氧包。的大肠杆菌转录组数据集(Gault和Rodrigue 2016)包含的转录组谱大肠杆菌K-12在镍应力下,三个样品暴露于镍和三个正常样品。

要运行此示例,需要另外两个包GEOquery(Davis和Meltzer 2007)下载资料及readxl为Excel文件读取是必需的,并应已安装,此外GenomicOZone

需要(GenomicOZone)#需要(GEOquery)需要(readxl)

下面的代码块读取数据转录组集,准备基因组注释,并在突出区域分析之前创建参数。具体地说,一个大肠杆菌从GEO数据库下载序列号为GSE76167的转录组数据集(埃德加,多姆拉切夫,拉什2002年)并保存在包中。我们从6个样品中提取了RPKM值,其中包括3个应力样品和3个野生型样品。基因组注释被准备成农庄(Lawrence et al. 2013)对象。

#从GSE76167补充文件中获取数据矩阵#看不见(getGEOSuppFiles(“GSE76167”))# data <- read_excel(".//GSE76167_GeneFPKM_AllSamples.xlsx")文件< -执行“extdata”“GSE76167_GeneFPKM_AllSamples.xlsx”包=“GenomicOZone”mustWork =真正的数据< -read_excel(文件)#调整输入数据data.info < -数据(15数据< -数据(-c15)]数据< -数据(字符串的子串colnames(数据),14= =“FPKM”数据< -data.matrix(数据,c1563.42)))colnames(数据)< - - - - - -c粘贴代表“WT”3.),“_”c123.),9月=""),粘贴代表“倪”3.),“_”c123.),9月=""))rownames(数据)< - - - - - -data.infotracking_id#获取基因数据。基因< -data.infogene_short_namedata.genes [data.genes= =“-”) < -data.infotracking_id [data.genes= =“-”#创建colDatacolData < -data.frameSample_name =colnames(数据),条件=因素代表c“WT”“倪”),每一个=3.),水平=c“WT”“倪”)))#创建设计设计< -~条件#创建rowData。农庄模式< -”((^\ \:] *)\ \([0 - 9] +)\ \——([0 - 9]+)”匹配< -regexec(模式,as.character(data.info轨迹)值< -regmatchesas.character(data.info轨迹)、匹配)data.gene.coor < -data.frame空空的=as.character酸式焦磷酸钠(价值观,函数(x) {x [[2]]})),开始=as.numeric酸式焦磷酸钠(价值观,函数(x) {x [[3.]]})),结束=as.numeric酸式焦磷酸钠(价值观,函数(x) {x [[4]]})))rownames(data.gene.coor) < -as.character(data.infotracking_id)rowData。农庄<-农庄seqnames =data.gene.coor空空的,IRanges开始=data.gene.coor开始,结束=data.gene.coor结束),Gene.name =data.genes)的名字(rowData.GRanges) < -data.infotracking_idchr.size<-4646332的名字(chr.size) < -“NC_007779”seqlevels(rowData.GRanges) < -的名字(chr.size)seqlengths(rowData.GRanges) < -chr.size

使用格式化的数据、参数和注释,我们运行未完成的区域分析如下:

#创建一个输入对象,同时检查数据格式、一致性和完整性沙丘状积砂。ds < -GOZDataSetdata =数据,colData =colData,设计=设计,rowData。农庄=rowData.GRanges)#运行突出区域分析沙丘状积砂。ds < -GenomicOZone(GOZ.ds)

以下四个辅助函数分别提取基因注释、区域注释、优秀区域注释和区域表达矩阵:

#提取基因/区域GRanges对象基因。农庄< -extract_genes(GOZ.ds)(Gene.GRanges)#> GRanges对象有6个范围和2个元数据列:#> seqnames ranges strand | Gene.name zone#>    |  #>基因0 NC_007779 189-255 * | thrL NC_007779_1#>基因1 NC_007779 336-2799 * | thrA NC_007779_1#>基因2 NC_007779 2800-3733 * | thrB NC_007779_1#> gen3 NC_007779 3733-5020 * | thrC NC_007779_1#> gen4 NC_007779 5233-5530 * | yaaX NC_007779_1#>基因5 NC_007779 5682-6459 * | yaaA NC_007779_1#> -------#> seqinfo:一个未知基因组序列区。农庄< -extract_zones(GOZ.ds)(Zone.GRanges)#> GRanges对象有6个范围和3个元数据列:#> seqnames ranges#>    | <因子> <数字>#> NC_007779_1 1-10641 * | NC_007779_1 5.12662e-02#> NC_007779_2 10642-37896 * | NC_007779_2 7.18169e-01#> NC_007779_3 37897-72227 * | NC_007779_3 1.43496e-02# | NC_007779_4 72228-96000 * | NC_007779_4 1.72429e-06#> NC_007779 96001-117750 * | NC_007779_5 3.22434e-05#> nc_007779117751 -147942 * | NC_007779_6 9.22932e-01# > effect.size# > <数字>#> NC_007779_1 7.46667e-02#> NC_007779_2 9.40623e-04#> NC_007779_3 4.08649e-02#> n_007779_4 1.86783 -01#> NC_007779_5 1.52381e-01#> NC_007779_6 6.61376e-05#> -------#> seqinfo:一个未知基因组序列# min.effect.size = 0.36从#最小5%的效应大小值臭氧。农庄< -extract_outstanding_zonesGOZ.ds,α=0.05min.effect.size =0.36(OZone.GRanges)#> GRanges对象有6个范围和3个元数据列:#> seqnames ranges#>    | <因子> <数字>#> NC_007779 194902-211875 * | NC_007779_9 2.24272e-08#> NC_007779 505826-538369 * | NC_007779_20 7.00190e-18#> NC_007779_40 nc_0077791027532 -1044650 * | NC_007779_40 3.67993e-11#> NC_007779 3256940-3288667 * | NC_007779_127 4.06311e-20#> NC_007779 3542408-3569464 * | NC_007779_140 1.33424e-28#> NC_007779 4190532-4193530 * | NC_007779_164 3.55346e-13# > effect.size# > <数字>#> nc_007779_9 0.369738#> nc_007779_20 0.367495#> nc_007779_40 0.368724#> nc_007779_127 0.384379#> nc_007779_140 0.591375#> nc_007779_164 0.771429#> -------#> seqinfo:一个未知基因组序列Zone.exp.mat < -extract_zone_expression(GOZ.ds)(Zone.exp.mat)#> WT_1 WT_2 WT_3 Ni_1 Ni_2 Ni_3#> nc_007779_1 62254.279 84002.857 73827.669 48028.196 55300.012 49693.918#> nc_007779_2 14081.429 30395.490 34327.503 31066.653 31408.564 35835.076#> nc_007779_3 3969.418 4348.122 4297.210 5082.839 6690.894 6168.065#> nc_007779_4 10769.938 10361.703 11069.645 13117.399 14347.793 16482.038#> nc_007779_5 5118.158 4878.421 4847.403 4985.081 4368.440 4238.027#> nc_007779_6 8668.344 8609.166 9161.151 9130.383 8987.596 8840.630

方法返回的对象可以生成三种类型的图GenomicOZone ()包括全基因组概述、染色体内热图和区域内表达。图是用R包生成的ggplot2韦翰(2016)而且ggbio(Yin, Cook,和Lawrence 2012).的价值最小效果。size = 0.36从前5%的效应大小值的最小值中选择。方差分析的效应量采用R包法计算sjstats(Ludecke 2019)

#全基因组概述plot_genome(GOZ.ds情节。文件=“E_coli_genome.pdf”情节。宽度=15情节。身高=4α=0.05min.effect.size =0.36#>警告:忽略未知参数:填充“x”的刻度已经存在。为“x”添加另一个刻度,这将#>替换现有的刻度。“x”的刻度已经存在。为“x”添加另一个刻度,这将#>替换现有的刻度。# >零knitr::include_graphics“E_coli_genome.pdf”
#染色体内热图plot_chromosomes(GOZ.ds情节。文件=“E_coli_chromosome.pdf”情节。宽度=20.情节。身高=4α=0.05min.effect.size =0.36# > png# > 2knitr::include_graphics“E_coli_chromosome.pdf”
# zone内表达式plot_zones(GOZ.ds情节。文件=“E_coli_zone.pdf”plot.all.zones =α=0.05min.effect.size =0.36警告:“有趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# >的乐趣。Y '已弃用。用“fun”来代替。# > png# > 2knitr::include_graphics“E_coli_zone.pdf”

参考文献

戴维斯,肖恩,保罗S梅尔策。2007。GEOquery:基因表达综合(Geo)和生物导体之间的桥梁。生物信息学23(14): 1846-7。

埃德加,罗恩,迈克尔·多姆拉切夫,亚历克斯·E·拉什。2002。基因表达综合:NCBI基因表达和杂交阵列数据仓库。核酸研究30(1): 207-10。

高特,玛侬,Agnès罗德里格,2016。"接触镍的大肠杆菌转录组分析数据集"资料简介9: 314 - 17所示。

劳伦斯,迈克尔,沃尔夫冈·胡贝尔,Hervé Pages,帕特里克·阿卜扬,马克·卡尔森,罗伯特·绅士,马丁·T·摩根,文森特·J·凯里,2013。"计算和注释基因组范围的软件"PLoS计算生物学9 (8): e1003118。

Lüdecke,丹尼尔,2019。Sjstats:用于回归模型的统计函数(0.17.5版本)https://doi.org/10.5281/zenodo.1284472

威克汉姆,哈德利,2016。Ggplot2:数据分析的优雅图形.纽约斯普林格-维拉格。https://ggplot2.tidyverse.org

尹腾飞,戴安·库克,迈克尔·劳伦斯。2012。Ggbio:一个用于扩展基因组数据图形语法的R包。基因组生物学13 (8): r77。