在这里,我们提供了用于触摸的代码范围ummarizedexperiment.对象的目的呼吸道实验数据包。实验引用是:
他是,江X,瓦格纳P,胡河,王q,klanderman b,惠特克rm,duan q,lasky-su j,nikolos c,jester w,johnson m,panettieri r jr,tantisira kg,weiss st,lu q。“RNA-SEQ转录组分析将脆皮曲线导致响应基因识别为调节气道平滑肌细胞中细胞因子功能的糖皮质激素敏感基因。”Plos一个。2014年6月13日; 9(6):E99625。PMID:24926665.。地理:GSE52778。
从摘要开始,RNA-SEQ实验对气道平滑肌(ASM)细胞系:“使用RNA-SEQ,高通量测序方法,我们在治疗的四次一次人ASM细胞系中表征转录组变化用地塞米松 - 一种有效的合成糖皮质激素(1微摩尔18小时)。“
笔记:在1.6版中,将包装更新为包括两个样本,SRR1039508和SRR1039509,使用三文鱼量化,以便演示Tximport / TXimeta Biocomoder封装。有关这些文件的量化步骤的详细信息,请参阅Airway2包:https://github.com/mikelove/airway2。另一个数据集,标记为GSE.
被添加到了呼吸道包,其中包含概括分析使用8使用8个样本将所有8个样本加载到R / Biocconductor的定量数据之后获得的对象tximeta.包装,第一次跑步tximeta.
然后汇总偶联
。
以下代码块从从Geo下载的系列矩阵文件中获取示例信息。然后,添加列并添加具有较短名称和因子级别的新列。
suppressPackageStartupMessages(library("GEOquery")) suppressPackageStartupMessages(library("气道"))dir <- system.file("extdata",package="气道")gefile <- file。gse <- getGEO(filename= gefile) . getGEO(filename= gefile)
## ##──柱规格─────────────────────────────────────────────────────## cols(## id_ref = col_character(),## gsm1275862 = col_character(),## gsm1275863 = col_character(),## gsm1275864 = col_character(),## gsm1275865 = col_character(),## gsm1275866 = col_character(),## gsm1275867 = col_character(),## gsm1275868 = col_character(),## gsm1275869 = col_character(),## gsm1275870 = col_character(),##gsm1275871 = col_character(),## gsm1275872 = col_character(),## gsm1275873 = col_character(),## gsm1275874 = col_character(),## gsm1275875 = col_character(),## gsm1275876 = col_character(),## gsm1275877 =col_character()##)
##文件存储在:
## /tmp/rtmpwbpnv/gpl11154.soft.
pdata <- data.frame(treatment=sub("treatment: (.*)","\\1",pdata$treatment)), cell=sub("cell line: " .* ","\\1",pdata$treatment), cell=sub("cell line: " .* ","\\1",pdata$treatment), cell=sub("cell line: " .* ","cell line: ")(.*)","\\1",pdata$cell), row.names=rownames(pdata) $dex <- ifelse(grepl(" dex ", pdatclean $treatment),"trt","untrt") pdatclean $albut <- ifelse(grepl(" albut ", pdatclean $treatment),"trt","untrt") pdatclean $SampleName <- rownames(pdatclean) pdatclean $treatment <- NULL
使用SRA运行ID从GEO连接示例信息的信息从中下载SRA使用文件发送到:按钮。
srafile < - file.path(dir,sraruninfo_srp033351.csv“)srp < - read.csv(srafile)srpsmall < - srp [,c(”运行“,”avglength“,”实验“,”样本“,”Biosample““,”samplename“)]
这两个data.frames合并,然后我们仅少于使用白甲醇治疗的样品(这些样品不包括在出版物的分析中)。
Coldata < - Merge(PdataClean,Srpsmall,By =“Samplename”)Rownames(Coldata)< - Coldata $ Run Coldata < - Coldata [Coldata $ Albut ==“Untrt”,] Coldata $ Albut < - null Coldata
## SampleName cell dex Run ## SRR1039508 GSM1275862 tissue: human气道平滑肌细胞untrt SRR1039508 ## SRR1039509 GSM1275863 tissue: human气道平滑肌细胞untrt SRR1039509 ## SRR1039510 GSM1275864 tissue: human气道平滑肌细胞untrt SRR1039510 ## SRR1039511 GSM1275865 tissue: human气道平滑肌细胞untrt SRR1039510# SRR1039511 # SRR1039512 GSM1275866 tissue: human airway smooth muscle cells untrt SRR1039511 # SRR1039513 GSM1275867 tissue: human airway smooth muscle cells untrt SRR1039513 # SRR1039514 GSM1275868 tissue: human airway smooth muscle cells untrt SRR1039514 # SRR1039515 GSM1275869 tissue: human airway smooth muscle cells untrt SRR1039514 # SRR1039515 GSM1275869 tissue: human airway smooth muscle cells untrthuman气道平滑肌细胞untrt SRR1039515 ## SRR1039516 GSM1275870 tissue: human气道平滑肌细胞untrt SRR1039516 ## SRR1039517 GSM1275871 tissue: human气道平滑肌细胞untrt SRR1039517 ## SRR1039518 GSM1275872 tissue: human气道平滑肌细胞untrt SRR1039518 ## SRR1039519 GSM1275873 tissue: human气道平滑肌细胞untrt SRR1039518human气道平滑肌细胞untrt SRR1039519 ## SRR1039520 GSM1275874 tissue: human气道平滑肌细胞untrt SRR1039521 GSM1275875 tissue: human气道平滑肌细胞untrt SRR1039521 ## SRR1039522 GSM1275876 tissue: human气道平滑肌细胞untrt SRR1039522 ## SRR1039523 GSM1275877 tissue: human气道平滑肌细胞SRR1039523 ## avglth实验样本生物样本## SRR1039508 126 SRX384345 SRS508568 SAMN02422669 ## SRR1039509 126 SRX384346 SRS508567 SAMN02422675 ## SRR1039510 126 SRX384347 SRS508570 SAMN02422668 ## SRR1039511 126 SRX384348 SRS508569 SAMN02422667 ## SRR1039512 126 SRX384349 SRS508571 SAMN02422678 ## SRR1039512 126 SRX384349 SRS508571 SAMN02422678 ##Srr1039513 87 srx384350 srs508572 samn02422670 ## srr1039514 126 srx384351 srs508574 samn02422681 ## srr1039515 114 srx384352 srs508573 samn02422671 ## srr1039516 120 srx384353 srs508575 samn02422682 ## srr1039517 126 srx384354 srs508576 samn02422673 ## srr1039518 126 srx384355 srs508578 samn02422679 ## srr1039519 107 srx384356 srs508577Samn02422672 ## srr1039520 101 srx384357 srs508579 samn02422683 ## srr1039521 98 srx384358 srs508580 samn02422677 ## srr1039522 125 srx384359 srs508582 samn02422680 ## srr1039523 126 srx384360 srs508581 samn02422674
最后,将示例表保存到CSV文件中以供将来参考。此文件包含在内inst / extdata.
此包的目录。
write.csv(coldata,file =“sample_table.csv”)
创建包含SRA RUN号码的文件:文件
。此文件用于从SRA使用中下载测序的读数wget
。文件中提取FASTQ文件时使用以下命令.sra.
文件,使用SRA工具包
CAT文件|并行-j 7 fastq-dump --split-files {} .sra
读取使用该读取星读对齐器使用来自Enembl版本75的注释来GRCH37。
在`cat文件'中的f for fdo star - genomedir ../star/ensembl.homo_sapiens.release-75 \ --readfilesin fastq / $ f \ _1.fastq fastq / $ f \ _2.fastq \ --runthreadn 12 --outfilenameprefix对齐/ $ f。;完毕
samtools.用于生成BAM文件。
CAT文件|并行-j 7 samtools视图-bs对齐/ {}。对齐.out.sam -o对齐/ {}。bam
从Biomart获得HOMO SAPIENS系列基因的转录数据库。
exonsByGene <- exonsBy(txdb, by="gene")
使用BAM文件使用该文件SRR.
来自SRA的ID。2百万读数的产量大小用于盖住读数期间使用的内存。
采样< - read.csv(“sample_table.csv”,row.names = 1)fls < - file.path(“对齐”,rownames(采样),“.bam”)库(“rsamtools”)bamlst < - bamfilerist(FLS,ExitingSize = 2000000)
以下summarizeOverlaps
调用将8个配对结束BAM文件分发到8个工人。这为每个工作人员最多使用16 GB,经过的时间为50分钟。
图书馆(“Biocomallelation”)注册(MulticoreParam(Workers = 8))库(“基因组态”)气道< - SummarizeOverlaps(特点= Exonsbygene,Reads = Bamlst,Mode =“Union”,SingleNend = False,Ignore.strand = true,碎片=真)
然后将示例信息添加为列数据。
Coldata(Airway)< - dataframe(采样)
最后,我们附上了迈阿密
使用Pubmed ID获取信息。
图书馆(“annotate”)Miame < - 列表(PMID2MIAME(“2492665”))Miame [[1]] @ URL < - “http://www.ncbi.nlm.nih.gov/pubmed/24926665”#因为r's检查不喜欢数据对象#或vignettes中的非ASCII字符。实际的char是在第一个参数miame [[1]] @ abstract < - gsub(“micro”,“micro”,摘要(miame [1]))miame [[1]] @摘要< - gsub(“beta”,“beta”,摘要(MIAME [1]))元数据(Aiame)< - Miame Save(Airway,File =“Airway.rdata”)
下面我们打印出一些基本的摘要统计数据呼吸道
该实验数据包提供的对象。
图书馆(“气道”)数据(气道)气道
##类:范围:umaMarizedexperiment ## Dim:64102 8 ##元数据(1):''##测定(1):Counts ## Rownames(64102):ENSG00000000005 ... LRG_98 LRG_99 ## ROWDATA名称(0):## Colnames(8):SRR1039508 SRR1039509 ... SRR1039520 SRR1039521 ## COLDATA名称(9):SAMPLENAME CELL ...样品生物素
as.data.frame (colData(气管))
## SampleName cell dex albut Run avgLength Experiment ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039508 126 SRX384345 # SRR1039509 GSM1275863 N61311 untrt untrt SRR1039509 126 SRX384346 # SRR1039512 GSM1275866 N052611 untrt untrt SRR1039513 126 SRX384349 # SRR1039512 GSM1275867 N052611 untrt untrt SRR1039513 87 SRX384350 ## SRR1039516GSM1275870 N080611 untrt untrt SRR1039516 120 srx38453 ## SRR1039517 GSM1275871 N080611 untrt untrt SRR1039517 126 srx38454 ## SRR1039520 GSM1275874 N061011 untrt untrt SRR1039520 101 srx38457 ## SRR1039521 GSM1275875 N061011 untrt untrt SRR1039521 98 srx38458 ##样本生物样本## SRR1039508 SRS508568 SAMN02422669 ## SRR1039509 SRS508567Samn02422675 ## srr1039512 srs508571 samn02422678 ## srr1039513 srs508572 samn02422670 ## srr1039516 srs508575 samn02422682 ## srr1039517 srs508576 samn02422673 # srr1039520 srs508579 samn02422683 # srr1039521 srs508580 samn02422677
摘要(COLSUMS(测定(气道))/ 1E6)
## min。第1曲。中位数意味着第3曲。最大限度。## 15.16 19.05 20.90 21.94 24.67 30.82
元数据(rowRanges(气管))
## $ Genomeinfo ## $ Genomeinfo $`DB类型'-DB类型'## [1]“transcriptdb”## ## $ Genomeinfo $`支持包装»“GenomicFeatures”## ## $ Genomeinfo $`数据源`## [1]“Biomart”## ## $ Genomeinfo $ Onderism ## [1]“Homo Sapiens”## ## $ Genomeinfo $`资源URL` ## [1]“www.biomart.org:80“## ## $ genomeinfo $`biomart数据库'## [1]”ensembl“## ## $ genomeinfo $`biomart数据库版本`## [1]”Ensembl Genes 75(Sanger UK)“## ##$ genomeinfo $$`biomart dataset` ## [1]“hsapiens_gene_ensembl”## ## $ genomeinfo $`biomart dataset描述`## [1]“homo sapiens基因(grch37.p13)”## ## $ genomeinfo $`BioMart DataSet版本`## [1]“Grch37.P13”## ## $ Genomeinfo $`完整数据集版物## [1]“是”## ## $ Genomeinfo $`mirbase构建ID` ## [1]na ## ## $ genomeinfo $ transcript_nrow ## [1]“215647”## ## $ Genomeinfo $ EXON_NROW ##“”745593“## ## $ GENOMEINFO $ CDS_NROW ## [1]”537555“### $ genomeinfo $`db由by` ## [1]“genomicfeatures从bioconductors包装创建”## ## $ Genomeinfo $`创建时间`## [1]“2014-07-10 14:55:55 -0400(星期四,2014年7月10日)“## ## $ Genomeinfo $`genomicfeatures版本在创建时间的时间## [1]”1.17.9“## ## $ Genomeinfo$`rsqlite版本在创建时间## [1]“0.11.4”## ## $ Genomeinfo $ dbschemaversion ## [1]“1.0”
sessioninfo()
在开发(不稳定)下(2020-10-17 R79346)##平台:X86_64-PC-Linux-GNU(64位)##正在运行:Ubuntu 20.04.1 LTS ## ##矩阵产品:默认## blas:/home/biocbuild/bbs-3.13-bioc/r/lib/liblblas.so ## lapack:/home/biocbuild/bbs-3.13-bioc/r/lib/librlapack.so #### locale:## [1] lc_ctype = en_us.utf-8 lc_numeric = c ## [3] lc_time = en_us.utf-8 lc_collate = c ## [5] lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8##[7] lc_paper = en_us.utf-8 lc_name = c ## [9] lc_address = c lc_telephone = c ## [11] lc_measurement = en_us.utf-8 lc_identification = c ## ##附加基本包:##[1] stats4并行统计图形grdevices utils数据集## [8]方法基础## ##其他附加的包:## [1] Airway_1.11.0概述_21.0 ## [3] GenomicRanges_1.43.0 Genomeinfodb_1.27.0 ## [5] IRanges_2.25.0 S4Vectors_0.29.0 ## [7] MatrixGenerics_1.3.0 matrixStats_0.57.0 ## [9] GEOquery_2.59.0 Biobase_2.51.0 ## [11] BiocGenerics_0.37.0 ## ##经由一个命名空间加载(和未附着):## [1] Pillar_1.4.6 Compiler_4.1.0 xvector_0.31.0 ## [4] Bitops_1.0-6 Tools_4.1.0 zlibbioc_1.37.0 ## [7] lattice_0.20-41评估_0.14 lifecycle_0.2.0 ## [10] tibble_3.0.4 pkgconfig_2.0.3 rlang_0.4.8 ## [13] matrix_1.2-18 rstudioapi_0.11 cli_2.1.0 ## [16] delayedarray_0.17.0 xfun_0.18 genomeinfodbdata_1.2.4 ## [19] dplyr_1.0.2 stringr_1.4.0 XML2_1.2 ## [22] KNITR_1.30 GENERICS_0.0.2 VCTRS_0.3.4 ## [25] HMS_0.5.3 GRID_4.1.0 TIDYSELECT_1.1.0 ## [28] GLUE_1.4.2 R6_2.5.0 FANSI_0.4.1 ## [31] Limma_3.47.0 Tidyr_1.1.2 ReadR_1.4.0 ## [34] purrr_0.3.4 magrittr_0.3.5 ps_1.4.0 ## [37] ellipsis_0.3.1 assertthat_0.2.1 stringi_1.5.3 ## [40] rcurl_1.98-1.2蜡笔_1.3.4