作者:Sonali Arora(sarora@fredhutch.org)
日期:2015年7月20-22日
本课程的材料要求R版本3.2.1和Bioconductor版本3.2
分析和理解高通量基因组数据
包装,羽毛,工作流动
有用的链接
典型的工作流包括以下步骤。
——实验设计
——湿实验室制备
-高通量测序
+输出:FASTQ文件读取和他们的质量分数
- 对齐+许多不同的对齐器,一些专门用于不同的目的
+输出:对齐读数的BAM文件
- 概括
+举例来说,数读取重叠的兴趣区域(例如,基因)
——统计分析
——理解
最大的生物导体优势之一是定义的类别,以使简单的任务非常容易和简化。
许多生物学上有趣的问题代表了对范围的操作
GenomicRanges: summarizeOverlaps ()
GenomicRanges::最近的()
[ChIPseeker] []农庄代数
转变()
那狭窄的()
那侧面()
那推动者()
那调整()
那限制()
那削减()
?“范围内 - 方法”
range ()
那reduce ()
那空白()
那分离()
覆盖范围()
(!)?“范围内 - 方法”
findOverlaps ()
那倒数()
、……% / %
那%在%
那%外部%
;联盟()
那相交()
那setdiff ()
那punion ()
那pintersect ()
那psetdiff ()
summarizedexperment类是一个类似矩阵的容器,其中行表示感兴趣的范围(如' GRanges或GRangesList-class '),列表示样本(样本数据总结为' DataFrame-class ')
示例-读取BAM文件
这GenomicAlignments包用于输入读取对齐到参考基因组。在下一个示例中,我们将读取一个BAM文件,特别是读取支持显式
染色体14的外显子剪接结跨度19653773。
这个包RNAseqData.HNRNPC.bam.chr14_BAMFILES包含8个BAM文件。我们将只使用第一个BAM文件。我们将加载软件包和数据包,构造一个农庄与我们的地区感兴趣,并使用summarizeJunctions ()
在我们感兴趣的地区寻找读物。
## 1.加载软件包库(基因组)库(基因组)库(基因组)## 2.加载样本数据库('rnaseqdata.hnrnpc.bam.chr14')bf < - bamfile(rnaseqdata.hnrnpc.bam.chr14_bamfiles [[1]],asmates = true)## 3.定义我们的感兴趣区域ROI < - Granges(“Chr14”,讽刺(19653773,宽度= 1))## 4.对齐,结,重叠我们的ROI Paln < - ReadGalignmentsList(bf)j < - suffarizejunctions(paln,with.revmap = true)j_overlap < - j [j%over%roi] ## 5.支持读paln [j_overlap $ Revmap [[1]]]
# # GAlignmentsList对象长度8:# # # # GAlignments[[1]]对象2排列和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # [1] m120n6m chr14 - 66 72 192 19653898 19653707 1 # # [2] chr14 + 7 m1270n65m 72 1342 19653689 19652348 1 # # # # # # GAlignments[[2]]对象2排列和0元数据列:## seqnames strand cigar qwidth start end width njunc ## [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 72M 72 19653686 19653757 72 ## ## [[3]] ## GAlignments对象与2对齐和0元数据列:## seqnames strand cigar qwidth start end width njunc ## [1] chr14 + 72M 72 19653675 19653746 72## <5个元素> ## ------- ## seqinfo: 93个序列来自一个未指定的基因组
AnnotationHub是一个可以浏览的Web客户端
从UCSC, NCBI等各种数据库下载生物文件。
使用这个包允许用户直接获得文件,而不需要
找出文件在UCSC上的位置,下载并管理
本地机器上的多个文件。
library(AnnotationHub) ah = AnnotationHub()
##数据可以从以下来源唯一(ah$dataprovider)
## [1]“Ensembl”“EncodedCC”## [3]“UCSC”“Inparanoid8”## [5]“NCBI”“NHLBI”## [7]“Chea”“Pazar”## [9]“NIH途径互动数据库“”refnet“## [11]”Heemode“”Geo“## [13]”Broyinstitute“”ftp://ftp.ncbi.nlm.nih.gov/gene/data/“## [15]“dbsnp”
##以下文件类型可以从hub unique(ah$sourcetype)中检索
## [1]“Fasta”“床”“UCSC曲目”“GTF”“inparanoid”“ncbi / blast2go”## [7]“Twobit”链“”抓住“”zip“”csv“”biopax“##[13]“biopaxlevel2”“rdata”“bigwig”“tar.gz”“标签”“ncbi / ensembl”## [19]“vcf”
##我们将使用##`r biocpkg(“AnnotationHub”)“”。“,我们将从Fasta文件##'homo_sapiens.grch38.cdna.all.fa'下载所有_homo sapiens_ cdna序列。AH2 < - 查询(AH,C(“FASTA”,“HOMO SAPIENS”,“ENSEMBL”))FA < - AH2 [[“AH18522”] FA
## class: FaFile ## path: /home/ubuntu/。AnnotationHub/22617 ## index: /home/ubuntu/.AnnotationHub/25666 ## isOpen: FALSE ## yieldSize: NA
dbfile(txdb)
GenomicFeatures:: makeTxDbFrom * ()
外显子()
那成绩单()
那基因()
那cd ()
(编码序列)推动者()
和朋友Exonsby()
&朋友-外显子由基因,转录,…keytypes ()
那列()
那键()
那select ()
那mapIds ()
库(“TXDB.hsapiens.ucsc.hg19.knowngene”)TXDB < - TXDB.hsapiens.ucsc.hg19.knowngene TXDB
# # TxDb对象:# # # Db型:TxDb支持包:# # # # # # GenomicFeatures数据来源:UCSC基因组:# # # # # # hg19生物:智人# # # TaxID: 9606 # # # UCSC的表:knownGene # # #资源URL: http://genome.ucsc.edu/ # # #的基因类型ID: Entrez基因ID # # #完整数据集:是的# # # miRBase构建ID: GRCh37 # # # transcript_nrow:82960 # # # exon_nrow: 289969 # # # cds_nrow: 237533 # # # Db由:GenomicFeatures包从Bioconductor # # #创建时间:2015-05-12 10:59:39 -0700(2015年5月12日,星期二)# # # GenomicFeatures版本在创建的时候:1.21.3创建时间:# # # RSQLite版本1.0.0 # # # DBSCHEMAVERSION: 1.1
方法(类=类(txdb))
## [1] $ $<- ExpressionSet annotatedDataFrameFrom ## [5] as。列表asb asGFF assayData # # [9] assayData < - cd cdsBy cdsByOverlaps # #[13]强迫列结合内容# # [17]dbInfo dbconn dbfile该# # [21]dbschema disjointExons距离外显子# # [25]exonsBy exonsByOverlaps extractUpstreamSeqs featureNames # # [29] featureNames < - fiveUTRsByTranscript基因初始化# # [33]intronsByTranscriptisActiveSeq isActiveSeq<- isNA ## [37] keys keytypes mapIds mapToTranscripts ## [41] mappedkeys metadata microRNAs nhit ##[45]有机体promoters revmap sample ## [49] sampleNames sampleNames<- saveDb select ## [53] seqinfo seqinfo<- seqlevels0 show ## [57] species storageMode storageMode<- tRNAs ## [61] taxonomyId threeUTRsByTranscripttranscriptsBy ## [65] transcriptsByOverlaps updateObject ## see '?方法,用于访问帮助和源代码
基因(TXDB)
## GRanges对象有23056个范围和1个元数据列:# # seqnames范围链| gene_id # # < Rle > < IRanges > < Rle > | <人物> # # 1 chr19(58858172, 58858172)——| 1 # # 10 chr8(18248755、18248755)+ | 10 # # 100 chr20(43248163、43248163)- | 100 # # 1000 chr18(25530930、25530930)- | 1000 # # 10000 chr1(243651535、243651535)- | 10000 ## ... ... ... ... ... ...# # 9991 chr9(114979995、114979995)- | 9991 # # 9992 chr21(35736323、35736323)+ | 9992 # # 9993 chr22(19023795、19023795)- | 9993 # # 9994 chr6(90539619、90539619)+ | 9994 # # 9997 chr22(50961997、50961997)- | 9997 ## ------- ## seqinfo: 93从hg19基因组序列(1循环)
TXDB.
keytypes ()
那列()
那键()
那select ()
那mapIds ()
select(org.Hs.eg.db, c("BRCA1", "PTEN"), c("ENTREZID", "GENENAME"), "SYMBOL")
## 'select()'返回键和列之间的1:1映射
## # ENTREZID基因## # 1 BRCA1 672乳腺癌1,早发## # 2 PTEN 5728磷酸酶和紧张素同源物
keytypes(org.hs.eg.db)
## [1] " accnum " " alias " " ensembl " " ensemblprot " " ensembltrans " " entrezid " ## [7] " enzyme " " evidence " " evidence all " " genename " " go " " goall " ## [13] " ipi " " map " " omim " " ontology " " ontology " " path " ## [19] " pfam " " mid " " prosite " " refseq " " symbol " " ucsckg " ## [25] " unigene " " uniprot "
列(org.Hs.eg.db)
## [1] " accnum " " alias " " ensembl " " ensemblprot " " ensembltrans " " entrezid " ## [7] " enzyme " " evidence " " evidence all " " genename " " go " " goall " ## [13] " ipi " " map " " omim " " ontology " " ontology " " path " ## [19] " pfam " " mid " " prosite " " refseq " " symbol " " ucsckg " ## [25] " unigene " " uniprot "
生物体包的组织方式如下biocViews。我们可以回答很多问题生物问题使用不同的包。下面的一些条目测序其他条款和代表包包括:
ChIPSeq,例如,困惑那CSAW.那ChIPseeker那ChIPQC。
单核苷酸多态性其他的变体,例如,VariantAnnotation那VariantFiltering那H5VC。
微生物组宏基因组测序,例如,metagenomeSeq那phyloseq那DirichletMultinomial.。
sessioninfo()
sessioninfo()
## R 3.2.1(2015-06-18)##平台:X86_64-Unknown-Linux-GNU(64位)##正在运行:Ubuntu 14.04.2 LTS ### locale:## [1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collate = c lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identification = c ## ##附加基本包:## [1] stats4并行统计图形grdevices utils数据集方法base ####其他附加包:## [1] org.hs.eg.db_3.1.2 rsqlite_1.0.0 ## [3] dbi_0.3.1 txdb.hsapiens.ucsc.hg19.knowngene_3.1.3 ## [5] genomicfeatures_1.21.13AnnotationDBI_1.31.17 ## [7] AnnotationHub_2.1.30 RNASEQDATA.HNRNPC.BAM.CHR14_0.7.0 ## [9] Genomicalign_1.5.11 RSAMTOOLS_1.21.14 ## [11] BIOSTRINES_2.37.2 XVERCTER_0.9.1 ## [13]概述_2.2BioBase_2.29.1 ## [15] GenomicRanges_1.21.16 GenomeinfodB_1.5.8 ## [17]讽刺_2.3.14 S4Vectors_0.7.10 ## [19] Biocgenerics_0.15.3 GGPlot2_1.0.1## [21] biocstyle_1.7.4 ## ##通过命名空间加载(and未附加):## [1] Reshape2_1.4.1 ColorSpace_1.2-6 htmltools_0.2.6 ## [4] rtracklayer_1.29.12 yaml_2.1.13 InteractivedIsplyBase_1.7.0 ## [7] XML_3.98-1.3 BiocPollellall_1.3.34 Lambda.r_1.1.7 ## [10] Plyr_1.8.3 Stringr_1.0.0 zlibbioc_1.15.0 ## [13] munsell_0.4.2 gtable_0.1.2 futile.logger_1.4.1##] rcpp_0.11.6 xtable_1.7-4 scaleS_0.2.5 ## [28] formatr_1.2 mime_0.3 digest_0.6.8 ## [31] Stringi_0.5-5 Shiny_0.12.1 Grid_3.2.1 ## [34] Tools_3.2.1bitops_1.0-6 magrittr_1.5 ## [37] rcurl_1.95-4.7 futile.options_1.0.0 mass_7.3-43 ## [40] RmarkDown_0.7 Httr_1.0.0 R6_2.1.0