作者:Sonali Arora (sarora@fredhutch.org)
日期:2015年7月20-22日
本课程中的材料需要R版本3.2.1和Biocumon V9.2
练习1
-如何从Bioconductor下载任何软件包?
-如何访问一个给定的软件包的小插曲?
-你如何为一个函数寻找帮助(比如sortSeqlevels
)
练习2:磨练你的R技能
布罗德研究所有EpigenomeRoadMap项目项目的元数据已经为您提供。
—将文件读入R。
R读起来是什么意思?
-如何查看数据集的前几行或最后几行?
这个文件有多少行和列?
- 列标题是什么?
- 每列的数据类型是什么?
-你可以总结整个数据(提示:?summary)总结在这个数据集中男性和女性的数量。-这个栏目叫做集团
包含示例的源。你能把data.frame子集化,得到所有属于的样本吗大脑
和消化
练习3:舒服GenomicRanges
使用给定的讲师,请执行以下操作
- 仅来自染色体3的提取范围
-从格兰其提取前5个区域。
-提取GRanges的分数和gc柱
- 只能保持标准染色体(即)从染色体1至22,x,y,m。
- 改变染色体命名风格,即该调格仪包含UCSC染色体名称的样式,将它们更改为NCBI的染色体名称样式。
-你如何找出GRanges物体的间隙中包含的范围?
-你怎么知道GRanges对象的所有范围的重叠程度?(提示:?报道)
图书馆(基因组)GR < - GRANGES(SEQNAMES = PASTE0(“CHR”,C(1:22,尾部(字母,11))),范围=铁杆(START = 1:33,宽度= 1000),STRAND = C.(rep(“+”,10),rep(“ - ”,23)),得分= 1:33,gc = seq(1,0,长度= 33))
练习4:创建和操作摘要实验对象
在这个小型运动中,我们有来自9个高位个人的20个基因的数据,我们将创造我们的第一个SummarizedExperiment
目的。
来自9个个体的20个基因的数据导致了一个矩阵
数据< - 矩阵(1:180,ncol = 9,byrow = true)
来自20个基因的数据可以表示为一个隆重
gr_20gene <- GRanges(seqnames = paste0("gene", 1:20), ranges = IRanges(start=1:20, width = 1000), strand = c(rep("+", 10), rep("-", 10)), score =1:20, GC = seq(1,0, length=20))
关于20个个体的数据存储在a中data.frame
sample_df < - data.frame(名称= c(“Martin”,“Herve”,“Dan”,“Marc”,“Valerie”,“jim”,“Nate”,“Paul”,“Sonali”),性别=C(rep(“男性”,4),“女”,rep(“男性”,3),“女性”)
SummarizedExperiment
从上面列出的三个对象。SummarizedExperiment
SummarizedExperiment
创建一个新的一个,其中仅包含关于女性核心团队的信息。SummarizedExperiment
创建仅包含前两个基因的新一个。回答1
如果我们试图下载的软件包被调用Genomeinfodb.然后
source("//www.andersvercelli.com/biocLite.R") biocLite("GenomeInfoDb") vignette(package="GenomeInfoDb")
回答2
##读取数据fname <- system。df <- read.delim(fname, stringsAsFactors=FALSE) ##探索数据类(df)
# #[1]“data.frame”
头(DF)
## id group color std_name ## 1 e001 esc #924965 escI3 ES-I3 Cells ## 2 E002 ESC #924965 ESC。ES-WA7 Cells ## 3 E003 ESC #924965 ESC。H1 H1 Cells ## 4 E004 es - deriv# 4178AE ESDR.H1.BMP4。MESO H1 BMP4 Derived Mesendoderm Cultured Cells ## 5TROP H1 BMP4衍生滋养层培养细胞## 6MSC H1派生的间充质干细胞# # EDACC_NAME解剖类型年龄性别SOLID_LIQUID # # 1 ES-I3_Cell_Line ESC PrimaryCulture CL女性< NA > # # 2 ES-WA7_Cell_Line ESC PrimaryCulture CL女性< NA > # # 3 H1_Cell_Line ESC PrimaryCulture CL男< NA > # # 4 H1_BMP4_Derived_Mesendoderm_Cultured_Cells ESC_DERIVED ESCDerived CL男< NA > # # 5H1_BMP4_Derived_Trophoblast_Cultured_Cells ESC_DERIVED ESCDerived CL男< NA > # # 6 H1_Derived_Mesenchymal_Stem_Cells ESC_DERIVED ESCDerived CL男< NA > # #种族SINGLEDONOR_COMPOSITE # # 1 # # 2 < NA > < NA > SD SD # # 3 # # 4 < NA > < NA > SD SD # # 5 < NA > SD # # 6 < NA > SD
尾(df)
## eid group color memorimic std_name ## 122 e124 encode2012 #000000 bld.cd14。MONO单核细胞- cd14 + RO01746原代细胞## 123 E125编码2012 #000000 BRN。NHA NH-A星形胶质细胞原代细胞## 124 E126 ENCODE2012 #000000皮肤。NHDFAD成人真皮成纤维细胞原代细胞## 125 E127编码:2012 #000000皮肤。NHEK NHEK表皮角质形成细胞原代细胞## 126 E128编码2012 #000000液化天然气。NHLF NHLF肺成纤维细胞原代细胞## 127 E129编码2012 #000000骨。骨的成骨细胞的主要细胞# # EDACC_NAME解剖类型年龄性别SOLID_LIQUID种族# # 122 Monocytes-CD14 + _RO01746血液PrimaryCell女# # 123 NH-A_Astrocytes大脑PrimaryCulture未知# # 124 NHDF-Ad_Adult_Dermal_Fibroblasts PrimaryCulture女# # 125 NHEK-Epidermal_Keratinocytes皮肤PrimaryCulture未知# # 126nhlf_lung成纤维细胞肺原代培养未知成骨细胞骨原代培养
暗(df)
13 .【答案】b
Colnames(DF)
## [1]“EID”“组”“颜色”“m声”## [5]“std_name”“edacc_name”“解剖学”“类型”类型“## [9]”年龄“”性别“”solid_liquid“”solid_liquid“”solid_liquid“”民族““## [13]”Singledonor_composite“
酸式焦磷酸钠(df、类)
# EID组颜色记忆体# character" character" "character" "character" "character" "character" "character" "character" "character" "character" "character" "character" "character" "character"
##总结数据摘要(DF)
## EID GROUP COLOR MNEMONIC STD_NAME ##长度:127长度:127长度:127长度:127长度:127长度:127类型:字符类型:字符类型:字符类型:字符类型:字符模式:字符模式:字符模式:字符模式:字符模式:字符类型## EDACC_NAME解剖学类型年龄性别##长度:127长度:127长度:127长度:127长度:127长度:127长度:127 ##类别:角色类别:角色类别:角色类别:角色类别:角色类别:角色##模式:角色模式:角色模式:角色模式:角色模式:角色##长度:127长度:127长度:127 ##类别:角色类别:角色##模式:角色模式:模式:字符
表(DF $性)
## ##女性女性/未知男性男性/未知混合未知## 38 1 51 1 12 24
##子集DF [DF $组%IN%C(“大脑”,“消化”),]
# #开斋节组颜色助记STD_NAME # # 65 # E067大脑C5912B BRN.ANG.GYR大脑角回# # 66 E068 # C5912B BRN.ANT.CAUD大脑前尾状E069 # # 67 # C5912B BRN.CING.GYR大脑E070扣带回# # 68 # C5912B BRN.GRM.MTRX大脑生发基质E071 # # 69 # C5912B BRN.HIPP.MID大脑海马中间E072 # # 70大脑# C5912B BRN.INF.TMP大脑颞叶# # 71 E073低劣# C5912B BRN.DL.PRFRNTL.CRTX Brain_Dorsolateral_Prefrontal_Cortex # # 72 # E074大脑C5912B BRN.SUB.NIG脑部黑质消化# # # 73 E075 C58DAA GI.CLN.MUC结肠粘膜消化# # # 75 E077 C58DAA GI.DUO.MUC十二指肠粘膜消化# # # 77 E079 C58DAA GI。ESO食道# # 79 # E081大脑C5912B BRN.FET.M胎儿大脑男性E082 # # 80 # C5912B BRN.FET.F胎儿大脑女# # 82 E084消化# C58DAA GI.L.INT.FET胎儿肠大# # 83 E085消化# C58DAA GI.S.INT.FET胎儿肠小# # 90 # C58DAA E092消化GI.STMC.FET胎儿胃消化# # # 92 E094 C58DAA GI.STMC.GAST胃## 99 E101消化#C58DAA GI.RECT.MUC.29直肠粘膜供体29 ## 100 E102消化#C58DAA GI.RECT.MUC.31直肠粘膜供体31 ## 104 E106消化Sigmoid结肠## 107 E109消化C58DAA GI.CLN.SIG结肠## 107 E109消化C58DAA GI.S.INT小肠## 108消化C58DAA GI.STMC.MUC胃粘膜## # EDACC_NAME解剖类型年龄性别固体液体脑角回脑原发性组织75Y,81 y混合固体# # 66 Brain_Anterior_Caudate大脑PrimaryTissue 75 y, y 81混合固体# # 67 Brain_Cingulate_Gyrus大脑PrimaryTissue 75 y, y 81混合固体# # 68 Brain_Germinal_Matrix大脑PrimaryTissue 20 gw男性固体# # 69 Brain_Hippocampus_Middle大脑PrimaryTissue 81 y, 73 y男性固体# # 70 Brain_Inferior_Temporal_Lobe大脑PrimaryTissue 75 y,71y Mixed SOLID ## 71 BRAIN - mid_frontal_lobe BRAIN PrimaryTissue 75Y, 71y Mixed SOLID ## 72 BRAIN - substantia_nigra BRAIN primaryorganization,71y混合固体73结肠黏膜结肠原发组织73Y女性固体75十二指肠黏膜十二指肠原发组织76Y男性固体77食管食管原发组织34Y男性固体79胎儿脑男性脑原发组织17GW, 17GW男性/未知固体80胎儿脑女性脑原发组织17GW。17GW Female SOLID ## 82 fetal_testine_large gi_intestinal primaryorganization 15GW Male SOLID ## 83 fetal_testine_small gi_intestinal primaryorganization 15GW Male SOLID ## 90 Fetal_Stomach GI_STOMACH primaryorganization Female SOLID ## 92 Gastric gi_gastric primaryorganization 34Y Male SOLID ## 99 rectal_粘膜。Donor_29 gi_直肠原发组织50Y女性固体## 100直肠粘膜。Donor_31 GI_RECTUM PrimaryTissue 61Y Female SOLID ## 104 Sigmoid_Colon GI_COLON PrimaryTissue 3Y, 34Y Male SOLID ## 107 Small_Intestine GI_INTESTINE PrimaryTissue 3Y, 34Y Male SOLID ## 108 Stomach_Mucosa GI_STOMACH PrimaryTissue 59Y Male SOLID ## ETHNICITY SINGLEDONOR_COMPOSITE ## 65 Unknown C ## 66 Unknown C ## 67 Unknown C ## 68 Unknown SD ## 69 Unknown C ## 70 Unknown C ## 71 Unknown C ## 72 Unknown C ## 73 Caucasian SD ## 75 Caucasian SD ## 77 Caucasian SD ## 79 Unknown C ## 80 Unknown C ## 82 Unknown SD ## 83 Unknown SD ## 90 C ## 92 Caucasian SD ## 99 Caucasian SD ## 100 Caucasian SD ## 104 Caucasian/African American, Caucasian C ## 107 Caucasian/African American, Caucasian C ## 108 Caucasian SD
回答3
文库(genome ranges) gr <- GRanges(seqnames = paste0("chr", c(1:22, tail(letters, 11))), ranges = IRanges(start=1:33, width = 1000), strand = c(rep("+", 10), rep("-", 23)), score =1:33, GC = seq(1,0, length=33)) ##仅从染色体3中提取range gr[seqnames(gr) %in% "chr3",]
## GRANGES对象具有1个范围和2个元数据列:## SEQNAMES范围股票|得分GC ## <铁杆> |<整数> ## [1] CHR3 [3,1002] + |3 0.9375 ## ------- ## SEQINFO:来自未指明的基因组的33个序列;没有seqlengths
##从格兰其中提取前五个范围gr [1:5]
与5和2 # #农庄对象元数据列:# # seqnames范围链|得分GC # # < Rle > < IRanges > < Rle > | <整数> <数字> # # [1]chr1 [1000] + | 1 1 # # [2] chr2 0.96875 (1001) + | 2 # # [3] chr3 0.9375 (1002) + | 3 # # [4] chr4 0.90625 (1003) + | 4 # # [5] chr5 0.875 (1004) + | 5 ## ------- ## seqinfo:33个序列来自一个未指定的基因组;没有seqlengths
##从GRanges mcols(gr)中提取得分和序列列
##与33行和2列##得分GC ## <整数> <数字> ## 1 1 1.00000 ## 2 2 0.96875#3 3 0.93750 ## 4 0.90625 ## 5 5 0.87500 ## ..。... ... ## 29 29 0.12500 ## 30 30 0.09375 ## 31 31 0.03250 ## 32 32 0.03125 ## 33 33 0.03125 ## 33 33 0.00000
##只能从染色体1至22,x,y,m expistarductaromes(gr)中仅保持标准染色体(即)
22 # #农庄对象范围和2元数据列:# # seqnames范围链|得分GC # # < Rle > < IRanges > < Rle > | <整数> <数字> # # [1]chr1 [1000] + | 1 1 # # [2] chr2 0.96875 (1001) + | 2 # # [3] chr3 0.9375 (1002) + | 3 # # [4] chr4 0.90625 (1003) + | 4 # # [5] chr5 0.875 (1004) + | 5 ## ... ... ... ... ... ... ...# # [18] chr18 [1017] - 0.46875 | 18 # # [19] chr19 [1018] - 0.4375 | 19 # # [20] chr20 [1019] - 0.40625 | 20 # # [21] chr21 [1020] - 0.375 | 21 # # [22] chr22 [1021] - | 22 0.34375 ## ------- ## seqinfo: 22从一个未指明的基因组序列;没有seqlengths
##将染色体命名样式更改为NCBI SEQLEVELSSTYLE(GR)< - “NCBI”GR
## GRANGES对象具有33范围和2个元数据列:## SEQNAMES范围股票|得分GC ## <铁杆> |<整数> ## [1] 1 [1,1000] + |1 1 1 ## [2] 2 [2,1001] + |2 0.96875 ## [3] 3 [3,1002] + |3 0.9375 ## [4] 4 [4,1003] + |4 0.90625 ## [5] 5 [5,1004] + |5 0.875 ## ... ... ... ... ## [29] CHRV [29,1028] - |29 0.125 ## [30] CrW [30,1029] - |30 0.09375 ## [31] CHRX [31,1030] - | 31 0.0625 ## [32] chry [32, 1031] - | 32 0.03125 ## [33] chrz [33, 1032] - | 33 0 ## ------- ## seqinfo: 33 sequences from an unspecified genome; no seqlengths
##范围内的间隙
使用32 # #农庄对象范围和0元数据列:链# # # # seqnames范围< Rle > < IRanges > < Rle > # # [1] 2 [1] + # # [2] 3 [1, 2] + # # 4 [3] [1,3] + # # 5 [4] [1,4] + # # [5] 6 [1 5 ] + ## ... ... ... ...## [28] CHRV [1,28] - ## [29] CHRW [1,29] - ## [30] CHRX [1,30] - ## [31] chry [1,31] - ## [32] CHRZ [1,32] - ## ------- ## seqinfo: 33个序列来自一个未指定的基因组;没有seqlengths
##找到范围的重叠程度。覆盖(gr)
##长度的rlelist 33 ## $`1` ##整数r长度为1000,1次运行##长度:1000 ##值:1 ### $`2` ##整数r长度为10012运行##长度:1 1000 ##值:0 1 ## ## $`3` ##长度为1002的整数r,2运行##长度:2 1000 ##值:0 1 ## ## $“4”##整数框架长度为1003,具有2个运行##长度:3 1000 ##值:0 1 ## ## $`5`长度为1004的整数rlle,2次运行##长度:41000 ##值:0 1 ## ## ... ## <28更多元素>
Answer4
库(SummarizedExperiment) # # SummarizedExperiment数据对象sample_df < - data.frame(名称= c(“马丁”、“Herve”、“丹”,“马克”,“瓦莱丽”,“吉姆”,“内特”,“保罗”,“Sonali”),性= c(代表(“男性”,4),“女性”,代表(“男性”,3),“女性”))gr_20genes < -农庄(seqnames = paste0(“基因”,1:20),范围= IRanges(开始= 1:20,宽度= 1000),##创建一个summarizedexperexperiment对象core_se <- summarizedexperexperiment (assays=data, rowRanges=gr_20genes, colData=DataFrame(sample_df)) core_se
9 ## metadata(0): ## assays(1): " ## rownames: NULL ## rowRanges元数据列名(2):score GC ## colnames: NULL ## colData names(2): names sex .
##探索summarizedexperexperiment对象dim(core_se)
## [1] 20 9
头(core_se) #数据矩阵
# #[1][2][3][4][5][6][7][8][9] # #(1) 1 2 3 4 5 6 7 8 9 # #[2] 10 11 12 13 14 15 16 17 18 # #[3] 19 20 21日22日23日24日25日26日27 # # [4]28 29 30 31 32 33 34 35 36 # # [5]37 38 39 40 41 42 43 44 45 # # 46 [6]47 48 49 50 51 52 53 54
rowRanges(core_se) #关于基因的信息
GRanges对象有20个范围和2个元数据列:# # seqnames范围链|得分GC # # < Rle > < IRanges > < Rle > | <整数> <数字> # # [1]gene1 [1000] + | 1 1 # # [2] gene2 0.947368421052632 (1001) + | 2 # # [3] gene3 0.894736842105263 (1002) + | 3 # # [4] gene4 0.842105263157895 (1003) + | 4 # # [5] gene5 0.789473684210526 (1004) + | 5 ## ... ... ... ... ... ... ...# # [16] gene16 [1015] - 0.210526315789474 | 16 # # [17] gene17 [1016] - 0.157894736842105 | 17 # # [18] gene18 [1017] - 0.105263157894737 | 18 # # [19] gene19 [1018] - 0.0526315789473685 | 19 # # [20] gene20 [1019] - | 20 0 ## ------- ## seqinfo: 20从一个未指明的基因组序列;没有seqlengths
colData(core_se) #示例信息
## DataFrame with 9 rows and 2 columns ## name sex ## # 1 Martin Male ## 2 Herve Male ## 3 Dan Male # 4 Marc Male # 5 Valerie Female ## 6 Jim Male # 7 Nate Male # 8 Paul Male # 9 Sonali Female
##子集摘要化对象##子集样本信息core_se [,core_se $ sex ==“女”]
## class: rangedsummarizedexper实验## dim: 20 2 ## metadata(0): ## assays(1): " ## rownames: NULL ## rowRanges元数据列名(2):score GC ## colnames: NULL ## colData names(2): names sex
##基因信息子集core_se[,1:2]
## class: rangedsummarizedexper实验## dim: 20 2 ## metadata(0): ## assays(1): " ## rownames: NULL ## rowRanges元数据列名(2):score GC ## colnames: NULL ## colData names(2): names sex
sessionInfo ()
sessionInfo ()
## R version 3.2.1 (2015-06-18) ## Platform: x86_64-unknown-linux-gnu (64-bit) ## Running under: Ubuntu 14.04.2 LTS ## ## locale: ## [1] LC_CTYPE=en_US。utf - 8 LC_NUMERIC = C而= en_US。UTF-8 ## [4] LC_COLLATE=C LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME=C LC_ADDRESS= c# ## [10] LC_TELEPHONE=C LC_MEASUREMENT=en_US。## [1] stats4 parallel stats graphics grDevices utils datasets methods base ## ##其他附加包:# # # # [1] org.Hs.eg.db_3.1.2 RSQLite_1.0.0 [3] DBI_0.3.1 TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 # # [5] GenomicFeatures_1.21.13 AnnotationDbi_1.31.17 # # [7] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 # # [9] GenomicAlignments_1.5.11 Rsamtools_1.21.14 # # [11] Biostrings_2.37.2 XVector_0.9.1 # # [13] SummarizedExperiment_0.3.2##[15]基因组范围_1.21.16 GenomeInfoDb_1.5.8 ## [17] irangess_0.7.10 ## [19] BiocGenerics_0.15.3 ggplot2_1.0.1 ## [21] BiocStyle_1.7.4 ## ##通过命名空间加载:# # # # [1] reshape2_1.4.1 colorspace_1.2-6 htmltools_0.2.6 [4] rtracklayer_1.29.12 yaml_2.1.13 interactiveDisplayBase_1.7.0 # # [7] xml_3.98 - 1.3 BiocParallel_1.3.34 lambda.r_1.1.7 # # [10] plyr_1.8.3 stringr_1.0.0 zlibbioc_1.15.0 # # [13] munsell_0.4.2 gtable_0.1.2 futile.logger_1.4.1 # # [16] codetools_0.2-14 evaluate_0.7 labeling_0.3 # # [19]## [28] formatR_1.2 mime_0.3 digest_0.6.8 ## [31] stringi_0.5-5 shiny_0.12.1 grid_3.2.1 ## [34] tools_3.2.1 bitops_1.0-6 magrittr_1.5 ## [37] RCurl_1.95-4.7 futity .options_1.0.0 MASS_7.3-43 ## [40]rmarkdown_0.7 httr_1.0.0 R6_2.1.0