如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("SingleCellMultiModal")
库(MultiAssayExperiment)库(SingleCellMultiModal)
ECCITE-seq数据是CITE-seq数据的演化CITE-seq装饰图案获取更多详细信息),方法是使用始终从同一单元提取的第三个数据类型扩展CITE-seq原始数据类型。事实上,除了CITE-seq提供scRNA-seq和抗体衍生标签(ADT)外,它还提供了大约10个Hashtagged Oligo (HTO)。这个数据集是由Mimitou等人(2019).
用户可以通过CITE-seq函数使用默认选项查看可用数据集。
CITEseq(DataType="peripheral_blood", modes="*", dry.run=TRUE, version="1.0.0")
数据集:peripheral_blood
## snapshotDate(): 2022-10-24
## ah_id mode file_size rdataclass rdatadateadded rdatadateremoved ## 1 EH4613 CTCL_scADT 0.4 Mb matrix 2020-09-24 ## 2 EH4614 CTCL_scHTO 0.1 Mb matrix 2020-09-24 ## 3 EH4615 ctcl_sccrab 14.3 Mb data.frame 2020-09-24 ## 5 EH4617 CTCL_TCRgd 0.1 Mb data.frame 2020-09-24 ## 6 EH4618 CTRL_scADT 0.4 Mb matrix 2020-09-24 ## 8 EH4620 CTRL_scRNA 13.3 Mb dgCMatrix2020-09-24 ## 9 EH4621 CTRL_TCRab 0.2 Mb data.frame 2020-09-24 ## 10 EH4622 CTRL_TCRgd 0.1 Mb data.frame 2020-09-24 ## 9 EH4621 CTRL_TCRgd 0.1 Mb data.frame
或者简单地设置dry.run = FALSE
它下载数据并在默认情况下创建MultiAssayExperiment
对象。
在本例中,我们将使用两个可用数据集中的一个scADT_Counts
:
mae <- CITEseq(DataType="peripheral_blood", modes="*", dry.run=FALSE, version="1.0.0")
##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误
美
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象## [1]scADT: dgCMatrix, 52行,13000列## [2]scHTO: dgCMatrix, 7行,13000列## [3]scRNA: dgCMatrix, 33538行,10248列##功能:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本协调DataFrame ## ' $ ', '[', '[[' -提取colData列,子集,或实验## *格式()-转换为长或宽的DataFrame ## assays() -转换ExperimentList为矩阵的SimpleList ## exportClass() -保存数据到平面文件
实际数据示例:
实验(美)
## [1] scADT: dgCMatrix, 52行,13000列## [2]scHTO: dgCMatrix, 7行,13000列## [3]scRNA: dgCMatrix, 33538行,10248列
另外,我们存储到对象metedata中
检查行注释:
rownames(美)
[["scADT"]] B220 (CD45R) B7-H1 (PD-L1) C-kit (CD117)…no_match total_reads ## [["scHTO"]] HTO28_5P HTO29_5P HTO30_5P HTO44_5P bad_struct no_match total_reads ## [["scRNA"]] hg19_A1BG hg19_A1BG- as1 hg19_A1CF…hg19_ZZEF1 hg19_hsa - mir - 1253
看一看sampleMap
:
sampleMap(美)
##分析主colname ## <因子> <字符> <字符> ## 1 scADT CTCL_AAACCTGAGCTATGCT ## 2 scADT CTCL_AAACCTGCAATGGAGC ctcl_aaacctgcaatggag# 3 scADT CTCL_AAACCTGCATACTACG CTCL_AAACCTGCATATGGTC CTCL_AAACCTGCATATGGTC ## 5 scADT ctcl_aaacctgcatatgggt ctcl_aaacctgcatatgggt ## ... ... ... ...36245 scRNA CTRL_TTTGTCAGTCACCCAG ctrl_tttgtcagtcacccata CTRL_TTTGTCAGTGCAGGTA 36246 scRNA CTRL_TTTGTCATCACAATGC CTRL_TTTGTCATCCTAAGTG CTRL_TTTGTCATCGTTGACA CTRL_TTTGTCATCGTTGACA
通过该名称可以访问scRNA-seq数据scRNAseq
,该函数返回矩阵对象。
头(实验(mae) scRNA美元)[1:4]
6 x 4稀疏矩阵类“dgCMatrix”CTCL_AAACCTGCAATGGAGC CTCL_AAACCTGCATACTACG ctcl_aaacctgcatatggtc# # hg19_A1BG…## hg19_A1BG-AS1……………## hg19_A2M-AS1…## hg19_A2ML1…这是一个很好的例子。## hg19_A1BG-AS1。# 8226;## hg19_A2M。 ## hg19_A2M-AS1 . ## hg19_A2ML1 .
可以通过名称访问scADT数据scADT
,该函数返回矩阵对象。
头(实验(mae) scADT美元)[1:4]
## 6 x 4稀疏矩阵类“dgCMatrix”## CTCL_AAACCTGAGCTATGCT CTCL_AAACCTGCAATGGAGC ctcl_aaacctgcatactacg# # B220 (CD45R) 4## b7-h1 (pd-l1)3 ## C-kit (CD117) 5 23 ## CCR7 23 7 11 ## CD11b 4;11 ## CD11c 5 3 ## CTCL_AAACCTGCATATGGTC ## B220 (CD45R) 1 ## B7-H1 (PD-L1) 3 ## C-kit (CD117) 5 ## CCR7 18 ## CD11b 5 ## CD11c 3
数据集有两种不同的条件(CTCL和CTRL),样本可以用colData
访问器。
CTCL代表皮肤t细胞淋巴瘤,CTRL代表对照。
例如,如果我们只想要CTCL样本,我们可以运行:
(ctclMae <- mae[,colData(mae)$condition == "CTCL",])
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象:## [1]scADT: dgCMatrix, 52行,6500列## [2]scHTO: dgCMatrix, 7行,6500列## [3]scRNA: dgCMatrix, 33538行,5399列##功能:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本协调DataFrame ## ' $ ', '[', '[[' -提取colData列,子集,或实验## *格式()-转换为长或宽的DataFrame ## assays() -转换ExperimentList为矩阵的SimpleList ## exportClass() -保存数据到平面文件
如果你对所有模式的通用样本感兴趣你可以用complete.cases
函数。
ctclMae [complete.cases (ctclMae))
MultiAssayExperiment对象,包含3个实验,用户自定义名称和各自的类。##包含长度为3的ExperimentList类对象:## [1]scADT: dgCMatrix, 52行,4190列## [2]scHTO: dgCMatrix, 7行,4190列## [3]scRNA: dgCMatrix, 33538行,4190列##功能:## experiments() -获取ExperimentList实例## colData() -主/表型DataFrame ## sampleMap() -样本协调DataFrame ## ' $ ', '[', '[[' -提取colData列,子集,或实验## *格式()-转换为长或宽的DataFrame ## assays() -转换ExperimentList为矩阵的SimpleList ## exportClass() -保存数据到平面文件
CRISPR扰动scRNAs数据存储在不同的位置,以保持其原始的长格式。
可以使用元数据
访问器,在本例中返回一个named列表
的data.frame
年代。
sgRNAs <-元数据(mae)名称(sgRNAs)
## [1] "CTCL_TCRab" "CTCL_TCRgd" "CTRL_TCRab" "CTRL_TCRgd"
有四个不同的sgRNAs数据集,每个条件和家族受体组合一个。
TCR代表t细胞受体,而a,b,g,d分别代表alpha, beta, gamma和delta。
要查看TCRab,只需运行:
头(sgRNAs CTCL_TCRab美元)
# # 1 # #条形码is_cell contig_id high_confidence AAACCTGCAATGGAGC-1真AAACCTGCAATGGAGC-1_contig_1真AAACCTGGTCATACTG-1真AAACCTGGTCATACTG-1_contig_2真# # # # 100 AAAGTAGGTAAATACG-1真AAAGTAGGTAAATACG-1_contig_1真# # 1000 ACGGGCTTCGGCGCAT-1真ACGGGCTTCGGCGCAT-1_contig_2真# # # 1002 # 1001 ACGGGTCAGGACTGGT-1真的ACGGGTCAGGACTGGT-1_contig_1真的ACGGGTCAGGACTGGT-1真ACGGGTCAGGACTGGT-1_contig_2真# #长度链v_gene d_gene j_gene c_gene full_length生产# # 1609 TRB TRBV12-4 TRBD1 TRBJ2-7 TRBC2 False None ## 10 552 TRB TRBV5-5 TRBD1 TRBJ2-1 TRBC2 True True ## 100 556 TRA TRAV12-1 None TRAJ40 TRAC True True ## 1000 560 TRB TRBV20-1 None TRBJ2-1 TRBC2 True True ## 1001 669 TRB TRBV5-1 None TRBJ2-5 TRBC2 True True ## 1002 720 TRA TRAV8-1 None TRAJ22 TRAC True True ## cdr3 cdr3_nt reads ## 1 CASSLGAVGEQYF TGTGCCAGCAGTCTCGGGGCCGTCGGGGAGCAGTACTTC 4173 ## 10 CASSLLRVYEQFF TGTGCCAGCAGCTTACTCAGGGTTTATGAGCAGTTCTTC 5561 ## 100 CVVNMLIGPGTYKYIF TGTGTGGTGAACATGCTCATCGGCCCAGGAACCTACAAATACATCTTT 1725 ## 1000 CSARFLRGGYNEQFF TGCAGTGCTAGGTTCCTCCGGGGTGGCTACAATGAGCAGTTCTTC 8428 ## 1001 CASSPPGETQYF TGCGCCAGCAGTCCCCCGGGAGAGACCCAGTACTTC 27854 ## 1002 CAVNGAGSARQLTF TGTGCCGTGAATGGAGCTGGTTCTGCAAGGCAACTGACCTTT 6497 ## umis raw_clonotype_id raw_consensus_id ## 1 2 clonotype126 None ## 10 3 clonotype31 clonotype31_consensus_2 ## 100 1 clonotype3 clonotype3_consensus_2 ## 1000 6 clonotype2 clonotype2_consensus_2 ## 1001 17 clonotype289 clonotype289_consensus_2 ## 1002 4 clonotype289 clonotype289_consensus_1
因为已经大量使用了一些方法(如在[singlecel实验小插图][1]或[CiteFuse小插图][2]中SingleCellExperiment
对象用于CITE-seq数据时,我们提供了一个转换CITE-seq的函数MultiAssayExperiment
对象转换为SingleCellExperiment
对象,scRNA-seq数据为计数,scADT数据为计数altExp
年代。
sce <- CITEseq(DataType="peripheral_blood", modes="*", dry.run=FALSE, version="1.0.0", DataClass=" singlecel实验")
##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误##警告:“实验者列表”包含“data.frame”或“DataFrame”,##混合数据类型的潜在错误
南加州爱迪生公司
##类:singlecel实验## dim: 335388482 ##元数据(0):## assays(1):计数## rownames(33538): hg19_A1BG hg19_A1BG- as1…hg19_ZZEF1 ## hg19_hsa-mir-1253 ## rowData names(0): ## colnames(8482): CTCL_AAACCTGCAATGGAGC CTCL_AAACCTGCATACTACG…## ctrl_tttgtcattaagtg CTRL_TTTGTCATCGTTGACA ## colData names(0): ## reducedDimNames(0): ## mainExpName: NULL ## altExpNames(2): scADT scHTO
sessionInfo ()
## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:[1] SingleCellMultiModal_1.11.0 MultiAssayExperiment_1.25.1 ## [3] SummarizedExperiment_1.29.0 Biobase_2.59.0 ## [5] genomicranges_1.1.1.0 GenomeInfoDb_1.35.0 ## [7] IRanges_2.33.0 S4Vectors_0.37.0 ## [9] BiocGenerics_0.45.0 MatrixGenerics_1.11.0 ## [11] matrixStats_0.62.0 BiocStyle_2.27.0 ## ##通过命名空间加载(并且没有附加):[1] [3] formatr_1 .1.3 bitops_1.0-7 ## [5] magrittr_2.0.3 compiler_4.3.0 ## [9] png_0.1-7 vctrs_0.5.0 ## [11] string_1 .4.1 pkgconfig_2.0.3 ## [13] SpatialExperiment_1.9.0 crayon_1.5.2 ## [15] fastmap_1.1.0 magick_2.7.3 ## [17] dbplyr_2.2.1 XVector_0.39.0 ## [23] rmarkdown_2. 2.2 promises_1.2.0.1 ## [27] zlibbioc_1.45.0 ## [27] zlibbioc_1. 3.5 ## [25] bit_4.0.4 xfun_0.34 ## [27] zlibbioc_1. 0 ##cachem_1.0.6 # # [29] beachmat_2.15.0 jsonlite_1.8.3 # # [31] blob_1.2.3 later_1.3.0 # # [33] rhdf5filters_1.11.0 DelayedArray_0.25.0 # # [35] Rhdf5lib_1.21.0 BiocParallel_1.33.0 # # [37] interactiveDisplayBase_1.37.0 parallel_4.3.0 # # [39] R6_2.5.1 bslib_0.4.0 # # [41] stringi_1.7.8 limma_3.55.0 # # [43] jquerylib_0.1.4 Rcpp_1.0.9 # # [45] bookdown_0.29 assertthat_0.2.1 # # [47] knitr_1.40 R.utils_2.12.1 # # [49] BiocBaseUtils_1.1.0 httpuv_1.6.6 # # [51] Matrix_1.5-1 tidyselect_1.2.0 # # [53] yaml_2.3.6codetools_0.2-18 # # [55] curl_4.3.3 lattice_0.20-45 # # [57] tibble_3.1.8 withr_2.5.0 # # [59] shiny_1.7.3 KEGGREST_1.39.0 # # [61] evaluate_0.17 BiocFileCache_2.7.0 # # [63] ExperimentHub_2.7.0 Biostrings_2.67.0 # # [65] pillar_1.8.1 BiocManager_1.30.19 # # [67] filelock_1.0.2 generics_0.1.3 # # [69] rcurl_1.98 - 1.9 BiocVersion_3.17.0 # # [71] sparseMatrixStats_1.11.0 xtable_1.8-4 # # [73] glue_1.6.2 tools_4.3.0 # # [75] AnnotationHub_3.7.0 locfit_1.5 - 9.6 # # [77] rhdf5_2.43.0 grid_4.3.0 # # [79]DropletUtils_1.19.0 AnnotationDbi_1.61.0 ## [81] edgeR_3.41.0 singlecelexperiment_1 .21.0 ## [83] GenomeInfoDbData_1.2.9 HDF5Array_1.27.0 ## [85] cli_3.4.1 rappdirs_0.3.3 ## [87] fansi_1.0.3 dplyr_1.0.10 ## [89] r.d astss3_1 .8.2 sass_0.4.2 ## [91] digest_0.6.30 dqrng_0.3.0 ## [93] rjson_0.2.21 memoise_2.0.1 ## [95] htmltools_0.5.3 r.o o_1. 4.4 ## [99] mime_0.12 bit64_4.0.5
//www.andersvercelli.com/packages/release/bioc/vignettes/SingleCellExperiment/inst/doc/intro.html#5_adding_alternative_feature_sets//www.andersvercelli.com/packages/release/bioc/vignettes/CiteFuse/inst/doc/CiteFuse.html
Mimitou, Eleni P, Anthony Cheng, Antonino Montalbano, Stephanie Hao, Marlon Stoeckius, Mateusz Legut, Timothy Roush等。2019。单细胞中蛋白质、转录组、克隆型和Crispr扰动的多重检测自然方法16(5): 409-12。