1简介

MouseGastrulationData包提供方便的访问各种组学数据集从小鼠原肠形成和器官发生。这些数据集以高度注释的格式提供,因此可以非常容易地用于探测不同的生物学问题,或用于方法开发。主要数据集是单细胞RNA测序(scRNA-seq)数据集Pijuan-Sala等人(2019)而且Guibentif et al.(未注明).其中包括胚胎发育图谱(EmbryoAtlasData ())的高采样密度,以及嵌合体实验,其中包括基因敲除在活的有机体内系统。这些数据集以计数矩阵的形式提供,并在处理后提供额外的特征级和样本级元数据。原始测序数据可以从ArrayExpress登录中获得e - mtab - 6967为了地图集。

此外,该软件包还提供了来自E8.25胚胎的单核ATAC-seq数据(Pijuan-Sala等人(2020))和来自E8.5胚胎的seqFISH(即空间转录组)数据(Lohoff et al. (2020)).

2安装

软件包可以从Bioconductor安装。生物导体包可以使用BiocManager包中。

如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager") BiocManager::install("MouseGastrulationData")

BioconductorDevel包含最新的数据集和包的更改。安装说明BioconductorDevel是可用的【2021欧洲杯官方合作伙伴】

要使用包,请以典型的方式加载它。

库(MouseGastrulationData)

3.scRNA-seq图谱处理概述

详细的方法可以在附带的方法中找到这篇论文,或从代码中对应Github库.简单地说,整个胚胎在发育的胚胎天(E) 6.5和8.5之间的时间点分离。文库使用10x Genomics Chromium平台(v1化学)生成,并在Illumina HiSeq 2500上测序。计算分析包括以下几个步骤:

  • 多路解复用,读取对齐和特征量化Cellranger使用Ensembl 92基因组注释。
  • 交换的分子被排除使用swappedDrops ()函数DropletUtils(Griffiths et al. 2018)
  • 含有细胞的液滴被称为emptyDrops ()函数DropletUtils(Lun et al. 2019)
  • 具有异常转录特征(例如,高线粒体基因含量)的所谓细胞被过滤掉。
  • 尺寸因子计算使用computeSumFactors ()函数食物(Lun, Bach, and Marioni 2016)
  • 假定的双态被识别和排除使用doubletCells ()函数食物
  • 细胞质剥离核也被排除。
  • 在主成分空间中进行批量校正fastMNN ()食物(Haghverdi et al. 2018)
  • 用递归策略识别集群buildSNNGraph ()(从食物),cluster_louvain(从igraph),并手工标注并合并为可解释的单元。

4Atlas数据格式

通过这个包访问的数据根据生成的不同的10x样本存储在子集中。对于胚胎图谱,导出的对象AtlasSampleMetadata为每个示例提供元数据信息。每列内容的描述可以使用AtlasSampleMetadata ?

head(AtlasSampleMetadata, n = 3)
##示例阶段pool_index seq_batch ncells ## 1 1 E6.5 1 1 360 ## 2 2 E7.5 2 1 356 ## 3 3 E7.5 3 1 458

所有数据访问函数都允许您选择想要访问的特定样本。通过只加载您对特定分析感兴趣的样本,可以节省下载和加载数据的时间,还可以减少机器上的内存消耗。

4.1处理过的数据访问

的形式提供数据集SingleCellExperiment对象。本节详细介绍如何与对象交互。我们只从图集中加载一个样本,以减少编译这个小插图时的内存消耗。

sce <- EmbryoAtlasData(samples = 21
##类:singlecel实验## dim: 29452 4651 ##元数据(0):## assays(1):计数## rownames(29452): ENSMUSG00000051951 ENSMUSG00000089699…## ENSMUSG00000096730 ENSMUSG00000095742 ## rowData names(2): ENSEMBL SYMBOL ## colnames(4651): cell_52466 cell_52467…cell_57115 cell_57116 ## colData name (17): cell barcode…颜色sizeFactor ## reducedDimNames(2): pca。## mainExpName: NULL ## altExpNames(0):

我们使用数量()函数检索计数矩阵。类中实现的稀疏矩阵存储这些矩阵包中。

计数(sce)(栽1:3)
4 × 3稀疏矩阵类“dgTMatrix”cell_52466 cell_52467 cell_52468 ## ENSMUSG00000104328…## ensmusg00000033845 6 8 10 ## ensmusg00000025903…## ensmusg00000104217……

对象中存在用于归一化的大小因子,可以使用sizeFactors ()函数。

头(sizeFactors (sce))
## [1] 0.8845695 1.4688375 1.2512019 0.8287969 1.3668086 0.9247460

在运行天窗logNormCounts函数在SingleCellExperiment对象,规范化或日志转换计数可以使用logcounts(或者,如果日志= FALSEnormcounts).为了避免依赖于天窗

每个基因的MGI符号和Ensembl基因ID存储在rowDataSingleCellExperiment对象。所有这些数据都是用Ensembl 92注释处理的。

构成了rowData (sce)) (
## 6行2列的数据帧##集合符号## <字符> <字符> ## ENSMUSG00000051951 ENSMUSG00000089699 ENSMUSG00000089699 Gm1992 ## ENSMUSG00000102343 ENSMUSG00000102343 Gm37381 ## ENSMUSG00000025900 ENSMUSG00000025902 ENSMUSG00000025902 Sox17 ## ENSMUSG00000104328 ENSMUSG00000104328 Gm37323

colData包含单元格特定的属性。每个字段的含义在函数文档中详细说明(EmbryoAtlasData ?).

头(colData (sce))
## cell barcode样本池阶段## <字符> <字符> <整数> <整数> <字符> ## cell_52466 cell_52467 cell_52467 AAACATACCCAACA 21 17 mixed_gastrulation ## cell_52468 cell_52468 AAACATACTTGCGA 21 17 mixed_gastrulation ## cell_52469 cell_52469 AAACATTGATCGGT 21 17 mixed_gastrulation ## cell_52470 cell_52470 AAACATTGCTTATC 21 17 mixed_gastrulation ## cell_52471 cell_52471 AAACATTGGTTCGA 2117mixed_gastrulation ## sequencing.batch theiler doub.density doublet cluster ##      ## cell_52466 2 TS9-10 0.0315539 FALSE 14 ## cell_52467 2 TS9-10 0.1362419 FALSE 3 ## cell_52468 2 TS9-10 0.7468976 FALSE 2 ## cell_52469 2 TS9-10 0.2704532 FALSE 1 ## cell_52470 2 TS9-10 0.2226039 FALSE 19 ## cell_52471 2 TS9-10 0.3261519 FALSE 5 ## cluster.sub cluster.stage cluster.theiler stripped ##     ## cell_52466 2 5 5 FALSE ## cell_52467 6 12 12 FALSE ## cell_52468 3 3 3 FALSE ## cell_52469 3 1 1 FALSE ## cell_52470 1 5 5 FALSE ## cell_52471 1 4 4 FALSE ## celltype colour sizeFactor ##    ## cell_52466 Blood progenitors 2 c9a997 0.884569 ## cell_52467 ExE ectoderm 989898 1.468838 ## cell_52468 Epiblast 635547 1.251202 ## cell_52469 Rostral neurectoderm 65A83E 0.828797 ## cell_52470 Haematoendothelial p.. FBBE92 1.366809 ## cell_52471 Nascent mesoderm C594BF 0.924746

数据的批量校正PCA表示可通过reducedDim函数,在pca.corrected槽。此表示包含NA为双合体或细胞质剥离细胞核的细胞值。

导出的对象中还提供了单元格类型颜色的向量(如本文中所使用的)EmbryoCelltypeColours.它的用法如下所示。

#排除技术人工singlets <- which(!(colData(sce)$doublet | colData(sce)$)) plot(x = reducedDim(sce, "umap")[singlets, 1], y = reducedDim(sce, "umap")[singlets, 2], col = EmbryoCelltypeColours[colData(sce)$celltype[singlets]], pch = 19, xaxt = "n", yaxt = "n", xlab = "UMAP1", ylab = "UMAP2")

如果希望对图集数据使用拼接/非拼接/模糊拼接计数矩阵,可以使用get.spliced参数,如下所示。拼接的计数矩阵将存储为单独的条目化验槽。

sce <- EmbryoAtlasData(samples=21, get.spliced=TRUE) names(assays(sce))
##[1]“计数”“spliced_counts”“unspliced_counts”“歧义计数”

4.2原始数据访问

未经过滤的计数矩阵也可从MouseGastrulationData.这指的是计算矩阵,其中交换的分子已经被移除,但没有细胞被调用。可以使用EmbryoAtlasData ()函数,返回为SingleCellExperiment对象。

- EmbryoAtlasData(type="raw", samples=c(1:2)) sapply(unfilt, dim)
## 1 2 ## [1,] 29452 29452 ## [2,] 117107 107802

如果你想进行细胞呼叫分析的测试,或者在10倍样本中使用环境RNA池的分析,这些未经过滤的矩阵可能是有用的。注意,空列被排除在这些矩阵之外。

5Chimera数据信息

5.1背景

嵌合胚胎的实验数据Pijuan-Sala等人(2019)而且Guibentif et al.(未注明)也可以从这个包中获得。在这些胚胎中,荧光胚胎干细胞被注射到野生型E3.5小鼠胚胎中。然后将胚胎送回母鼠体内,让其正常发育直到收集。对细胞进行流式分选以纯化宿主和注射群体,使用10x version 2化学生成文库,并在HiSeq 4000上进行测序。

嵌合体对于研究敲除基本发育基因的效果特别有效。我们注入具有特定基因敲除的干细胞,并允许由此产生的嵌合胚胎发育。注射细胞和宿主细胞都对小鼠的不同组织有贡献。野生型宿主细胞的存在使胚胎能够补偿和避免严重的发育失败,而被敲除的细胞也被捕获,它们的异常行为可以被研究。

5.2可用的数据集

该包包含三个嵌合数据集:

  • 野生型嵌合体涉及十个样本,分别来自两个时间点的五个独立胚胎库。注射野生型细胞的区别仅在于插入td-Tomato构造。这些数据对于确定典型嵌合体的性质是有用的scRNAseq数据。原始测序数据可在e - mtab - 7324对于样本1-6,和e - mtab - 8812样品7-10。方法可以访问数据WTChimeraData ()函数。
  • Tal1敲除嵌合体涉及四个样本,从一个胚胎池在一个时间点。注射细胞在Tal1奇美拉有击倒Tal1基因。它们还包含td-Tomato构造。原始测序数据可在e - mtab - 7325.方法可以访问数据Tal1ChimeraData ()函数。
  • TBrachyury)敲除嵌合体,涉及16个样本,来自两个时间点的8个胚胎池。注射细胞在T奇美拉有击倒T基因。它们还包含td-Tomato构造。原始测序数据可在e - mtab - 8811.方法可以访问数据TChimeraData ()函数。

每次实验处理后的数据作为SingleCellExperiment,对于前面描述的地图集数据。然而,有一些小的区别:

  • 的表达式包含一个额外的特征td-Tomato
  • 来自注射细胞的细胞(因此对td-Tomato)已在colData番茄
  • 关于从相同胚胎库中正确配对样本的信息可在colData
  • 不提供拼接计数矩阵。

单元格元数据中还可能有用于个别实验的附加列,其含义在每个函数的帮助页中描述。还为这些数据集中的每个样本提供了未经过滤的计数矩阵。

6snATAC-seq数据信息

数据从Pijuan-Sala等人(2020)这个包是否在BPSATACData ()函数。由于软件包的作者没有参与这项研究,我们让用户自己熟悉论文中使用的方法,链接在这里.由于该数据以开放染色质为单位进行测量,其格式与其他数据集有很大不同,因此建议参考该函数的手册页以获取更多信息。原始测序数据可在GEO加入时获得GSE133244

7seqFISH数据信息

数据从Lohoff et al. (2020)这个包是否在LohoffSeqFISHData ()函数。生成这些数据的方法可以在它们的biorXiv提交.此数据作为SpatialExperiment对象。这包括细胞内单个RNA分子的位置,以及每个细胞的分割掩码。分割掩膜是通过细胞膜染色确定的,而不是通过简单的距离-核方法,这是该数据集的一个独特方面(在其发表时)。有关如何传递数据的信息,请参阅功能手册页。

810倍多组数据信息

数据从Argelaguet等人(2022)可在RAMultiomeData ()函数。该数据集包含来自同一细胞的RNA表达和染色质可及性数据,来自不同时间点的原肠胚。ATAC-seq数据可通过基因启动子可及性评分获得(“TSS_gene_score altExp (sce))和全基因组峰值存在(“ATAC_peak_counts altExp (sce)).的方式altExpS功是它们自己SingleCellExperiment对象,具有相同的colData基本上SingleCellExperiment对象。检查文档RAMultiomeData ()有关每个矩阵内容的更多信息。与主地图集类似,每个样本的元数据可以使用RASampleMetadata

9附件数据信息

提供了一些额外的数据,这些数据是针对在本包中数据的个别出版物中执行的分析而提供的。目前,这方面唯一的例子是GuibentifExtraData (),下载躯体发生轨迹信息和NMP排序Guibentif et al.(未注明)

10处理外部的数据Bioconductor而且R

的外部使用这些数据Bioconductor从这个包中提供它的框架。幸运的是,有几个可用的包R这就方便了。根据我的经验,zellkonverter到目前为止,创建h5ad文件的最佳方法是(scanpy.一种替代方法是使用LoomExperiment*创建的包.loom文件。你可以用loomR,可透过Github修拉有一个功能作为。修拉直接转换singlecel实验文件直接到修拉材料的对象。

在任何情况下,这个包可能是访问小鼠原肠形成数据集的最简单的方法,无论您希望如何分析它的下游。

11会话信息

sessionInfo ()
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:[1] MouseGastrulationData_1.12.0 SpatialExperiment_1.8.0 ## [3] SingleCellExperiment_1.20.0 SummarizedExperiment_1.28.0 ## [5] Biobase_2.58.0 GenomicRanges_1.50.0 ## [7] GenomeInfoDb_1.34.0 IRanges_2.32.0 ## [9] S4Vectors_0.36.0 BiocGenerics_0.44.0 ## [11] MatrixGenerics_1.10.0 matrixStats_0.62.0 ## [13] BiocStyle_2.26.0 ## ##通过命名空间加载(并且没有附加):# # # # [1] bitops_1.0-7 bit64_4.0.5 [3] filelock_1.0.2 httr_1.4.4 # # [5] BumpyMatrix_1.6.0 tools_4.2.1 # # [7] bslib_0.4.0 utf8_1.2.2 # # [9] R6_2.5.1 HDF5Array_1.26.0 # # [11] DBI_1.1.3 rhdf5filters_1.10.0 # # [13] withr_2.5.0 tidyselect_1.2.0 # # [15] bit_4.0.4 curl_4.3.3 # # [17] compiler_4.2.1 cli_3.4.1 # # [19] DelayedArray_0.24.0 bookdown_0.29 # # [21] sass_0.4.2 rappdirs_0.3.3 # # [23] stringr_1.4.1 digest_0.6.30 # # [25] rmarkdown_2.17 R.utils_2.12.1 # # [27] XVector_0.38.0 pkgconfig_2.0.3 # # [29]htmltools_0.5.3 sparseMatrixStats_1.10.0 # # [31] highr_0.9 dbplyr_2.2.1 # # [33] fastmap_1.1.0 limma_3.54.0 # # [35] rlang_1.0.6 RSQLite_2.2.18 # # [37] shiny_1.7.3 DelayedMatrixStats_1.20.0 # # [39] jquerylib_0.1.4 generics_0.1.3 # # [41] jsonlite_1.8.3 BiocParallel_1.32.0 # # [43] dplyr_1.0.10 R.oo_1.25.0 # # [45] rcurl_1.98 - 1.9 magrittr_2.0.3 # # [47] GenomeInfoDbData_1.2.9 scuttle_1.8.0 # # [49] Matrix_1.5-1 Rcpp_1.0.9 # # [51] Rhdf5lib_1.20.0 fansi_1.0.3 # # [53] lifecycle_1.0.3 R.methodsS3_1.8.2 # #[55] stringi_1.7.8 yaml_2.3.6 # # [57] edgeR_3.40.0 zlibbioc_1.44.0 # # [59] rhdf5_2.42.0 BiocFileCache_2.6.0 # # [61] AnnotationHub_3.6.0 grid_4.2.1 # # [63] blob_1.2.3 promises_1.2.0.1 # # [65] parallel_4.2.1 dqrng_0.3.0 # # [67] crayon_1.5.2 ExperimentHub_2.6.0 # # [69] lattice_0.20-45 Biostrings_2.66.0 # # [71] beachmat_2.14.0 KEGGREST_1.38.0 # # [73] locfit_1.5 - 9.6 magick_2.7.3 # # [75] knitr_1.40 pillar_1.8.1 # # [77] rjson_0.2.21 codetools_0.2-18 # # [79] glue_1.6.2 BiocVersion_3.16.0 # # [81]evaluate_0.17 BiocManager_1.30.19 ## [83] png_0.1-7 httpuv_1.6.6 ## [85] vctrs_0.5.0 purrr_0.3.5 ## [87] assertthat_0.2.1 cachem_1.0.6 ## [89] xfun_0.34 mime_0.12 ## [91] DropletUtils_1.18.0 xtable_1.8-4 ## [93] later_1.3.0 tibble_3.1.8 ## [95] AnnotationDbi_1.60.0 memoise_2.0.1 ## [97] ellipsis_0.3.2 interactiveDisplayBase_1.36.0

参考文献

Argelaguet, Ricard, Tim Lohoff, Jingyu Gavin Li, Asif Nakhuda, Deborah Drage, Felix Krueger, Lars Velten, Stephen J. Clark和Wolf Reik, 2022。“利用单细胞多组学解码小鼠胚胎中的基因调控。”bioRxiv, 2022.06.15.496239。https://doi.org/10.1101/2022.06.15.496239

格里菲斯,J. A., A. C.理查德,K.巴赫,A. T. L.伦,J. C.马里奥尼。2018。“检测和删除单细胞RNA-seq数据中的条形码交换。”Nat Commun9(1): 2667。

Guibentif, Carolina, Jonathan A. Griffiths, Ivan Imaz-Rosshandler, Shila Ghazanfar, Jennifer Nichols, Valerie Wilson, Berthold Göttgens和John C. Marioni。注释:“小鼠胚胎中早期Somites的不同途径。”Dev细胞。

哈格威尔第,A. T. L.伦,M. D.摩根,J. C.马里奥尼,2018。“单细胞rna测序数据中的批量效应可以通过匹配相互最近邻来纠正。”生物科技Nat。》。36(5): 421-27。

Lohoff, T., S. Ghazanfar, A. Missarova, N. Koulena, N. Pierson, J. A. Griffiths, E. S. Bardot等,2020。小鼠器官发生的高度多路空间分辨基因表达谱bioRxiv, 2020.11.20.391896。https://doi.org/10.1101/2020.11.20.391896

伦,A. T.巴赫,J. C.马里奥尼,2016。“在细胞之间进行池化,以规范化单细胞RNA测序数据,并进行多次零计数。”基因组医学杂志。17(4月):75。

伦,A. T. L, S. Riesenfeld, T. Andrews, T. P. Dao, T. Gomes和J. C. Marioni, 2019。“EmptyDrops:在基于液滴的单细胞RNA测序数据中区分细胞和空液滴。”基因组医学杂志。20(1): 63。

皮胡安-萨拉,布兰卡,乔纳森·a·格里菲斯,卡罗莱纳·吉本蒂夫,汤姆·w·希斯科克,瓦吉德·贾韦德,费尔南多·j·卡莱罗-涅托,卡拉·穆拉斯等。2019。小鼠原肠形成和早期器官发生的单细胞分子图谱。自然566(7745): 490-95。https://doi.org/10.1038/s41586-019-0933-9

Pijuan-Sala, Blanca, Nicola K. Wilson,夏军,侯晓萌,Rebecca L. Hannah, Sarah Kinston, Fernando J. Calero-Nieto,等。2020。“单细胞染色质可及性地图揭示了驱动早期小鼠器官发生的调控程序。”自然细胞生物学22(4): 487-97。https://doi.org/10.1038/s41556-020-0489-9