GDSArray 1.18.0
GDSArray是一个Bioconductor包,将GDS文件表示为派生自DelayedArray包和DelayedArray
类。它将文件中的GDS节点转换为DelayedArray
-派生数据结构。上定义的丰富的通用方法和数据操作GDSArray
让它变得更多R-比直接使用GDS文件友好。
如果(!requireNamespace("BiocManager", quiet = TRUE)) install.packages("BiocManager")::install("GDSArray")
库(GDSArray)
GDSArray
,GDSMatrix
,GDSFile
GDSArray
表示GDS文件为DelayedArray
实例。它有这样的方法昏暗的
,dimnames
的类数组操作和方法DelayedArray
的细分方法[
.
的GDSArray ()
构造函数将文件路径和GDS文件中的GDS节点作为参数。的GDSArray ()
构造函数总是返回对象,行是特征(基因/变异/ snp),列是“样本”。这与里面的化验数据是一致的SummarizedExperiment
.修复:GDSArray()应该返回昏暗?
file <- gdsExampleFileName("seqgds")
这是一个SeqArray GDS文件
GDSArray(文件,“基因型/数据”)
## <2 x 90 x 1348>数组类GDSArray和类型“integer”:##,,1 ##[,1][,2][,3][,4]…[,87][,88][,89][,90] ##[1,] 3 3 0 3。0 0 0 0 ##[2,] 3 3 0 3。0 0 0 0 ## ##,,2 ##[,1][,2][,3][,4]…[,87][,88][,89][,90] ##[1,] 3 3 0 3。0 0 0 0 ##[2,] 3 3 0 3。0 0 0 0 ## ##…## ##,,1347 ##[,1][,2][,3][,4]…[,87][,88][,89][,90] ##[1,] 0 0 0 0。0 0 0 0 ##[2,] 0 0 0 0 0。 0 0 0 0 ## ## ,,1348 ## [,1] [,2] [,3] [,4] ... [,87] [,88] [,89] [,90] ## [1,] 3 3 0 3 . 3 3 3 3 ## [2,] 3 3 1 3 . 3 3 3 3
一个GDSMatrix
是二维的GDSArray
,并将从GDSArray ()
如果输入的GDS节点是二维的,构造函数将自动返回。
GDSArray(文件,“注释/ DP /数据/格式”)
## <90 x 1348>矩阵类GDSMatrix和类型“integer”:##[,1][,2][,3][,4]…[1345][1346][1347][1348] # #[1] 15 0 0 12。6 5 4 0 ## [2,] 0 0 1710 8 7 0 ##[3,] 107 92 247 177。28 15 26 3 ## ... ... ... ...##[88,] 81 84 217 110。36 61 92 0 ##[89,] 67 47 134 111。46 57 71 2 ##[90,] 156 150 417 195。78 101 144 2
GDSFile
的GDSFile
是表示GDS文件的轻量级类。它有$
完成方法来完成任何可能的GDS节点。它可以作为一个方便GDSArray
的槽current_path
在GDSFile
对象表示有效的GDS节点。否则,它将返回GDSFile
对象。current_path
.
gf <- GDSFile(file) gf$annotation$info
GDSFile文件:/home/biocbuild/bbs-3.16-bioc/R/library/SeqArray/extdata/CEU_Exon。gds ##当前节点:标注/info ##子节点:标注/info/AA ##标注/info/AC ##标注/info/AN ##标注/info/DP ##标注/info/HM2 ##标注/info/HM3 ##标注/info/OR ##标注/info/GP ##标注/info/BN
gf注释信息交流美元美元
## <1348>类GDSArray数组和类型“integer”:##[1][2][3][4]。[1345][1346][1347][1348] ## 4 1 6 128。2 11 11
试着输入gf美元安
和紧迫选项卡
完成键。
GDSArray
方法种子
返回GDSArraySeed
的GDSArray
对象。gt <- GDSArray(文件,"基因型/数据")种子(gt)
GDSArraySeed文件:/home/biocbuild/论坛-3.16-bioc/R/library/SeqArray/extdata/CEU_Exon。gds ##阵列节点:基因型/数据## Dim: 2 x 90 x 1348
gdsfile
返回对应GDS文件的文件路径。gdsfile (gt)
## [1] "/home/biocbuild/bbs-3.16-bioc/R/library/SeqArray/extdata/CEU_Exon.gds"
gdsnodes ()
取GDS文件路径或GDSFile
对象作为输入,并返回可转换为的所有节点GDSArray
实例。返回的GDS节点名称可以用作GDSArray (name =)
构造函数。
gdsnodes(文件)
##[1] "样本。id”“变体。Id“##[3]”位置“##[5]”等位基因“基因型/数据”##[7]“基因型/~数据”“基因型/额外。索引“##[9]基因型/额外”“阶段/数据”##[11]阶段/~数据”“阶段/额外”。在dex" ## [13] "phase/extra" "annotation/id" ## [15] "annotation/qual" "annotation/filter" ## [17] "annotation/info/AA" "annotation/info/AC" ## [19] "annotation/info/AN" "annotation/info/DP" ## [21] "annotation/info/HM2" "annotation/info/HM3" ## [23] "annotation/info/OR" "annotation/info/GP" ## [25] "annotation/info/BN" "annotation/format/DP/data" ## [27] "annotation/format/DP/~data" "sample.annotation/family"
相同的(gdsnodes(文件),gdsnodes (gf))
##[1]真
gdsnodes(file)[2] GDSArray(file, varname)
## <1348>类GDSArray数组和类型“integer”:##[1][2][3][4]。[1345] [1346] [1347] [1348] ## 1 2 31345 1346 1347 1348
昏暗的()
,dimnames ()
的dimnames (GDSArray)
返回一个未命名的列表,值为NULL或维名,长度与return from相同暗(GDSArray)
.
<- GDSArray(file, "annotation/format/ dp /data") dim(dp)
## [1] 90 1348
类(dimnames (dp))
##[1]“列表”
长度(dimnames (dp))
## [1] 0 0
[
构造子集GDSArray
实例可以是子集,遵循常规R数字或逻辑向量的约定;逻辑向量被循环到适当的长度。
dp (1:3, 10:15)
## <3 x 6>矩阵类DelayedMatrix和类型“integer”:## [,1][,2][,3][,4][,5][,6]## [1,]59 49 88 55 46 47 ## [2,]33 22 16 9 7 7 ## [3,]276 271 145 89 70 151
dp[c(TRUE, FALSE),]
## <45 x 1348>矩阵类DelayedMatrix和类型“integer”:##[,1][,2][,3][,4]…[1345][1346][1347][1348] # #[1] 15 0 0 12。6 5 4 0 ##[2,] 107 92 247 177。28 15 26 3 ##[3,] 0 0 17 0。4 4 4 0 ## ... ... ... ...## [43,] 0 0 113 3 1 0 ##[44,] 3 4 9 2。4 34 0 ##[45,] 67 47 134 111。46 57 71 2
日志(dp)
## <90 x 1348>矩阵类DelayedMatrix和类型“double”:##[,1][,2][,3]…[,1347] [,1348] ## [1,] -Inf -Inf 2.484907。1.386294 -Inf ## [2,] -Inf -Inf 2.8332131.945910 -Inf ##[3,] 4.672829 4.521789 5.509388。3.258097 1.098612 ## ... ... ...##[88,] 4.394449 4.430817 5.379897。4.5217886 -Inf ##[89,] 4.204693 3.850148 4.897840。4.2626799 0.6931472 ##[90,] 5.049856 5.010635 6.033086。4.9698133 - 0.6931472
dp[rowMeans(dp) < 60,]
## <52 x 1348>矩阵类DelayedMatrix和类型“integer”:##[,1][,2][,3][,4]…[1345][1346][1347][1348] # #[1] 15 0 0 12。6 5 4 0 ## [2,] 0 0 1710 8 7 0 ##[3,] 0 0 11 1。3 1 1 0 ## ... ... ... ...##[50,] 0 0 6 0。2 0 0 0 ## [51,] 0 0 113 3 1 0 ##[52,] 3 4 9 2。4 3 4 0
GDSArraySeed
的GDSArraySeed
类的“种子”GDSArray
对象。它不是从GDSArray包中。种子对象应该包含的gds文件gds.class
, GDS文件路径,GDS文件节点名,并期望满足种子的合同执行DelayedArray
后端,即支持dim()和dimnames()。
gds <- openfn.gds(file) seed <- GDSArray:::GDSArraySeed(gds, "genotype/data") seed
GDSArraySeed文件:/home/biocbuild/论坛-3.16-bioc/R/library/SeqArray/extdata/CEU_Exon。gds ##阵列节点:基因型/数据## Dim: 2 x 90 x 1348
closefn.gds (gds)
种子可以用来构建一个GDSArray
实例。
GDSArray(种子)
## <2 x 90 x 1348>数组类GDSArray和类型“integer”:##,,1 ##[,1][,2][,3][,4]…[,87][,88][,89][,90] ##[1,] 3 3 0 3。0 0 0 0 ##[2,] 3 3 0 3。0 0 0 0 ## ##,,2 ##[,1][,2][,3][,4]…[,87][,88][,89][,90] ##[1,] 3 3 0 3。0 0 0 0 ##[2,] 3 3 0 3。0 0 0 0 ## ##…## ##,,1347 ##[,1][,2][,3][,4]…[,87][,88][,89][,90] ##[1,] 0 0 0 0。0 0 0 0 ##[2,] 0 0 0 0 0。 0 0 0 0 ## ## ,,1348 ## [,1] [,2] [,3] [,4] ... [,87] [,88] [,89] [,90] ## [1,] 3 3 0 3 . 3 3 3 3 ## [2,] 3 3 1 3 . 3 3 3 3
的DelayedArray ()
构造函数与GDSArraySeed
对象作为参数返回的内容与GDSArray ()
同样的构造函数GDSArraySeed
.
类(DelayedArray(种子))
# #[1]“GDSArray”# # attr(“包”)# #[1]“GDSArray”
sessionInfo ()
## R版本4.2.1(2022-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 20.04.5 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.16-bioc/R/lib/libRblas。/home/biocbuild/bbs-3.16-bioc/R/lib/libRlapack。所以## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基础包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:## [1]GDSArray_1.18.0 DelayedArray_0.24.0 IRanges_2.32.0 ## [4] S4Vectors_0.36.0 MatrixGenerics_1.10.0 matrixStats_0.62.0 ## [7] Matrix_1.5-1 BiocGenerics_0.44.0 gdsfmt_1.34.0 ## [10] BiocStyle_2.26.0 ## ##通过命名空间加载(且未附加):## [1] XVector_0.38.0 GenomeInfoDb_1.34.0 bslib_0.4.0 ## [4] compiler_4.2.1 BiocManager_1.30.19 jquerylib_0.1.4 ## [10] digest_0.6.30 jsonlite_1.8.3 evaluate_0.17 ## [13] lattice_0.20-45 rlang_1.0.6 cli_3.4.1 ## [16] SeqArray_1.38.0 yaml_2.3.6 parallel_4.2.1 ## [19] xfun_0.34 fastmap_1.1.0 GenomeInfoDbData_1.2.9 ## [22] string_1 .4.1 knitr_1.40 Biostrings_2.66.0 ## [25] sass_0.4.2 grid_4.2.1 R6_2.5.1 ## [28] rmarkdown_2.17 bookdown_0.29RCurl_1.98-1.9 cachem_1.0.6 crayon_1.5.2