内容

1简介

癌症是一个总括性术语,包括一系列疾病,从快速生长的致命疾病到缓慢或延迟发展至死亡的惰性病变。一个尚未解决的关键挑战是,具有相关临床差异(如生存率)特征的分子疾病亚型很难区分。随着多组学技术的发展,子类型方法已经转向数据集成,以便从综合的角度来区分子类型,考虑到多个层面的现象。然而,这些综合方法仍然受到统计假设和噪声敏感性的限制。此外,他们无法使用多组学数据预测患者的风险评分。

为了解决这个问题,我们引入了通过共识因子分析(SCFA)进行分型,这是一种使用共识因子分析进行癌症分型和风险预测的新方法。SCFA遵循三个阶段的分层过程,以确保所发现的子类型的健壮性。首先,该方法使用一个自动编码器过滤掉对每个患者特征的贡献不显著的基因。其次,应用改进的因子分析生成高维多组学数据的因子表示集合。最后,它利用共识集成来查找跨所有因子表示共享的子类型。

2安装

安装短链脂肪酸,您需要安装来自Bioconductor的R包。

如果(!install.packages("BiocManager") BiocManager::install("SCFA")

SCFA取决于火炬包来构建和训练自动编码器。加载SCFA包时,它将检查可用性c++ libtorch火炬包可以用来安装c++ libtorch,这是神经网络计算所必需的。

如果libtorch不是由torch自动安装的,它可以手动安装:torch::install_torch()

3.使用短链脂肪酸

3.1准备数据

加载示例数据“绿带运动”“绿带运动”是胶质母细胞瘤癌症数据集。

#加载所需的库库(SCFA)
## libtorch未安装使用' torch::install_torch() '下载并安装libtorch
#加载示例数据(GBM数据集),对于其他数据集,从https://bioinformatics.cse.unr.edu/software/scfa/Data/的data文件夹下载rds文件并加载rds对象数据(“GBM”)# microRNA数据的一个矩阵的列表,其他示例将有3个数据类型的3个矩阵dataList <- GBM$data #生存信息生存<- GBM$survival

3.2子类型化

我们可以用主函数短链脂肪酸从多组学数据中生成子类型。该函数的输入是来自不同数据类型的矩阵列表。每个矩阵都有行作为样本,列作为特征。该函数的输出是每个患者的子类型分配。我们可以进行生存分析,以确定所发现的亚型之间的生存差异的意义。

#对结果执行生存分析coxFit <- coxph(Surv(time = survival, event = Death) ~ as.factor(subtype), data = survival, ties="exact") coxP <- round(summary(coxFit)$sctest[3],digits = 20) print(coxP)
## pvalue ## 0.0121235006

3.3预测风险评分

我们可以用这个函数SCFA.class利用训练数据中可用的生存信息预测患者的风险评分。我们需要为函数提供训练数据生存信息和测试数据。输出是每个患者的风险评分。风险得分越高的患者发生事件的概率越高。使用一致性指数来确定预测的危险评分与生存信息之间的相关性。

#分割数据进行训练和测试set.seed (1) idx < - sample.int (nrow (dataList[[1]]),圆(nrow (dataList[[1]]) / 2))生存生存< -生存生存美元- min(生存生存美元)+ 1 #存活时间必须积极trainList < -拉普(dataList, x (x)函数[idx,]) trainSurvival < - Surv(时间=生存idx,美元生存,死亡事件=生存(idx,) $) testList < -拉普(dataList, x (x)函数[idx,]) testSurvival < Surv(时间=生存idx,美元生存,event = survival[-idx,]$Death) #执行风险预测结果<- scca .class(trainList, trainSurvival, testList, seed = 1, ncores = 4L) #使用一致性索引c.index <- survival::concordance(coxph(testSurvival ~ result))$concordance print(c.index)
## [1] 0.5783241
sessionInfo ()
## R版本4.2.1(22-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.5 LTS ## ##矩阵产品:default ## BLAS: /home/biocbuild/bbs-3.16-bio /R/lib/libRblas. ##因此## LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。因此## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# [3] LC_TIME=en_GB LC_COLLATE= c# [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# [9] LC_ADDRESS=C LC_TELEPHONE= c# [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats graphics grDevices utils datasets methods base ## ##其他附加的包:## [1]survival_3.4-0 SCFA_1.8.0 knitr_1.40 biocstyle_1 .26.0 ## ##通过命名空间加载(并没有附加):# [1] shape_1.4.6 xfun_0.34 bslib_0.4.0 ## [4] clusterCrit_1.2.8 splines_4.2.1 lattice_0.20-45 ## [7] snow_0.4-4 htmltools_0.5.3 yaml_2.3.6 ## [10] rlang_1.0.6 jquerylib_0.1.4 BiocParallel_1.32.0 ## [13] bit64_1 .0.5 matrixstats_0.0.6 2.0 foreach_1.5.2 ## [13] string__1 .4.1 codetools_0.2-18 psych__2 .2.9 ## [16] evaluate_0.17 callr_1 .7.2 fastmap_1.1.0 ## [25] ps_1.7.2 parallel_4.2.1 Rcpp_1.0.9 ## [28] coro_1.0.3 jsonlite_1.8.3 bit_4.0.4 ## [31]## [34] magrittr_2.0.3 sass_0.4.2 glmnet_4.1-4 ## [43] cluster_2.1.4 pkgconfig_2.0.3 Matrix_1.5-1 ## [46] rmarkdown_2.17 iterators_1.0.14 R6_2.5.1 ## [49] nlme_1 -160 igraph_1.3.5 compiler_4.2.1