内容

0.1Instalation

如果(!需要(“BiocManager”)) install.packages (“BiocManager”) BiocManager::安装(“glmSparseNet”)

1需要包

库(dplyr)库(ggplot2)图书馆(生存)图书馆(futile.logger)图书馆(curatedTCGAData)图书馆(TCGAutils) #库(glmSparseNet) # #一些通用选项徒劳的。记录器.Last调试包。值< - flog.layout(布局。格式(“[~ l] ~ m”)) .Last。值< - glmSparseNet::: show.message (FALSE) #设置ggplot2默认主题最小theme_set (ggplot2: theme_minimal ())

2加载数据

数据从一个在线加载数据集策划TCGA下载使用curatedTCGADatabioconductor包和加工。

加速过程中,我们使用一个变量数据集大幅下降到107只(基因),这是作为一个数据对象存储在这个包中。然而,手动获取数据的过程中描述下面的块。

brca < - curatedTCGAData (diseaseCode =“brca化验=“RNASeq2GeneNorm version = " 1.1.38 " dry.run = FALSE)
brca < - curatedTCGAData (diseaseCode =“brca化验=“RNASeq2GeneNorm version = " 1.1.38 " dry.run = FALSE)
brca < - TCGAutils:: TCGAsplitAssays (brca c (' 1 ', ' 11 ')) xdata。生< - t (cbind(试验(brca[[1]]),测定(brca[[2]]))) #得到生存和化验数据类之间的匹配。v < - TCGAbiospec (rownames (xdata.raw)) $ sample_definition % > %因子名称(class.v) < - rownames (xdata.raw) #保持与标准偏差特性> 0 xdata。生< - xdata。原始% > %{((申请。2 sd) ! = 0)} % > % {xdata。生[,]}% > %规模set.seed (params种子美元)小。< - c子集(‘CD5’,‘CSF2RB’,‘HSF1’,‘革命’,‘LRRC37A6P’,‘NEUROG2’,‘NLRC4’,‘PDE11A’,‘PIK3CB’,‘qar’,‘RPGRIP1L’,‘SDC1’,‘TMEM31’,‘YME1L1’,‘ZBTB11’,样本(colnames (xdata.raw), 100)) xdata < - xdata。生(small.subset[小。%,% colnames子集(xdata.raw)]] ydata < - class.v

3合适的模型

惩罚的适合模型模型中心使用交叉验证函数cv.glmHub

< - cv。glmHub (xdata, ydata,家庭=“二项”,网络=“相关性”,nlambda = 1000,网络。选择= networkOptions(截止= 6,min.degree = 2))

4交叉验证的结果

显示的结果1000年不同的参数用于寻找最优价值10倍交叉验证。两个垂直的虚线代表最好的模型和模型变量选择较少(基因),但在一个标准误差距离最好的。

情节(安装)

4.1从交叉验证选择模型的系数

最好的模型描述lambda.min

系数。v < -系数(安装、s = lambda.min) [1] % > % {。。! = 0]}系数。v % > % {data.frame (ensembl.id =名字(.),gene.name = geneNames(名称(.))$ external_gene_name,系数=,stringsAsFactors = FALSE)} % > %安排(gene.name) % > % knitr:: kable ()
ensembl.id gene.name 系数
(拦截) (拦截) (拦截) -6.8189813
CD5 CD5 AMOTL1 -1.1200445
NLRC4 NLRC4 ATR -1.4434578
PIK3CB PIK3CB B3GALT2 -0.3880002
ZBTB11 ZBTB11 BAG2 -0.3325729
ATR ATR C16orf82 1.2498304
IL2 IL2 CD5 0.6327083
GDF11 GDF11 CIITA -0.2676642
DCP1A DCP1A DCP1A 0.2994599
AMOTL1 AMOTL1 FAM86B1 0.4430643
BAG2 BAG2 FNIP2 -0.1841676
C16orf82 C16orf82 GDF11 0.0396368
FAM86B1 FAM86B1 GNG11 0.2025463
FNIP2 FNIP2 GREM2 0.6101759
MS4A4A MS4A4A GZMB 1.1614779
B3GALT2 B3GALT2 HAX1 -0.0867011
GNG11 GNG11 IL2 3.0659066
NDRG2 NDRG2 MMP28 1.1142519
HAX1 HAX1 MS4A4A -0.1516837
GREM2 GREM2 NDRG2 -0.2014884
CIITA CIITA NLRC4 0.4256103
GZMB GZMB PIK3CB -2.7663574
MMP28 MMP28 ZBTB11 -0.8438024

4.2癌症的标志

geneNames(名字(coefs.v) % > %{标志(。external_gene_name美元)$热图}
# #旋度误差:curl_fetch_memory (url,处理=处理):超时了:[chat.lionproject.net]操作超时10001毫秒后的0字节收到# #请求失败(错误)。在1.1秒重试…
# #旋度误差:curl_fetch_memory (url,处理=处理):OpenSSL SSL_connect: SSL_ERROR_SYSCALL连接chat.lionproject.net: 443 # #请求失败(错误)。在1.1秒重试…
# #不能调用API标志,请稍后再试。
# #空

4.3精度

# #[信息]分类错误(11)
# #[信息]*假主要固体肿瘤:7
# #[信息]*假正常:4

预测反应的柱状图

ROC曲线

# #设置级别:控制=主要固体肿瘤,例=固体组织正常
< # #设置方向:控制情况