如果(!需要(“BiocManager”)) install.packages (“BiocManager”) BiocManager::安装(“glmSparseNet”)
库(dplyr)库(ggplot2)图书馆(生存)图书馆(futile.logger)图书馆(curatedTCGAData)图书馆(TCGAutils) #库(glmSparseNet) # #一些通用选项徒劳的。记录器.Last调试包。值< - flog.layout(布局。格式(“[~ l] ~ m”)) .Last。值< - glmSparseNet::: show.message (FALSE) #设置ggplot2默认主题最小theme_set (ggplot2: theme_minimal ())
数据从一个在线加载数据集策划TCGA下载使用curatedTCGAData
bioconductor包和加工。
加速过程中,我们使用一个变量数据集大幅下降到107只(基因),这是作为一个数据对象存储在这个包中。然而,手动获取数据的过程中描述下面的块。
brca < - curatedTCGAData (diseaseCode =“brca化验=“RNASeq2GeneNorm version = " 1.1.38 " dry.run = FALSE)
brca < - curatedTCGAData (diseaseCode =“brca化验=“RNASeq2GeneNorm version = " 1.1.38 " dry.run = FALSE)
brca < - TCGAutils:: TCGAsplitAssays (brca c (' 1 ', ' 11 ')) xdata。生< - t (cbind(试验(brca[[1]]),测定(brca[[2]]))) #得到生存和化验数据类之间的匹配。v < - TCGAbiospec (rownames (xdata.raw)) $ sample_definition % > %因子名称(class.v) < - rownames (xdata.raw) #保持与标准偏差特性> 0 xdata。生< - xdata。原始% > %{((申请。2 sd) ! = 0)} % > % {xdata。生[,]}% > %规模set.seed (params种子美元)小。< - c子集(‘CD5’,‘CSF2RB’,‘HSF1’,‘革命’,‘LRRC37A6P’,‘NEUROG2’,‘NLRC4’,‘PDE11A’,‘PIK3CB’,‘qar’,‘RPGRIP1L’,‘SDC1’,‘TMEM31’,‘YME1L1’,‘ZBTB11’,样本(colnames (xdata.raw), 100)) xdata < - xdata。生(small.subset[小。%,% colnames子集(xdata.raw)]] ydata < - class.v
惩罚的适合模型模型中心使用交叉验证函数cv.glmHub
。
< - cv。glmHub (xdata, ydata,家庭=“二项”,网络=“相关性”,nlambda = 1000,网络。选择= networkOptions(截止= 6,min.degree = 2))
显示的结果1000年
不同的参数用于寻找最优价值10倍交叉验证。两个垂直的虚线代表最好的模型和模型变量选择较少(基因),但在一个标准误差距离最好的。
情节(安装)
最好的模型描述lambda.min
系数。v < -系数(安装、s = lambda.min) [1] % > % {。。! = 0]}系数。v % > % {data.frame (ensembl.id =名字(.),gene.name = geneNames(名称(.))$ external_gene_name,系数=,stringsAsFactors = FALSE)} % > %安排(gene.name) % > % knitr:: kable ()
ensembl.id | gene.name | 系数 | |
---|---|---|---|
(拦截) | (拦截) | (拦截) | -6.8189813 |
CD5 | CD5 | AMOTL1 | -1.1200445 |
NLRC4 | NLRC4 | ATR | -1.4434578 |
PIK3CB | PIK3CB | B3GALT2 | -0.3880002 |
ZBTB11 | ZBTB11 | BAG2 | -0.3325729 |
ATR | ATR | C16orf82 | 1.2498304 |
IL2 | IL2 | CD5 | 0.6327083 |
GDF11 | GDF11 | CIITA | -0.2676642 |
DCP1A | DCP1A | DCP1A | 0.2994599 |
AMOTL1 | AMOTL1 | FAM86B1 | 0.4430643 |
BAG2 | BAG2 | FNIP2 | -0.1841676 |
C16orf82 | C16orf82 | GDF11 | 0.0396368 |
FAM86B1 | FAM86B1 | GNG11 | 0.2025463 |
FNIP2 | FNIP2 | GREM2 | 0.6101759 |
MS4A4A | MS4A4A | GZMB | 1.1614779 |
B3GALT2 | B3GALT2 | HAX1 | -0.0867011 |
GNG11 | GNG11 | IL2 | 3.0659066 |
NDRG2 | NDRG2 | MMP28 | 1.1142519 |
HAX1 | HAX1 | MS4A4A | -0.1516837 |
GREM2 | GREM2 | NDRG2 | -0.2014884 |
CIITA | CIITA | NLRC4 | 0.4256103 |
GZMB | GZMB | PIK3CB | -2.7663574 |
MMP28 | MMP28 | ZBTB11 | -0.8438024 |
geneNames(名字(coefs.v) % > %{标志(。external_gene_name美元)$热图}
# #旋度误差:curl_fetch_memory (url,处理=处理):超时了:[chat.lionproject.net]操作超时10001毫秒后的0字节收到# #请求失败(错误)。在1.1秒重试…
# #旋度误差:curl_fetch_memory (url,处理=处理):OpenSSL SSL_connect: SSL_ERROR_SYSCALL连接chat.lionproject.net: 443 # #请求失败(错误)。在1.1秒重试…
# #不能调用API标志,请稍后再试。
# #空
# #[信息]分类错误(11)
# #[信息]*假主要固体肿瘤:7
# #[信息]*假正常:4
预测反应的柱状图
ROC曲线
# #设置级别:控制=主要固体肿瘤,例=固体组织正常
< # #设置方向:控制情况