数据分析：基于glmnet的Cox

2024-08-07 01:43:46

glmnet提供了LASSO或ridge regression的Cox-PH分析模式，用于研究预测变量与生存时间的关系。

加载数据

library(glmnet)library(survival)data(CoxExample)phen <- y rownames(phen) <- paste0("S", c(1:nrow(phen)))head(phen)  # 行样本名字，列是生存时间和状态

time statusS1 1.76877757      1S2 0.54528404      1S3 0.04485918      0S4 0.85032298      0S5 0.61488426      1S6 0.29860939      0

prof <- xrownames(prof) <- rownames(phen)colnames(prof) <- paste0("Feature", c(1:ncol(prof)))head(prof)

Feature1   Feature2    Feature3   Feature4    Feature5   Feature6    Feature7   Feature8    Feature9  Feature10S1 -0.8767670 -0.6135224 -0.56757380  0.6621599  1.82218019 -1.0906678 -0.33186564  3.6754612  0.24580798  1.1382203S2 -0.7463894 -1.7519457  0.28545898  1.1392105  0.80178007  1.8501985  0.30663005 -1.3729036 -0.03249051  0.7477848S3  1.3759148 -0.2641132  0.88727408  0.3841870  0.05751801 -1.0917341  0.82119791  2.2960618 -0.44769567 -0.3046003S4  0.2375820  0.7859162 -0.89670281 -0.8339338 -0.58237643  0.1874136 -0.58595131  0.4762090 -0.60580025 -1.2703322S5  0.1086275  0.4665686 -0.57637261  1.7041314  0.32750715 -0.1211972  0.88537209  0.4505604  0.58878157  0.5504976S6  1.2027213 -0.4187073 -0.05735193  0.5948491  0.44328682 -0.1191545  0.08097645  0.1645867  0.35648515  0.7186709

训练参数

设置alpha=0是ridge regression； alpha=1是LASSO；设置lambda，nlambda = 100或者lambda = 10^seq(3, -2, by = -.1)；family选择不同数据分布情况，cox是cox-ph（其他选择"gaussian", "binomial", "poisson", "multinomial", "mgaussian"符合不同的数据）。

set.seed(123)cv.fit <- cv.glmnet(prof, phen,                    family = "cox",                    type.measure = "C",                    nfolds = 10,                   alpha = 0,                   nlambda = 100)plot(cv.fit)

y轴坐标C-index原名是Harrell’concordance index，是用于评估模型的预测精度，常用于临床研究。x轴是lambda的log化结果，我们常选择最小的lambda值作为建模参数，也即是途中最大的C-index值。

C-index的计算方法是把所研究的资料中的所有研究对象随机地两两组成对子，以生存分析为例,两个病人如果生存时间较长的一位其预测生存时间长于另一位,或预测的生存概率高的一位的生存时间长于另一位,则称之为预测结果与实际结果相符，称之为一致。

计算C-index=K/M。

从上述计算方法可以看出C-index在0.5-1之间（任意配对随机情况下一致与不一致刚好是0.5的概率）。0.5为完全不一致,说明该模型没有预测作用,1为完全一致,说明该模型预测结果与实际完全一致。一般情况下C-index在0.50-0.70为准确度较低:在0.71-0.90之间为准确度中等;而高于0.90则为高准确度，跟相关系数有点类似。

构建模型

选择cv.fit最小lambda值

fit <- glmnet(prof, phen,               family = "cox",               alpha = 0,              lambda = cv.fit$lambda.min)summary(fit)

Length Class     Mode   a0         0     -none-    NULL   beta      30     dgCMatrix S4     df         1     -none-    numericdim        2     -none-    numericlambda     1     -none-    numericdev.ratio  1     -none-    numericnulldev    1     -none-    numericnpasses    1     -none-    numericjerr       1     -none-    numericoffset     1     -none-    logicalcall       6     -none-    call   nobs       1     -none-    numeric

每个features的coefficient

coef(fit)

30 x 1 sparse Matrix of class "dgCMatrix"                     s0Feature1   0.5114403878Feature2  -0.1954830557Feature3  -0.2405974927Feature4   0.1957977902Feature5  -0.2074132864Feature6  -0.5056236002Feature7   0.3552934341Feature8   0.1057532384Feature9   0.4648827155Feature10  0.1375101610Feature11 -0.0194344395Feature12  0.0047078816Feature13  0.0410461245Feature14  0.0021407848Feature15 -0.0009016771Feature16  0.0001994629Feature17 -0.0372298071Feature18 -0.0100297637Feature19  0.0080887542Feature20 -0.0001315014Feature21 -0.0218432109Feature22 -0.0238062971Feature23 -0.0054209272Feature24 -0.0067311829Feature25 -0.0488808852Feature26 -0.0040028665Feature27  0.0286530927Feature28 -0.0136744813Feature29  0.0086380442Feature30 -0.0336064180

可根据系数选择重要的features进行后续Cox-PH分析。

计算样本C-index

最佳lambda参数下构建模型的C-index值，反应模型的预测精度，越高越好

pred <- predict(fit, newx = prof)apply(pred, 2, Cindex, y=phen)

s0 0.7344005

参考

参考文章如引起任何侵权问题，可以与我联系，谢谢。

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现

原文链接:http://tecdat.cn/?p=3795 Glmnet是一个通过惩罚最大似然关系拟合广义线性模型的软件包.正则化路径是针对正则化参数λ的值网格处的lasso或Elastic Net( ...
R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例

原文链接:http://tecdat.cn/?p=21444 逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选.概率预测.分类等,例如医学研究中高通里测序技术得到的数据给高维变量选择问 ...
股票市场交易中的强化学习

在深度学习的世界中,无论您的模型多么先进,没有充分对业务充分理解和干净的数据都不会走得太远.这个事实在金融领域尤其如此,在我们的数据集中,只存在股票的开盘价,最高价,最低价,调整后的收盘价和交易量的5 ...
Lasso算法理论介绍

先看一波过拟合: 图中,红色的线存在明显的过拟合,绿色的线才是合理的拟合曲线,为了避免过拟合,我们可以引入正则化. 下面可以利用正则化来解决曲线拟合过程中的过拟合发生,存在均方根误差也叫标准误差,即为 ...
【影像组学预测模型-Radiomics】实操教学

影像组学(Radiomics)是一个新兴的概念,2012 年由荷兰学者 Philippe Lambin 首次提出,其定义是借助计算机软件,从医学影像图像中挖掘海量的定量影像特征,使用统计学和/或机器学 ...
Feature Selection in R · mlampros

Feature Selection in R 14 Feb 2016 This blog post is about feature selection in R, but first a few w ...
R语言解决Lasso问题

Lasso回归复杂度调整的程度由参数lambda来控制,lambda越大模型复杂度的惩罚力度越大,从而获得一个较少变量的模型.Lasso回归和bridge回归都是Elastic Net广义线性模型的特 ...
基于Python获取股票分析，数据分析实战

基于Python获取股票分析，数据分析实战
20年聚焦质谱数据分析，首创基于质谱的新抗原从头测序流程，服务已落地中国公司

从基因测序到蛋白测序,从密码到产物,是近几十年生命科学破解书写生命奥秘的工作核心.在攻克以癌症为首的各类疾病的终极目标之下,高通量的疾病标志物筛选与个性化精准医疗是生物药研发与应用的一体两面,其中的核 ...
【学用系列】基于数据分析的有效学习，科大讯飞“智学网”使用评测

随着"十三五"国家中长期教育规划对于智慧学习的政策落地,各类基于数据分析的教学产品在教育市场上百花齐放.但乱花渐欲迷人眼,如何选择到真正有用的智慧学习工具,胖胖老师在岁末启动了学习 ...
飚众科技黄宋华：基于大数据分析的精准教学深入影响个性化教育

2017年08月16日,由数据猿.HCR慧辰资讯双方联合主办的主题为"大数据助力个性化教育"活动在酒仙桥东路电子城科技园隆重举行.飚众科技的黄宋华先生特意为大家分享了在实际运营和学 ...
瀚思获1亿元B轮融资，基于数据分析技术做企业智能安全大脑

今年7月25日,瀚思宣布完成B轮融资,金额为1亿元人民币.在之前的媒体沟通会上,瀚思创始人兼CEO高瀚昭对当前安全市场的发展态势,最新发布的企业安全智能平台--HanSight Enterprise ...
2020美研计算机留学择校定位看这篇文章就够了，基于2019秋季美研申请计算机4000+案例数据分析。

今天发布的三篇文章是相互关联的,都是关于美研计算机申请的,后两篇为讲座. 我们在2019秋季入学,计算机专业4000多申请数据的基础上,分析出如下选校定位信息. 我们按照大学前三年GPA(满绩为4.0 ...
ngs组学数据分析上下游分析都可以基于R语言吗？

前些日子我们<生信技能树>的工程师做了一个ATAC-seq的项目,给客户汇报结果的时候,照例提供了全套代码.不过这次是从fq文件开始,所以大量代码都是在Linux平台的命令行而已,虽然给了 ...
基于数据分析的王象礼治疗慢性前列腺炎证治规律研究

过现代数理统计方法对王象礼教授治疗慢性前列腺炎的证治规律进行初步评定,进而分析其"症-证-法-方-药"体系的潜在规律性,进一步探讨老师诊疗男科疾病的学术思想与临床经验,充分的传承和 ...
基于出租车GPS轨迹数据的研究：出租车行程的数据分析

原文链接:http://tecdat.cn/?p=7553 数据 Reddit用户imjasonh和fhoffa解析了原始数据 ,模式如下所示: 每次骑行都有非常具体的上/下车位置以及开始/结束时间的 ...

数据分析：基于glmnet的Cox

加载数据

训练参数

构建模型

计算样本C-index

参考

相关推荐