列线图工具_Nomogram
定义
列线图是一种相对传统的分析方法,用于展示自变量和因变量的线性关系,及其特征的重要程度。
现在用 SHAP,和机器学习库中的 Feature importance 工具可以实现类似甚至更好效果。不过很多传统的研究领域比较认这种方法。
列线图工具建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系。
原理
先使用多因素回归(逻辑回归,Cox 回归)得出的结果,然后根据回归系数算出 Nomogram 及画图。
处理流程
主要操作流程如下:
- 数据处理:
- 去掉共线性特征(VIF 判断多重共线性)
- 去掉单因素分析中不显著的特征
- 去掉加了和不加对模型没什么影响的特征(LASSO 回归)
- 做多因素回归
- 用回归结果做 Nomogram,将结果图形化
怎么看图
Points:第一行是标尺
前几行是特征重要性
Total Points: 所有指标加在一起的得分
Risk:对应风险值
工具
R 语言实现方法,详见:Nomogram图不会画?看了这篇,小白也能轻松看懂搞定
Python 没有 Nomogram 相关工具包,需要自己实现,详见:
使用Python,matplotlib绘制Nomogram列线图
注意事项
- 如果是数值型变量,乘了系数后影响可能比 0/1 项大很多
- 可将数据值数据通过分界点转成 0/1,分界点的选择方法:可用单变量做回归后代入模型,找到 AUC 最佳点(Youden index);或者仅用单变量做一个二分类树,让模型自动选分界点。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.