注:关于变量选择,仍然需要区分变量到底是用来做模型预测的还是做模型估计的,模型预测与模型估计的区别决定了变量选择的标准。
误解1:“模型中的变量数量应该减少,直到变量平均事件发生数为10。”
注:当结果变量是二元的时候,事件数是结果变量=1的数量和结果变量=0的数量两者中较小的那个。EPV(events per variable,变量平均事件发生数)为事件数除以在建立模型时考虑的控制变量数;严格地说,它是事件数除以模型中自由度。
误解2:“只有那些在单变量回归模型中具有显著性的变量才应该包含在多变量回归模型中。”
从模型中剔除一个变量意味着将其回归系数设置为零——即使根据数据,它最有可能得到的系数值并不如此。这样,一个人就偏离了最大似然解(它有理论基础),报告了一个无意中处于次优状态的模型。剔除模型中的弱影响变量也可能是危险的,因为在实证研究中,错误地遗漏掉一个重要的混杂因素可能导致估计偏倚。这是因为回归系数通常取决于模型中的其他变量,因此,如果模型中遗漏了其他变量,它们的系数估计值就会发生改变。这个“估计中的变化”可以是正的,也可以是负的,也就是说,远离或接近于零。因此,可能在消除一个潜在的混杂因素后,另一个调整变量的系数接近于零,从“显著”变为“不显著”,从而导致在后面的步骤中剔除掉该变量。然而,尽管它通常对估计偏误有不利影响,从模型中消除影响效应非常弱的控制变量有时可以减少剩余回归系数的方差(不确定性)。Dunkler等人提出了“增强后向剔除法(augmented backward elimination)”,这是一种选择算法,如果剔除他们会导致对另一个变量的估计发生变化,则该选择算法会在回归模型中留下那些不显著的变量。因此,他们的建议扩展了纯粹基于“显著性”的变量顺序剔除法(“向后剔除”)
误解4:“报告的p值量化了被错误选择的变量的第一类错误。“
关键点
Heinze G, Dunkler D. Five myths about variable selection. Transpl Int. 2017 Jan;30(1):6-10. doi: 10.1111/tri.12895. PMID: 27896874.
关于这些实证,可以到社群交流,互帮互助互相交流的文化,真好。