Logistic回帰に関するメモ

Logistic回帰についてまとめます.

EPV≧10 (b)

ロジスティック回帰においてEPV≧10の起源は以下の論文のようである.まだ25年前だから新しいと感じる. ネット上にPDFが転がっているが真っ当なものかどうかはあやしい.

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol. 1996 Dec;49(12):1373-9. doi: 10.1016/s0895-4356(96)00236-3. PMID: 8970487.

現時点ではGoogle scholarで引用6330,ELSEVIERのCiting articlesが4124と凄まじい. (しかし差が2000件以上あるのはどういうわけだろうか?) 使用データはネットから入手できなさそうである.

この研究はシミュレーション研究である. EPVとモデル性能の関係を調べるために, ある実データからEPVを変えたデータを作ってモデルを作成しその性能を評価する.

サンプルサイズ673,イベント数252の実データを元データに使う.予測変数は7つで,EPV=36である. 元データから作成したモデルを参照モデルとする.

元データからEPV=2,5,10,15,20,25となるデータを作成する. サンプルサイズはオリジナルと同じ673とする. 例えばEPV=2の場合は,2*7=14の生存サンプルを参照モデルから計算した生存確率をもとに抽出する. このときサンプルが実際は死亡であっても生存として扱うようだ. また同じサンプルを繰り返し選んでもよい. 死亡の659=673-14サンプルの選び方も同様である. 各EPVの値に対してそれぞれ500セットのデータを作成し,それぞれのデータに対してモデルを作成する. ただし収束しなかったモデルは性能評価に利用しない. このようにしてデータを作成すると,データの真のモデルの回帰係数が参照モデルと同じ値となる. (論文中に証明されている.) このことを使ってEPVの値に対するモデルの性能を評価する.

読んだ感想としては, 一つの特定のデータを使っているだけので, これから何かを主張するには根拠が弱い気がする. またモデルが収束しなかった場合にそのモデルの指標を使わないのもまずい気がする. 著者もlimitationsで,

  • 単一の「実在」データ
  • 調査した変数はすべて離散的で、
  • 有病率や転帰との関連性(すべて正)も中程度の範囲しかなかった。
  • 連続尺度や変数間の相互作用は含まれていなかった。
  • その他(略)

と述べている. アブストラクトの結論では

EPV値が10以上の場合、大きな問題は発生しませんでした。しかし,EPV値が10未満の場合は(略)。ロジスティックモデルの有効性には,他の要因(イベントの総数やサンプルサイズなど)も影響すると思われますが,今回の結果は,EPVが低いと大きな問題が生じる可能性があることを示しています。

と慎重に述べているので,EPV<10はまずそうですよ,というのが結論となりそうだ. EPV≧10なら大丈夫とは言っていない.

EPV≧10は経験則として利用しやすいのが広まった理由だろうか. この論文が発表されるまでモデルに投入する変数の数に制限がなかったのなら大きな進歩であったろう. とはいえ根拠は薄弱である. よく使われるようになった現在,意味は失われ形式だけが残るのである.