Logistic回帰に関するメモ

Logistic回帰についてまとめます.

オーバーフィットとはなんぞや

回帰モデルに投入する変数が多いとオーバーフィットする,という. ではオーバーフィット(過剰適合)とは何を指すのか?

よく例に出されるのはn個の点とそれを通るn-1次式である. 全ての点を正確に通るが補外はおろか補間もできそうにない. f:id:sintheta:20210728160046p:plain

n <- 10
x <- 1:n
y <- rnorm(n)
df <- tibble(y, x)
model <- lm(y ~  poly(x,n-1), df)
newx <- seq(1,n,length.out = 10*n)
predy <- predict(model, newdata = tibble(x=newx))
plot(newx, predy, type = "l")
points(x, y, col="red")

これと説明変数が多いときの過剰適合は同じだろうか?

以下の論文は他の何かを検索していたときに,Q&Aサイトで紹介されていた. 引用数はPubMedだと396. この人はHarrellの弟子なのでしょうか.

Babyak MA. What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models. Psychosom Med. 2004 May-Jun;66(3):411-21. doi: 10.1097/01.psy.0000127692.23278.a9. PMID: 15184705.

アブストラクトから.

オーバーフィッティングの概念は,利用可能なデータから多くのことを求めるという観点から提示されます。あるデータセットに一定の数の観測値がある場合、許容できる不確実性の度合いで導き出すことのできるモデルの複雑さには上限があります。複雑さは、データ分析のどの段階においても、同じデータセットに対して費やされる自由度の数(相互作用や非線形項などの複雑な項を含む予測変数の数)の関数として生じます。

イントロダクションから.こういうときの optimisticは楽観的という訳でいいのだろうか.

それは、回帰型モデルにおいて、サンプルの特異な特性を利用する問題(オーバーフィットと呼ばれる)です。オーバーフィッティングは、過度に楽観的なモデル結果をもたらします。オーバーフィッティングされたモデルに現れる「所見」は、実際には母集団に存在しないため、再現されない。

本文4ページから.

利用可能なサンプルサイズに対して自由度が高すぎる回帰モデルでは,繰り返しのサンプルで重みが大きく変動する傾向があります.サンプル間の変動が大きいと、あるサンプルで回帰重みの一部が非常に大きくなる可能性が高くなり、過剰に楽観的な適合になってしまいます。

そうですね.

少し違った見方をすると,統計学者は,10個の予測変数と20個のオブザベーションを持つ回帰を推定することは,ある意味で,それぞれがN = 2の標本サイズを持つ10個の別々の1-予測変数の回帰を推定することと同等であるとよく指摘する.回帰係数の不安定さの問題は、どの回帰重みに注意を払うかを先験的に選択するのではなく、それらのより大きな回帰重みに注目してしまう(さらに悪いことに、最終的なモデルのために、より大きな、またはより有意な重みを選んでしまう)我々の自然な傾向によってさらに悪化します。

なるほど. 自由度が高いほどサンプルの変動によって大きな値をもつ回帰係数が生じてしまう. そして回帰係数の大きさ・重要さにだけ注目するので,サンプルの変動の影響で大きな回帰係数をもってしまった変数を選んでしまう,ということか.