Logistic回帰に関するメモ

Logistic回帰についてまとめます.

EPV≧10 (a)

ロジスティック回帰で投入できる変数の数はイベントの数の1/10までである,という経験則がある. 世の中の全てがそれですめばよいのだが,そうはいかない. よくまとまっているのは,こちら.

en.wikipedia.org

しかし結局どうやって変数の数を決めればよいのかは分からない. 上記のリンク先にある論文についてまとめてみようと思う.

『感染の法則』

著者の一人称が僕なのが独特. 文章はとても読みやすい. フラミンガム研究が出てくる. フラミンガム研究のデータを使って肥満が伝染するのか調べたのだ.

「ブラボー! ニック・クリスタキスとジェイムズ・ファウラーの想像力と勇気に脱帽だ」

ゲルマンも出てくる. ジョン・スノウとナイチンゲールも出てくるので疫学の入門書にもなりそう. 史上初の感染爆発モデルを作ったのはベルヌーイだそうだ. 天然痘感染のリスクと人痘接種によるリスクを比較するために作ったそうである. よい本でした.

ログオッズあるいはロジット

変換\rho:p\to 1-pはinvolutionであり,\rho ^2(p) = pである. \rho(p)のオッズは,


\begin{aligned}
\frac{\rho(p)}{\rho(1-p)} = \frac{1-p}{p}
\end{aligned}

となる. それゆえロジットを{\rm logit}(p) = \log(p/(1-p))により定めると,\rho(p)のロジットは,


\begin{aligned}
{\rm logit}\circ \rho(p)= \log\left(\frac{1-p}{p}\right)=-\log\left(\frac{p}{1-p}\right)=-{\rm logit}(p)
\end{aligned}

となる. さてpの関数f(p)区間[0,1]から{\rm R}への写像であるとしよう. 対称性からf(p)は,関数等式f\circ\rho(p)=-f(p)を満たしてほしい. そのようなf(p)としては,logitが存在するわけだが,それ以外に存在するだろうか. logitを参考にすると,gを1変数関数として,


\begin{aligned}
\log\left(\frac{g(p)}{g(1-p)}\right)
\end{aligned}

なる形の関数がこの等式を満たす. f(p){\rm R}への全単射であってほしいから,


\begin{aligned}
\lim_{p\to 1}f(p)=\infty
\end{aligned}

も満たしてほしい.そのためにはg(0)=0であれば十分である. またf(p)は単調であることも要請する.区間(0,1)上で


\begin{aligned}
f'(p)=\frac{g'(p)}{g(p)} + \frac{g'(1-p)}{g(1-p)} > 0
\end{aligned}

である. g(p)=pg(p)=p+p ^2ならばこれらの条件を満たす. ちなみに{\rm logit}(p)の1/2でのテーラー展開は以下のようになる.


\begin{aligned}
4 \left(p-\frac{1}{2}\right)+
\frac{16}{3} \left(p-\frac{1}{2}\right)^3+
\frac{64}{5} \left(p-\frac{1}{2}\right)^5+\cdots\\
= \sum_{k=1}^\infty \frac{2^{2k}}{2k+1} \left(p-\frac{1}{2}\right)^{2k+1}
\end{aligned}

見ての通り1/2に関して交代で,p=1のとき,


\begin{aligned}
\sum_{k=1}^\infty \frac{2^{2k}}{2k+1} \left(\frac{1}{2}\right)^{2k+1}
=
\sum_{k=1}^\infty \frac{1}{2k+1} \left(\frac{1}{2}\right)
=\infty
\end{aligned}

である.