2019-10-28-公開
機械学習における多重共線性(マルチコ)について調べた際、参考にさせていただいた記事をメモしておきます。
ただのメモですので、より詳細な説明等はリンク先の記事を御覧ください。
機械学習における多重共線性
心理統計学の分野では、重回帰分析をよく使うこともあり、多重共線性の問題はしっかりと教えられた印象があります。
しかし機械学習では多重共線性の話を目にしません。
その理由ですが、
- 予測精度にあまり影響しない
- 正則化や特徴選択によって回帰係数が安定する
ため、そこまで気にしなくてよいみたいです。
気になる変数や新しく作った特徴量をとりあえずモデルに入れて良い、ということであればとても楽でいいですね。
学習効率の悪化やパラメタが増えることによる過学習、といった問題もあるかもですが。
多重共線性のメカニズム
また、多重共線性のメカニズムについては、多重共線性があると偏回帰係数の標準誤差が大きくなり、偏回帰係数の推定量が不安定になる、といった説明を授業や書籍等で目にしてきたように思います。
この多重共線性のメカニズムの話はちょっと苦手なのですが、以下のように他の説明もあるようです。
行列計算からの説明
偏回帰係数を求めるための行列計算において、変数間の相関があるとXが一次独立ではなくなり、逆行列が計算できず、回帰係数も算出できない、と。分かりやすい。
連立方程式のイメージからの説明
"多重共線性とは、説明変数(ここでは身長と体重と胸囲)の中に、相関係数が高い組み合わせがあることをいい、もし腹囲と胸囲の相関係数が極めて高かったら、説明変数として両方を使う必要がなく、連立方程式を解くのに式が足りないというような事態になってしまうのです。"
というのもイメージしやすいです。
上の行列計算からの説明をイメージしやすくしたような感じでしょうか。
以上、面倒な印象が拭い去れない多重共線性(マルチコ)についてのメモでした。