多重共線性とは? 〜 概要と対応方法 〜

多重共線性とは?

重回帰分析を行っている際、説明変数を増やすほど決定係数が高くなりやすいため、ついついよりたくさんの説明変数を入れてしまいがちです。しかし、その際に気をつけなければならないことがあります。それが多重共線性です。

多重共線性とは、説明変数間で相関係数が高いときに、それが原因で発生する現象です。(英語で multicollinearity と言われるため、略して「マルチコ」とも呼ばれます)

どうしてダメなのか?

多重共線性によって引き起こされる症状は、

  1. 分析結果における係数の標準誤差が大きくなる
  2. t値が小さくなる
  3. 決定係数が大きな値となる
  4. 回帰係数の符号が本来なるべきものとは逆の符号となる

などがあります。いずれも、正しく推計できなくなるような悪影響をもたらします。

多重共線性の対応方法

それでは、このような多重共線性に直面してしまった場合、どのように対応するのが良いのでしょうか。最も一般的な解消法は、「相関関係が高いと考えられる説明変数を外すこと」です。

たとえば、【コンビニの月間の売上】を目的変数とした分析を行うケースを考えてみます。売上に関係しそうな要素の中に「雨が降った日数」と「月間の降水量」を入れました。この状態で分析をすると、おそらく多重共線性が発生します。なぜならば、「雨が降った日数」が多ければ多いほど「月間の降水量」も増えるので、この2つの要素は相関関係が高いからです。

このような場合は、どちらか一方を外して再度分析することで、多重共線性を解消することができます。

多重共線性

この例は、相関関係が高そうな説明変数が2つあるケースを考えましたが、これが3つ以上になった場合はどのように対処するのが望ましいでしょうか?

この場合も、基本的には1つに絞って分析することが一般的です。しかし、説明変数の数をあまり減らしたくない場合(もともと説明変数の候補が非常に少ない場合など)は、ひとつずつ除外した分析を繰り返し、解消される組み合わせを探すという進め方もできます。相関関係が高そうな説明変数が3つ以上ある場合、1つに絞らなくても多重共線性が解消される場合もあるからです。

また、相関している説明変数を除外する場合、どの変数を外すべきか悩むこともあります。その場合は、主観的な判断で残しておきたい方の変数を残して問題ありません。どちらを外しても問題ない場合は、それぞれ片方ずつ外して分析し、その結果を比較してt値が高い方を残すという判断が良いと思います。

この記事を書いた人