重回帰分析で陥りがちな10の失敗パターン

重回帰分析で陥りがちな10の失敗パターン

重回帰分析を図解でざっくりと理解しよう!」では、重回帰分析の基本的な仕組みを説明しました。しかし、概念的に全体像を把握していても、実際に進めてみると様々な原因で良い分析結果が出ない場面に遭遇します。今回は、そのときに起こりがちな失敗を10個のパターンとして捉え、直感的に「何が起きているのか」を把握し、より早く正しく「どう対処すればよいのか」を判断できるような説明をします。

組み合わせの問題

要素が少なすぎる

代表的な失敗パターンは、モデルに取り入れている要素の数が少なすぎることです。これは言い換えると、本来は成果を説明するために必要な要素が十分に組み込まれていない、ということを意味します。この場合は、どのような要素が取り込まれていないのかを改めて考える必要があります。ただし、取り入れるべき要素が実は「データ」として表現することが難しい(もしくは不可能)ということもあり、必ずしも分析によって全てを明らかにできるとは限りません。

重回帰分析で陥りがちな10の失敗パターン

要素が多すぎる

先ほどとは逆に、多くの要素を入れすぎても良い分析結果は得られません。

後述する要素同士の「強い相関」が起きていないのであれば、このような状態は「間違い」ではありませんが、実用的には解釈が難しく、その後の活用がしづらくなります。また、過剰な当てはまりを起こしている可能性はあります。

では要素の数は何個くらいが適正なのでしょうか? これはケースバイケースであり、学問的にも明確な答えはありません。一つの目安としてはアカデミックの領域においては要素の数は「7つ程度」に収まっている研究が多く見られます。

重回帰分析で陥りがちな10の失敗パターン

強い相関がある(多重共線性)

要素同士に強い相関がある場合、分析結果は計算上は出せますが、極めて信用できないものになります。この場合、相関の強い変数のうちどれか一つに絞り込んでモデルに取り入れ、その他は外す必要があります。

重回帰分析で陥りがちな10の失敗パターン

成果が絞れていない

分析をするにあたって、何を成果として捉えるべきかを絞り切れていないこともあります。

学術的な研究ではあまりこういった状況は見られませんが、ビジネスの現場においては、「売上」「来場者数」「来場組数」「料理の注文数」など、様々な成果の設定の仕方が考えられ、それぞれから違った示唆を得られる可能性もあります。この場合、ビジネスのゴールに影響を及ぼしやすい結果にはじめから絞る、複数の分析を行って結果を相互に比較する、などの方法を取ることになります。

重回帰分析で陥りがちな10の失敗パターン

構造的な問題

見せかけの相関

本当は関係がないのに、関係があるように見える場合があります。例えば、「ビールの売上が増えるとエアコンの売上も増える」という相関関係があったとします。この場合、「ビールを買う人はエアコンも買う」ではなく、「気温が上がるとビールを買う人が増える」「気温が上がるとエアコンを買う人が増える」という2つの異なる関係が重なっていると考えるほうが妥当な解釈となりそうです。

分析によって見つかった関係が本当に意味があるのかは、数字だけでは分かりません。そこから分析者が解釈をする必要があります。

重回帰分析で陥りがちな10の失敗パターン

複数のつながりの構造が混ざっている

一つの分析の中に複数のつながりが混ざっている状態になってしまうと、分析の結果は精度が低く、解釈もしづらいものになってしまいます。

しかし現実には、このような多層的な関係になっていることは少なくありません。そのため、現実的には、成果に影響の大きい1つか2つの重要な要素を特定することを目指す、短いサイクルの仮説検証を繰り返してみる、などの対応を取ることが多くなります。

重回帰分析で陥りがちな10の失敗パターン

時間差がありすぎる

重回帰分析に限らず、統計分析において「長い時間をかけて影響があること」というのは非常に分析しづらいものです。例えば「テレビCMによってブランドの認知度が上がること」と「売上」の関係などが挙げられます。実務的には、重回帰分析によって「関係がない」という結果が出た場合であっても、時間差が大きすぎることによって「一見すると関係がないような結果になっている」可能性を考慮する必要があります。

重回帰分析で陥りがちな10の失敗パターン

特殊な要因が影響している

「偶然」起きている極めて例外的な事柄によって成果が局所的に大きな影響を受けている場合があります。この場合は分析対象のデータの中で「異常値」となっている部分を取り出すか、もしくは例外的な事柄そのものもデータで表現し分析対象として取り入れる、という対応を取ります。

重回帰分析で陥りがちな10の失敗パターン

データの問題

成果をデータにできない

当たり前ですが、数字で表現できないものは分析対象に出来ません。実務的には、「3年かけて1件が成約する商談の受注件数」など、数字として取り出せる頻度が極めて少ない場合などが考えられます。その場合、成果そのものではないが代替できるデータを使うことで対応します。

重回帰分析で陥りがちな10の失敗パターン

データの精度が低い

収集したデータの精度が低いために結果が見て取れない、ということも頻繁に起こります。ビジネスの現場においては、「やらないよりは良い」という判断をすることも悪くはありませんし、その「まずは試しにやってみた」結果によって次の分析の施策が見えてくることも多々あります。

ただし、数字は下手をすると「試しにやった」という前提が置き去りにされ、精度の悪い結果が独り歩きしてしまうこともあるので、分析の結果の取り扱いには十分な注意が必要です。

重回帰分析で陥りがちな10の失敗パターン

分析は「仮説」と「解釈」次第

以上、10のパターンについてご紹介をしましたが、その中で「解釈による」「場合によっては」などの、ある種、歯切れの悪い表現が何度も登場します。

分析手法そのものは論理的に、数学的な根拠を持って確立しているものですが、それをどのように用いるのか、結果をどのように現実に当てはめるか、など、分析者に委ねられる部分は非常に多くあります。質の良い分析を行うためには、分析者の洞察力に根ざした質の良い「仮説」と、得られた結果に対する多面的な「解釈」のどちらもが必要になります。

この記事を書いた人