マーケターのための統計学

相関と因果の違い、説明できますか?

統計学におけるアカデミックと実務の違い

統計学におけるアカデミックと実務の違い

統計学についてアカデミックでも実務でも共通して言えることとしては、データという(たぶん)客観的な指標から自分たちの立てた「仮説」や「考え」が正しいかどうかを立証する「根拠」を得るために有用な指標であるということです。つまり、分からないことを、「統計分析」を介してデータを用い「見える」ようになるということは同じです。

では、アカデミックと実務で何が決定的に異なるかと申しますと、得られた結果に対する「解釈」の幅にあると思われます。つまり、得られた結果についての解釈の仕方と、「計量経済学」的な厳密さについてです。昨今の「ビッグデータ」ブームにより、統計分析に対する興味や実務に取り入れる動きは活発になってきております。そのため、2つの異なるデータの間の関係性が「見えて」きておりますが、その関係性については慎重にならなければなりません。

つまり、専門用語で申しますと、「相関」と「因果」との間の違いについての考え方です。実際この問題については、実務レベルにおいても慎重になっていると思われますが、2つのデータとの間に統計的に有意な「相関」が得られたとしても、あくまでそれは「相関」であり、「因果」があるとは限らないからです。例えば、とある企業の営業職のデータを使い、被説明変数(左辺に持ってくる説明したいデータ)にその人のパフォーマンス(契約件数や売上高等)を持ってきて、説明変数にその人の給料を入れたとします。このとき、パフォーマンスと給料の間に正の「相関」が出たとすると、この企業に対しては、「営業職のパフォーマンスを○○件(or 円)上げるためには、給料を○○円あげるべきです」と果たして言及してもよいのでしょうか?多くの人が疑問に思ったとおり、「給料↑⇒パフォーマンス↑」というより、むしろ逆の因果(「パフォーマンス↑⇒給料↑」)のほうがもっともらしいと思われます。

因果関係を見つけるために…

因果関係を見つけるためには、実は、解釈が重要になります。すなわち、得られた結果を「納得」できるように解釈することが、統計分析をする上で肝になってきます。例えば、研究者は自分たちが寄って立つ「理論」にもとづいて解釈を行い、実務家は自分たちの経験談や共有知をもとに結果の解釈を行います。解釈のやり方に違いが発生するのです。

同時に、一番見てみたい関係以外にも被説明変数と関係があるデータを入れることで、自分たちが説明したい関係性をより正しく導き出すことができます。先の例を用いますと、営業のパフォーマンスは給料だけでなく、就業年数やその人の学歴、あるいは部活動経験の有無等によっても説明できるかもしれません。

他の考えうるデータを入れることにより、営業のパフォーマンスと給料との間の本当の「相関」を見出すことができます。このデータの選び方についても、アカデミックと実務においては違いがあると思われます。アカデミック(少なくとも経済学)においては、経済理論(モデル)に基づいて変数選択をする一方、実務においては経験則を中心に変数選択が行われているのが一般的です。

おわりに

今回はアカデミックと実務の共通点と相違点についての私見を述べてまいりました。「因果性」に関する議論や、より細かい「計量経済学」の議論等、もっとお話したいことがありますが、これらの議論については、次回以降に回したいと思います。

※ もちろん、私個人の経験を通じたことなので、私の見解が経済学者の共通認識でもありませんし、実務家の共通認識でもないことにご留意ください。

実践で活かせる統計分析セミナーを開催中!

サイカでは、エクセルでできる、数式いらずの統計分析セミナーを定期的に開催しています。今年こそ、統計がわかるデジタルマーケターになりませんか?