サイコロを作ったので、振ってみた。

サイコロを作ったので、振ってみた。
このたび、サイカのオリジナルグッズを作成しました! 統計分析を扱っている会社らしく、サイコロ。サイカのサイコロだから、“才コロ”。振りたい…早く振ってみたい! ただ振っても面白くないので、ちょっと統計のお勉強をしながら振ってみました。

本当に1/6ずつ出るのか?

サイコロは目が出る確率は1/6ですよね…つまり6回振れば、サイカのロゴは一度は出てくるはずです。しかし、それって本当でしょうか? 実際はどこかの目に偏りがあるんじゃないか…。もし何回振っても “才” が出てこなかったら悲しすぎる。 …ということで、こんなにあるし、実際に振ってみました。
サイコロを作ったので、振ってみた。
サイコロの数は202個あります。ロゴマークが出てくるのは1/6の 約33個のはず。白と青を分けて考えて、約17個。
サイコロを作ったので、振ってみた。
これを地道に並べます。
サイコロを作ったので、振ってみた。
同じことを2回繰り返しました。そここから “平均からどれだけ離れているか” を表した標準偏差を算出し、信頼区間を求めます。信頼区間内に数値が収まっていれば、「このサイコロには偏りがない」 と言えます。

青の5は出やすい?

【1回目】

サイコロを作ったので、振ってみた。

【1回目:白】※ 都合により201個のサイコロで推計しています。

サイコロを作ったので、振ってみた。

【1回目:青】

サイコロを作ったので、振ってみた。
※ 赤部分は信頼区間から外れてしまっている箇所です。

【2回目】

サイコロを作ったので、振ってみた。

【2回目:白】

サイコロを作ったので、振ってみた。

【2回目:青】

サイコロを作ったので、振ってみた。
※ 赤部分は信頼区間から外れてしまっている箇所です。
結果を見てみると、概ね信頼区間に入っています。今回は2回だけなので正確なことは言えませんが、2回連続で信頼区間から外れた【青の5】は少しだけ出やすいのかもしれません。

この記事を書いた人

多重共線性とは? 〜 概要と対応方法 〜

多重共線性とは?

重回帰分析を行っている際、説明変数を増やすほど決定係数が高くなりやすいため、ついついよりたくさんの説明変数を入れてしまいがちです。しかし、その際に気をつけなければならないことがあります。それが多重共線性です。 多重共線性とは、説明変数間で相関係数が高いときに、それが原因で発生する現象です。(英語で multicollinearity と言われるため、略して「マルチコ」とも呼ばれます)

どうしてダメなのか?

多重共線性によって引き起こされる症状は、
  1. 分析結果における係数の標準誤差が大きくなる
  2. t値が小さくなる
  3. 決定係数が大きな値となる
  4. 回帰係数の符号が本来なるべきものとは逆の符号となる
などがあります。いずれも、正しく推計できなくなるような悪影響をもたらします。

多重共線性の対応方法

それでは、このような多重共線性に直面してしまった場合、どのように対応するのが良いのでしょうか。最も一般的な解消法は、「相関関係が高いと考えられる説明変数を外すこと」です。 たとえば、【コンビニの月間の売上】を目的変数とした分析を行うケースを考えてみます。売上に関係しそうな要素の中に「雨が降った日数」と「月間の降水量」を入れました。この状態で分析をすると、おそらく多重共線性が発生します。なぜならば、「雨が降った日数」が多ければ多いほど「月間の降水量」も増えるので、この2つの要素は相関関係が高いからです。 このような場合は、どちらか一方を外して再度分析することで、多重共線性を解消することができます。
多重共線性
この例は、相関関係が高そうな説明変数が2つあるケースを考えましたが、これが3つ以上になった場合はどのように対処するのが望ましいでしょうか? この場合も、基本的には1つに絞って分析することが一般的です。しかし、説明変数の数をあまり減らしたくない場合(もともと説明変数の候補が非常に少ない場合など)は、ひとつずつ除外した分析を繰り返し、解消される組み合わせを探すという進め方もできます。相関関係が高そうな説明変数が3つ以上ある場合、1つに絞らなくても多重共線性が解消される場合もあるからです。 また、相関している説明変数を除外する場合、どの変数を外すべきか悩むこともあります。その場合は、主観的な判断で残しておきたい方の変数を残して問題ありません。どちらを外しても問題ない場合は、それぞれ片方ずつ外して分析し、その結果を比較してt値が高い方を残すという判断が良いと思います。

この記事を書いた人

因果関係をどう読み解く?

因果関係をどう読み解く?

因果関係を正確にとらえるための方法

前回は【統計学におけるアカデミックと実務の違い】というタイトルで回帰分析を用いることで、世の中にあるYとXという2つの関係を、Y=a+bXという直線の関係で表し、aとbの値を計算することで客観的に見ることができることを説明しました。 ただ、回帰分析で出てくる結果はあくまで2つのデータの間に関係性がある(このことを相関関係といいます)ことを示しただけで、「Xが変化したからYが変化した」という因果関係まで議論するのは、少し言い過ぎになってしまいます。 例えば、ある人口減に悩んでいる市町村のデータをとってみたところ、Yの人口、Xに育児対策費を入れて分析するとbの値は正の値を取ることがわかったとします。このとき、「育児対策にお金をかければ人口が増える」という政策を売り込むことが果たして望ましいのでしょうか。この結果については、むしろ「昔は人口、特に子供が多かったから育児対策費が多かったんじゃないの?」という逆の因果関係のほうがもっともらしいかもしれません。また、他の要因によって影響が出ているかもしれないので、因果関係をみつけるのことは難しいのです。 「え、それじゃ統計分析をやる意味がないじゃん!」と思われる方もいるのではないでしょうか。そこで、今回はこの問題に関する解決方法、すなわち因果関係を正確にとらえるための方法についてお話したいと思います。

Yが変化しても変わらないデータを選択する

ひとつは、Xに入れるデータは、絶対にYが変化しても変わらないデータを選択するという方法です(専門用語で外生変数となるXを見つけることです)。例えばYにある飲食店の売上、Xに気温を入れることでその飲食店が気温でどの程度売上に影響を受けるかを分析したとします。 このとき、この飲食店の売上が変化しても、その地域の気温には影響を与えられないことは常識的に考えるとそうなると思われます。つまり、この場合においては、「気温は売上に影響を受けない」という意味で外生変数となるのです。

学術的な理論によってその関係を説明する

ふたつ目の方法は、これも統計学の話から少し逸れてしまうのですが、何らかの学術的な理論によってその関係を説明する根拠を持ってくることです。例えば、マクロ経済学で出てくる「ケインズ型消費関数」というものがあります。ケインズ型消費関数は一国経済全体の消費と可処分所得(GDPから税金や補助金を差し引きして求められる、家計が自由に使える所得額)との間に正の相関があることを示したものです。 つまりケインズ型消費関数は可処分所得が増えると、一国経済全体の消費が増えるという因果関係を表すものになります。実際データを取って回帰分析を行うと、概ねこの関係を見て取ることができます。しかし、もしケインズ型消費関数という理論モデルがないとすると、私達はこの関係から「ああ、消費が増えると自分たちの可処分所得が増えるんだな」と逆の解釈をすることも考えられます。逆の解釈をさせないために、理論という別の根拠を持ってくることで対応をします。

次回は少し統計学の技術的なお話を

今回も少し難しい話で、かつ統計学の話から逸れてしまいました。次回は少し統計学の技術的なお話、具体的には回帰分析の応用事例として、最小自乗法を使うとまずいケースとその対処法についてお話したいと思います。

この記事を書いた人

© 2012 XICA CO.,LTD.