データの読み方[入門編] 必ず気を付けたい3つのポイント

データで溢れる現代社会において、そのデータから価値ある示唆を導き出す能力がますます重要視されています。データから示唆を導くには、まずはデータを解釈する能力が前提として必要です。今回は、架空の企業にて開催された企画会議を舞台に、データを解釈するために知っておかなければならないことのうち、頻出の3つ紹介します。

舞台設定

舞台は架空の大手書店です。ネット書店の台頭に苦戦を強いられ続けており、その対策が求められています。そのひとつとして3年前に新設された店舗企画課では「いかに店舗売上を伸ばすか」という課題に取り組んでいます。

Aさんは新卒入社後、赴任店舗における集客企画でヒットを連発し、旗艦店舗での副店長を経験した後、店舗企画課に課長待遇で異動してきました。Aさんは自信の成功体験から「書店は楽しくなければならない」「お客様は本との出会いを求めて書店に足を運ぶ」「本を売るのではなく、本を選ぶという体験を売ればいい」という考えを持っています。

Bさんは新卒入社後に書店での実地販売研修を行った後、店舗企画課に配属されました。元々はマーケティングがやりたかったため、集客の企画ができる店舗企画課に配属されてモチベーションが高い状態、一日も早く自分の企画を通したいと思っています。

母集団と標本集団

■ストーリー

Bさんは、お客様がネット書店ではなく自社の店舗に来店する理由を調べて、そこから企画を作ろうと考えました。ある休日、Bさんはかつて実地販売研修を行った店でお客様を捕まえてアンケートを取ります。

一日中、お客様を捕まえてはアンケートに回答してもらうということを続けていたBさんは、翌週の企画会議で得意気にプレゼンを開始しました。

interviewee

顧客が求めているものを知るためにアンケートを実施しました。こちらが集計結果です。


【ネット書店や他社店舗ではなく、当書店を選んだ理由は?】

順位割合回答
1位40%内容を少し読んでから買うかどうか決めたかったから
2位20%在庫が豊富だから
3位10%ポイントカードを持っているから
4位10%近いから(帰り道にあるから)
5位20%その他

interviewee

うちに来店されるお客様はネットのレビューではなく、自分で少しでも読んだうえで買うかどうか決めたいと思っているようです。再来月の企画として『ちょい読み支援企画』を考えてきました。これは、旗艦店5階のイベントスペースに売れ筋書籍立ち読みコーナーを設置して・・・


interviewee

ちょっと待って、これ何人にアンケート取ったの?

■解説

Bさんは「お客様は、ネット書店ではなく自社の店舗に来店されたのか」を調べるためにアンケートを実施しました。

つまり、調査対象は来店された「すべてのお客様」です。ただ、来店されたお客様全員からアンケートを回収することは不可能ですので、「一部のお客様」にアンケートをとることで、「すべてのお客様」の傾向を探ることになります。重要なのは、アンケートに答えてくれた「一部のお客様」の意見が「すべてのお客様」の意見として見なしてもよいかどうかです。

ちなみに、統計学では、「すべてのお客様」を母集団、「アンケートに答えてくれた一部の客様」を標本集団と呼びます。ほぼすべてのアンケートは、標本集団への調査をもって、母集団の傾向を調査するために実施されます。

話を戻して、Bさんのアンケートにおいて必ず事前に検討していなければならなかったのは

  • 「一部のお客様」の数、あるいは全体に占める割合が十分か
  • アンケートに答えてくれたお客様を「一部のお客様」としてよいか

という2点です。

アンケートの集計結果を見ると、40%、20%、10%、10%、20%と不自然に切りのいい数字がならんでいます。Aさんは「母集団の傾向を正しく見るには、標本集団の大きさが重要」ということを知っていました。集計結果を見て「標本集団が小さすぎるのではないか」と感じて「これ何人にアンケート取ったの?」と質問したんですね。

対数で効いてるんじゃない?

■ストーリー

ある日、Bさんは以前実地販売研修をしていた店舗に、万引き対策用の顔認証機能付き防犯カメラが導入されたことを知りました。以前否決された『ちょい読み支援企画』をどうしてもやりたいBさんはある調査アイデアをひらめきます。そして、個人的に店長に相談し、自分で工夫し、調査まではできました。ただ、調査結果について少し腑に落ちないところがあり、Aさんに質問します。

interviewee

店舗勤務時に、うちのお客様の特徴として『特定の本を買いに来る』人が非常に少ないと感じていました。パッと入ってきて、特定のコーナーに直行して、目当ての本を買うのではなく、いろいろなコーナーを回っていくつかの本を買っていく感じです。そこで、万引き対策用の顔認証機能付き防犯カメラを使って、お客様の滞在時間(分、横軸)と購入金額(円、縦軸)を調べてみました。

グラフ1:滞在時間と購入金額の関係
グラフ1:滞在時間と購入金額の関係

interviewee

滞在時間が短いお客様は購入する本も新書のみだったり、単行本1冊のみだったりと、あまり購入金額が大きくなりません。購入金額には相関関係がありそうです。が、グラフを見ただけでは相関関係があるかどうか断定はできず、また、純粋に長くいれば長くいるほど単価が上がっていくというのは少し不自然ですし・・・


interviewee

対数で効いてるんじゃない?

■解説

Bさんは「店舗への滞在時間」と「購入金額」に正の相関がある、つまり、店舗にいる時間が長ければ長いほど、購入金額も大きくなるのではないか、という仮説のもとでデータを揃えました。

どうやら仮説通り相関関係はありそうなことがわかりましたが、一方で2時間店舗にいたからといって何冊も何冊も本を買うかというとそういうわけでもないなとも感じています。

つまり、「店舗への滞在時間」と「購入金額」は単純な線形関係ではなく、対数関係ではないかと感じているので、「対数で効いてるんじゃない?」と聞いたわけです。

線形関係とは、グラフ2のように、

  • 滞在時間が伸びれば、売上も伸びる
  • 滞在時間が伸びた時の、売上の伸び率も一定

という関係のことです。

グラフ1:滞在時間と購入金額(線形関係)
グラフ1:滞滞在時間と購入金額(線形関係)

滞在時間と売上が線形関係にあるのであれば、店舗に長くいた人の方が購入金額は大きくなりますし、滞在時間と購入金額の関係は、例えば、下表のようになります。

滞在時間購入金額滞在時間1時間当たりの購入金額増加額
1時間1,000円
2時間1,500円500円
・・・・・・・・・
5時間3,000円500円
6時間3,500円500円
・・・・・・・・・
20時間10,500円500円
21時間11,000円500円

20時間書店に滞在するというのはかなり異常だとは思いますが、滞在時間と購入金額が線形関係にあれば、こうなってしまいます。

対数関係とは、グラフ3のように

  • 滞在時間が伸びれば、売上も伸びる
  • 滞在時間が伸びた時の、売上の伸び率は一定ではない(すごく長く滞在していても、売上高はそれほど伸びない)

という関係のことです。

グラフ3:滞在時間と購入金額(対数関係)
グラフ3:滞在時間と購入金額(対数関係)

滞在時間と売上が対数関係にあるのであれば、店舗に長くいた人の方が購入金額は大きくなりますが、滞在時間と購入金額の関係は線形関係の時とは異なり、例えば、下表のようになります。

滞在時間購入金額滞在時間1時間当たりの購入金額増加額
1時間1,000円
2時間1,500円500円
・・・・・・・・・
5時間1,900円200円
6時間2,000円100円
・・・・・・・・・
20時間3,000円30円
21時間3,020円20円

店舗に1時間いた人と2時間いた人の購入金額に差があることは想像できますが、20時間いた人と21時間いた人の購入金額にはそれほど差がないと想像できます。対数関係の場合、滞在時間が長くなるほど、増加額(増加率)が小さくなります。こちらのほうが直感に沿っています。

滞在時間と購入金額が対数関係にある場合、滞在時間を対数に直してグラフにしてみると、その関係が目に見えて変化することがあります。実際に、Bさんが集めたデータを対数に直し、散布図として描画したものが下記のものになります。

グラフ4:滞在時間(対数)と購入金額の関係
グラフ4:滞在時間(対数)と購入金額の関係

このグラフを見たとしても、滞在時間(対数)が増えれば購入金額も高くなる、とは断定しがたいのですが、もう少し統計的に分析をすると、滞在時間が増えれば、購入金額も増えるということがわかります。

ではBさんの仮説は正しかったのでしょうか?Bさんの仮説は、「滞在時間が伸びれば、購入金額も大きくなる」というもので、この仮説は統計的に支持されています。また、「購入金額の伸び(率)は滞在時間が伸びれば伸びるほど小さくなる」というBさんの実感も、滞在時間を対数に直すことで、正しそうだということが確認されました。

因果関係あるの?

■ストーリー

Bさんは滞在時間の対数をとって再度グラフで表示したところ、先ほどよりも強そうな相関を示していました。

interviewee

あー、やっぱり仮説は間違ってなかったんですね!ということで、お客様の滞在時間を長くさせるような施策を打っていきたいと思います。まずは試験店舗を決めて、店内に椅子を置き・・・


interviewee

でもさ、それほんとに因果関係あるの?

■解説

因果関係があるとは、原因と結果が直接対応していることを意味しています。今回のケースにおいては、滞在時間が長いから、購入金額が大きくなるというものです。

ただ、これは必ずしも正しいとは言い切れません。店舗に長くいたからといって何冊も買わなければならないわけではありませんし、もしかしたら買いたい本がないからこそ滞在時間が長かったのかもしれません。

相関関係があっても因果関係がないというのはよくある話です。どういうケースが考えられるかは因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き)にて丁寧に説明されています。

データ分析は相関関係を
明らかにしてくれますが、因果関係は明らかにしてくれません。本当に2つの事項が原因と結果として直接対応しているかどうかを検討しなければなりません。

まとめ

架空の書店の企画部の会議を想定する中で、データの読み方について初歩的な解説をしてきました。

まとめると、データを読む上で、

  • 信頼に足る数のデータを取得できているか?
  • データの真の姿をとらえられているか?
  • 仮説の因果関係に問題はないか?

を問うことは、毎回、基本動作としてできている必要があります。

今回は入門編ということで3つ紹介しましたが、ほかにも考慮すべきことはたくさんありますので、別の入門編記事や、初級編、中級編などで別途解説していきます。