【初心者向け】統計学ってどんな学問?  身近な事例から統計学にできることを解説

データ活用
スキルアップデータサイエンスデータ分析マインドセット統計

2013年に「統計学は最強の学問である」という書籍が発売されてから、「統計学」が注目を集めるようになりました。

しかし、「そもそも統計学とは何なのかよくわかっていない」「統計学が何の役に立つのかわからない」と思っている人は多いのではないでしょうか。

サイカは、統計学がまだ広く知られていなかった2012年に創業し、現在に至るまで、一貫して統計分析を軸に事業を展開してきたデータサイエンスカンパニーです。

この記事では、はじめて統計学という学問に触れる方に向けて、「統計学とはどんな学問なのか」「統計学で何ができるのか」を、身近な事例を交えて解説していきたいと思います。

統計学とはどんな学問なのか

「統計学」とは

統計学とは、経験的に得られたデータから、その規則性・不規則性を明らかにする学問です。

私たちの周りには限りなくデータがあふれていますが、並んだ数字を見ているだけでは意味がありません。

統計学では、それらの膨大なデータを分析し、データの特徴や規則性・不規則性、データ同士の関連性を割り出します。そうやって現状を分析し、未来を推測するのです。

統計分析をとおしてデータから得られた情報は、サービスの開発やマーケティング、企業の経営にいたるまで、幅広い分野で使われています。

「統計学」「データサイエンス」「データ分析」「機械学習」の違い

「統計学」と似た用語で違いがわかりにくいものに、「データサイエンス」「データ分析」「機械学習」があります。これらを完全に分けて説明するのは難しいのですが、ここでは、より統計学の解像度を高めるため、便宜的にそれぞれの違いと関連性を整理してみます。

統計学とデータサイエンス・データ分析の違い

まず「データサイエンス」とは、データを使って有益な知見を引き出そうとするアプローチ全体のことをいいます。その中に「データ分析」という過程があり、データを分析する方法の一つとして「統計学」があると考えると分かりやすいです。

データを分析する方法は、統計学のほかにも、情報科学やアルゴリズム、線形代数学や微分・積分といった数学的手法があります。

「統計学」「データサイエンス」「データ分析」「機械学習」の違い

統計学と機械学習の違い

統計学も機械学習も、データを分析してルールやパターンを発見し、モデルを作るという点では同じです。

いちばん大きな違いは、目的の違いです。

統計学が「説明」を目的とするのに対し、機械学習は「予測」を目的とする場合が多いです。

統計学でも「予測」はでき、機械学習で「説明」することもできますが、機械学習は大量のデータを扱う分、直感的には理解できない分析過程をたどり、分析過程がブラックボックスになっていることもあります。その点統計学は、「なぜこのモデルができたか」を論理的に説明できます。

何を重視するかの観点で比較してみると、機械学習は「精度高く予測できること」を重視し、統計学は、予測の精度よりも「データについて説明できること」を重視します。

そのため、機械学習は、一般的に将来の予測の精度を追求する際に使われ、統計学は、次の打ち手を検討したり、確実性のあるアクションを決定する際に使われます。

ただ実際の現場では、これらの境界はそこまではっきりしていません。

実は日常の中にある統計学

「統計学」の定義を説明しようとすると専門的な用語が出てきてしまうので、難しい印象を持たれやすいかもしれません。ですが、実は統計はみなさんの日常の中でも日々活用されています。

ここでは、統計学をより身近に感じてもらうために、日々の生活の中で使われている統計の事例を紹介します。

コンビニ

多くの利用者がいるコンビニでは、どんな年齢層・性別の客がどんな時間帯にどんな商品をどんな組み合わせで買っていったかなどの購買データ(POSデータ)が記録されています。

各企業はそのデータを活用して、商品の仕入れや陳列の仕方に反映させたり、顧客の需要を把握し、新商品の開発を進めたりしています。

コンビニに行って、「商品の配置がいつもと違う」「新商品が発売されている」と気付くことがあると思いますが、それはみなさんの日々の買い物のデータを参考にして決められていることがほとんどです。

テレビ

テレビの視聴率にも統計学が使われています。テレビの視聴率は、「標本調査」という方法を使い、数百世帯から集めたデータをもとに算出しています。

テレビを持っている全世帯の中から無作為に選ばれた数百世帯の家庭を「モニター世帯」とし、テレビに取り付けた自動計測機で、電源のオンオフや視聴しているチャンネルの情報を自動で集計します。そのデータ(サンプル)をもとに、テレビを持っている全世帯の特徴を推定していくのが標本調査です。この方法で、視聴率は割り出されています。

このように回収された視聴率は、番組を放映する時間帯の改訂や、より視聴者の興味に合った番組制作や編集などに活かされています。また、届けたいターゲットに応じてCMを出稿するなど、より効果的なCMセールスにも活用できます。

センター模擬試験の推定得点

大学受験を経験したことがある方は、大学入試センター試験の模擬試験を受けたことがあるかもしれません。模擬試験の成績表を見ると、A判定、B判定などの合格可能性の判定と合わせて、センター試験本番の点数に換算した場合の推定得点(推定値ともいう)が載っています。

この推定得点は、去年や一昨年、あるいはもっと前の受験生の模擬テストデータと、センター試験本番の得点データを複合的に考え、統計学的な手法を用いて算出しています。

まず、「過去の模擬試験の受験者がセンター試験を受験したらこうなるだろう」という仮想分布を作成し、次に、今年度の模擬試験の得点分布を仮想分布の形になるようにすることで、得点を換算していきます。

この換算得点は、自分の成績がセンター試験本番までにどのくらい伸びるかを予想した点数とも考えられます。この換算得点を参考に、志望校を決めたり、学習目標を立てることができます。

統計学にできること・できないこと

このように、気付かないうちにみなさんが触れている統計学ですが、統計学にできること・できないことはどんなことでしょうか。ここでもいくつかの事例を交えて解説していきます。

※ 本章で取り上げる事例には、統計学をベースに、機械学習や物理モデル等を用いて実行されているものもあります。

統計学にできること

複雑なデータを分かりやすく説明できる

統計は、数多くあるデータから特徴を見いだしていく作業のことです。数字が並んでいるだけでは捉えづらい特徴を、分かりやすく説明できます。

例えば、みなさんが日常的に使っている「平均」も、複雑なデータを分かりやすく説明した一つの例です。

以下は、当社メンバーの年齢層を一覧にしたものです。「ここから分かる特徴を言ってください」と突然言われても、即答するのは難しいかもしれません。

そこで、この年齢データの分布をグラフにし、さらに平均を出してみます。そうすると、平均年齢が32歳で、20〜30代前半のメンバーが多い会社であるということを瞬時に説明できます。

これはとてもシンプルな例ですが、統計学では、複雑なデータを分析することで、そのデータの特徴を分かりやすく説明できます。

未来がどうなるか予測できる

選挙速報

選挙速報も国民の意識調査と同様の手法が使われています。選挙速報では開票率0%や1%でも「当選確実」が出ることがあります。こうした結果を見て、「もう出たの?」と疑問を抱いたことがある人もいるのではないでしょうか。

ここでも、「無作為に抽出したサンプルの数がある程度あれば、その結果からかなりの割合で票全体の動きが推測できる」という統計学の手法を使い、少ない開票率でも票全体の結果を予測して、「当選確実」を出しているのです。

天気予報

また、天気予報で、1週間、2週間先の天気まで話されていることを不思議に思うことはありませんか。日々目にする天気予報にも、実は統計学が使われています。

天気予報は、過去の膨大な気象データから算出されています。具体的には、地域を細かいブロックに分割し、ブロック内の天気の状況を測定します。次に過去のデータから似ているパターンを抽出し、将来の状態の予測をします。降水確率は、そのパターンの時に100回中何回雨が降るのかを計算して求められています。

また、長期的な気候変動を研究する際にも、統計やデータサイエンスが活用されています。

長期的な気候変動とその影響を推測する際は、まず、「排出シナリオ(気候変動の原因となる温室効果ガスが、将来どのくらい排出されるかを想定したもの)」を作り、排出シナリオに沿って気候がどのように変化するかを推測します(この結果を「気候シナリオ」という)。次に、気候シナリオで示される気候の変化によって、社会にどのような影響が起こるかを推測(この結果を「影響モデル」という)します。長期的な気候変動の影響の研究は、このように行われています。

勝てる戦略を立てられる

野球

ほかにも、身の回りにある統計学といえば野球があります。

例えば、野球の試合でよく見る選手の打率は、打者が打ったヒットの本数÷打数で求められます。

また最近では、「野球統計学」という言葉が徐々に有名になってきています。野球統計学はセイバーメトリクスとも呼ばれ、統計学を用いて客観的に選手を評価し、それを用いてチームの戦略を考える分析方法です。野球チームでは、このように統計学を用いて、戦略を立てることもあります。

野球だけでなく、さまざまなスポーツで、統計学による分析が進んでいます。

安全を担保できる

また、生活に関わる重要なものとして、新薬の開発や品質管理にも統計が使われています。

新薬開発 

新薬の効果を検証するときには、薬の効果を確かめるために、患者などを対象とした試験が行われています。

この時、患者をランダムに2つのグループに分け、一方には新薬を、もう一方には、比較するのに適当な既存の薬や、外観や味を新薬と全く同じにした偽薬を処方します。この試験により得られたデータから薬の効果を判断する際には、「仮説検定」などの統計的な手法が使われています。

具体的には、まず「新薬と既存薬の効果に差はない」という仮説(帰無仮説)を立て、その仮説のもとでデータが発生する確率を見ていきます。そして、この確率が小さい場合は、その仮説のもとでは「めったに起こらないことが起きた」と考え、はじめに立てた仮説が適当ではないとします。つまり、「新薬と既存薬の効果に差はある」(対立仮説)と判断されます。

新薬の効果の検証は、このような統計学の理論を用いて行われています。

品質管理

品質管理にも統計学の手法が使われています。

例えば、品質管理で行われる検査の一つとして、抜取検査があります。これは、ロットと呼ばれる品物の集団から一部のサンプルを抜き取って、そのサンプルについて試験し、結果のデータでロットの合格・不合格を決めるものです。

ビジネスの判断材料になる

ビジネスの領域では、統計学の活用が必要不可欠なものになってきています。統計学を活用して成果を挙げている事例をいくつか紹介します。

保険会社は統計を駆使しているから潰れない

例えば、たくさんある保険会社は、なぜ経営を維持できているのでしょうか。それは、年齢や性別、これまでの病歴をもとに、死亡確率や病気にかかる可能性を予測しているからです。

保険会社では、過去の統計データから得られた死亡確率や事故の発生率などをもとに、生命保険や損害保険などの保険料を算定しています。ここでも統計が使われています。

ICチップと統計で商品管理を最適化するスシロー

他にも企業の成果創出に統計学が使われています。

例えばスシローは、皿に取り付けたICチップを、レーンに隠したICリーダーで読み取り、年間約10億件規模のデータを集めています。

このデータから、寿司ネタの人気度を割り出し、材料の発注数を調整することで食品の廃棄量を減らしたり、さらに、ICリーダーが読み取った回数をもとに、握ってから時間がたったと判断したものはレーンから取り除いて鮮度管理に活用したりしています。

ダイドードリンコは「人の視線」の統計データで売上3割増

他にも、自販機メーカーのダイドードリンコは、人の視線を追いかけるアイトラッキング技術を取り入れ、自販機での商品購入行動の調査をしています。これらのデータをもとに、無意識の行動と購買行動時の感情、最終決定の決め手などを分析しています。

この活動によって適正に商品を配置し、売上が3割増になったという実績も出ています。

50以上の事業データを分析する楽天グループ

楽天グループでは、約50ある事業活動のデータを集約して、データアナリストが商品分析しています。そのデータは、楽天市場でのレコメンド機能に活用され、売れ筋商品ランキングの更新頻度の短縮と、ジャンルの細分化を試みて大きな成果をあげています。

このように、統計学を活用すれば、ビジネスを成功させるうえで、次のアクションに繋がる有力な判断材料を見つけることができ、方針やプロジェクトの軌道修正ができるようになります。

経験や勘に頼ってビジネスを進めるよりも、客観的な視点で物事を判断できるため、成功する確率を高めることができます。

仮説や理論を証明できる(根拠を与えられる)

統計学は、物理学・経済学・社会学・心理学・言語学といった人文科学・社会科学・自然科学(基礎科学)から、工学・医学・薬学といった応用科学まで、数ある学問のベースになっています。

これらの学問では、まず仮説を立て、その仮説を実証していくことで、仮説の正しさを追求します。統計学は、「〜かもしれない」というアイデアに根拠を与える手段として、広い分野で活用されています。

このように、統計学の理論は、国民の意識調査から、身近な天気予報、そして生活に関わる新薬の開発まで、さまざまな分野で活用されています。統計学を用いることによって、社会の過去・現在を読み解き、未来を予測することができます。

統計学にできないこと

答えを求めることはできない

統計学を活用することで、さまざまな可能性が広がる一方で、統計学だけでは解決できないこともあります。

それは、答えを求めることです。

統計分析の結果=答えではありません。分析結果は、人間が解釈してこそ新しい価値を生みます。

例えば、新しいアイデアは、データを分析して得られた示唆に、人間のクリエイティビティを掛け合わせることではじめて生み出されるものです。

統計学やデータに頼るだけではなく、常に人間のクリエイティビティを発揮し続けることが重要です。

今後、さらに重要性が高まる統計学

統計学は、データが溢れている現代においてとても重要な学問です。この記事で紹介した事例のように、統計学を活用したデータ分析は、研究分野だけでなく、ビジネスの領域でも企業活動のベースになっています。統計学の知見をキャッチアップすることは、ビジネスパーソンにとってもはや必須といえます。

この記事を読んで、統計学を少しでも身近に感じていただけたら、ぜひ初心者向けの書籍を手に取ってみたり、ご自身の業務に統計学を取り入れられないか検討してみたりしてはいかがでしょうか。

▼ 統計・データ分析にはじめて触れる方向けに、データ分析をビジネスに取り入れる方法を解説した連載です。記事の中で初心者向けのおすすめの書籍も紹介しているので、ぜひご覧ください

↓「ゼロから始めるデータ分析」連載

#1 初学者がまず知るべき「分析の8ステップ」
#2 データ分析初心者が覚えておくべき3つの分析手法
#3 データ分析初心者が知っておきたい、経営層を巻き込むコミュニケーションのポイント
#4 データ分析初心者が知っておきたい、経営層がデータ分析と分析担当者に求めるもの
#5 データ分析初心者でも経営と組織を巻き込める、現場担当者のための4つのTips

▼職種ごとに、どのようにデータ分析を業務に取り入れられるのか、事例を挙げながら解説しています。ご自身の業務にどのようにデータを活用できるのかをイメージするためにご活用ください。

データを業務でどう使う? 職種ごとのデータ活用事例【マーケティング・営業・人事・経理・広報】

▼ ビジネスメディア『PIVOT』にて、当社代表の平尾が、ビジネスにデータサイエンスを活かす方法を解説しています。ビジネスにおけるデータサイエンス活用の意義をより深く理解いただけます。

この記事を読んだ方におすすめの記事