統計学とは?定義と身近な事例からできること・できないことを心者向けにわかりやすく解説

更新日: データ活用
スキルアップデータサイエンスデータ分析マインドセット統計

統計学とは、経験的に得られたデータから規則性・不規則性を明らかにし、現状を分析して未来を予測する学問です。天気予報・選挙速報・新薬開発・企業の経営判断まで、私たちの身近なあらゆる場面で活用されています。

2013年に出版された『統計学は最強の学問である』をきっかけに広く注目を集めた統計学ですが、「データサイエンスとどう違うのか」「機械学習との関係は?」「実際のビジネスでどう使われているのか」を正確に理解している人はまだ多くありません。

この記事では、統計学がまだ広く知られていなかった2012年に創業し、一貫して統計分析を軸に事業を展開してきたデータサイエンスカンパニーXICAが、はじめて統計学に触れる方に向けて、基本的な定義・身近な活用事例・統計学にできること・できないことを解説します。

統計学とはどんな学問なのか

「統計学」とは

統計学とは、経験的に得られたデータから、その規則性・不規則性を明らかにする学問です。

私たちの周りには限りなくデータがあふれていますが、並んだ数字を見ているだけでは意味がありません。

統計学では、それらの膨大なデータを分析し、データの特徴や規則性・不規則性、データ同士の関連性を割り出します。そうやって現状を分析し、未来を推測するのです。

統計分析をとおしてデータから得られた情報は、サービスの開発やマーケティング、企業の経営にいたるまで、幅広い分野で使われています。

統計学・データサイエンス・データ分析・機械学習はどう違うか?

「統計学」と似た用語で違いがわかりにくいものに、「データサイエンス」「データ分析」「機械学習」があります。これらを完全に分けて説明するのは難しいのですが、ここでは、より統計学の解像度を高めるため、便宜的にそれぞれの違いと関連性を整理してみます。

統計学とデータサイエンス・データ分析の違い

まず「データサイエンス」とは、データを使って有益な知見を引き出そうとするアプローチ全体のことをいいます。その中に「データ分析」という過程があり、データを分析する方法の一つとして「統計学」があると考えると分かりやすいです。

データを分析する方法は、統計学のほかにも、情報科学やアルゴリズム、線形代数学や微分・積分といった数学的手法があります。

「統計学」「データサイエンス」「データ分析」「機械学習」の違い
「統計学」「データサイエンス」「データ分析」「機械学習」の違い

統計学と機械学習の違い

統計学も機械学習も、データを分析してルールやパターンを発見し、モデルを作るという点では同じです。

いちばん大きな違いは、目的の違いです。

統計学が「説明」を目的とするのに対し、機械学習は「予測」を目的とする場合が多いです。

統計学でも「予測」はでき、機械学習で「説明」することもできますが、機械学習は大量のデータを扱う分、直感的には理解できない分析過程をたどり、分析過程がブラックボックスになっていることもあります。その点統計学は、「なぜこのモデルができたか」を論理的に説明できます。

何を重視するかの観点で比較してみると、機械学習は「精度高く予測できること」を重視し、統計学は、予測の精度よりも「データについて説明できること」を重視します。

そのため、機械学習は、一般的に将来の予測の精度を追求する際に使われ、統計学は、次の打ち手を検討したり、確実性のあるアクションを決定する際に使われます。

ただ実際の現場では、これらの境界はそこまではっきりしていません。

項目統計学機械学習データサイエンス
定義データから規則性・不規則性を明らかにする分析手法データからパターンを学習し予測モデルを構築する手法データから有益な知見を引き出すアプローチ全体
主な目的説明・検証予測知見の抽出(手法は問わない)
強み分析過程を論理的に説明できる大量データで高精度な予測が可能多様な手法を組み合わせて活用できる
弱み予測精度よりも説明を重視分析過程がブラックボックスになりやすい手法選択に専門知識が必要
透明性高い(なぜそうなるか説明できる)低いことが多い採用する手法による
代表的な用途新薬の効果検証・選挙予測・品質管理画像認識・自然言語処理・レコメンドエンジンビジネス全般のデータ活用・AI開発
位置づけデータ分析手法の一つデータ分析手法の一つ統計学・機械学習を包含する上位概念

実は日常の中にある統計学

「統計学」の定義を説明しようとすると専門的な用語が出てきてしまうので、難しい印象を持たれやすいかもしれません。ですが、実は統計はみなさんの日常の中でも日々活用されています。

ここでは、統計学をより身近に感じてもらうために、日々の生活の中で使われている統計の事例を紹介します。

コンビニのPOSデータ分析:購買データが商品開発と陳列を変える

多くの利用者がいるコンビニでは、どんな年齢層・性別の客がどんな時間帯にどんな商品をどんな組み合わせで買っていったかなどの購買データ(POSデータ)が記録されています。

各企業はそのデータを活用して、商品の仕入れや陳列の仕方に反映させたり、顧客の需要を把握し、新商品の開発を進めたりしています。

コンビニに行って、「商品の配置がいつもと違う」「新商品が発売されている」と気付くことがあると思いますが、それはみなさんの日々の買い物のデータを参考にして決められていることがほとんどです。

テレビ視聴率の算出に使われる統計学の手法「標本調査」

テレビの視聴率にも統計学が使われています。テレビの視聴率は、「標本調査」という方法を使い、数百世帯から集めたデータをもとに算出しています。

テレビを持っている全世帯の中から無作為に選ばれた数百世帯の家庭を「モニター世帯」とし、テレビに取り付けた自動計測機で、電源のオンオフや視聴しているチャンネルの情報を自動で集計します。そのデータ(サンプル)をもとに、テレビを持っている全世帯の特徴を推定していくのが標本調査です。この方法で、視聴率は割り出されています。

このように回収された視聴率は、番組を放映する時間帯の改訂や、より視聴者の興味に合った番組制作や編集などに活かされています。また、届けたいターゲットに応じてCMを出稿するなど、より効果的なCMセールスにも活用できます。

大学入試センター模試の推定得点はどう計算されるか

大学受験を経験したことがある方は、大学入試センター試験の模擬試験を受けたことがあるかもしれません。模擬試験の成績表を見ると、A判定、B判定などの合格可能性の判定と合わせて、センター試験本番の点数に換算した場合の推定得点(推定値ともいう)が載っています。

この推定得点は、去年や一昨年、あるいはもっと前の受験生の模擬テストデータと、センター試験本番の得点データを複合的に考え、統計学的な手法を用いて算出しています。

まず、「過去の模擬試験の受験者がセンター試験を受験したらこうなるだろう」という仮想分布を作成し、次に、今年度の模擬試験の得点分布を仮想分布の形になるようにすることで、得点を換算していきます。

この換算得点は、自分の成績がセンター試験本番までにどのくらい伸びるかを予想した点数とも考えられます。この換算得点を参考に、志望校を決めたり、学習目標を立てることができます。

「統計学」の知識を身につけ、マーケティングを加速させる

関連資料の無料ダウンロード

「統計学」の知識を身につけ、マーケティングを加速させる
~基礎や、近年再注目の統計学的な分析手法「MMM」をご紹介~

統計学にできること

このように、気付かないうちにみなさんが触れている統計学ですが、統計学にできること、この後できないことはどんなことでしょうか。ここでもいくつかの事例を交えて解説していきます。

※ 本章で取り上げる事例には、統計学をベースに、機械学習や物理モデル等を用いて実行されているものもあります。

複雑なデータを分かりやすく説明できる

統計は、数多くあるデータから特徴を見いだしていく作業のことです。数字が並んでいるだけでは捉えづらい特徴を、分かりやすく説明できます。

例えば、みなさんが日常的に使っている「平均」も、複雑なデータを分かりやすく説明した一つの例です。

以下は、当社メンバーの年齢層を一覧にしたものです。「ここから分かる特徴を言ってください」と突然言われても、即答するのは難しいかもしれません。

そこで、この年齢データの分布をグラフにし、さらに平均を出してみます。そうすると、平均年齢が32歳で、20〜30代前半のメンバーが多い会社であるということを瞬時に説明できます。

統計とは?「平均」と「分配」の例

これはとてもシンプルな例ですが、統計学では、複雑なデータを分析することで、そのデータの特徴を分かりやすく説明できます。

未来がどうなるか予測できる

選挙速報

選挙速報も国民の意識調査と同様の手法が使われています。選挙速報では開票率0%や1%でも「当選確実」が出ることがあります。こうした結果を見て、「もう出たの?」と疑問を抱いたことがある人もいるのではないでしょうか。

ここでも、「無作為に抽出したサンプルの数がある程度あれば、その結果からかなりの割合で票全体の動きが推測できる」という統計学の手法を使い、少ない開票率でも票全体の結果を予測して、「当選確実」を出しているのです。

天気予報

また、天気予報で、1週間、2週間先の天気まで話されていることを不思議に思うことはありませんか。日々目にする天気予報にも、実は統計学が使われています。

天気予報は、過去の膨大な気象データから算出されています。具体的には、地域を細かいブロックに分割し、ブロック内の天気の状況を測定します。次に過去のデータから似ているパターンを抽出し、将来の状態の予測をします。降水確率は、そのパターンの時に100回中何回雨が降るのかを計算して求められています。

また、長期的な気候変動を研究する際にも、統計やデータサイエンスが活用されています。

長期的な気候変動とその影響を推測する際は、まず、「排出シナリオ(気候変動の原因となる温室効果ガスが、将来どのくらい排出されるかを想定したもの)」を作り、排出シナリオに沿って気候がどのように変化するかを推測します(この結果を「気候シナリオ」という)。次に、気候シナリオで示される気候の変化によって、社会にどのような影響が起こるかを推測(この結果を「影響モデル」という)します。長期的な気候変動の影響の研究は、このように行われています。

勝てる戦略を立てられる

野球

ほかにも、身の回りにある統計学といえば野球があります。

例えば、野球の試合でよく見る選手の打率は、打者が打ったヒットの本数÷打数で求められます。

また最近では、「野球統計学」という言葉が徐々に有名になってきています。野球統計学はセイバーメトリクスとも呼ばれ、統計学を用いて客観的に選手を評価し、それを用いてチームの戦略を考える分析方法です。野球チームでは、このように統計学を用いて、戦略を立てることもあります。

野球だけでなく、さまざまなスポーツで、統計学による分析が進んでいます。

安全を担保できる

また、生活に関わる重要なものとして、新薬の開発や品質管理にも統計が使われています。

新薬開発 

新薬の効果を検証するときには、薬の効果を確かめるために、患者などを対象とした試験が行われています。

この時、患者をランダムに2つのグループに分け、一方には新薬を、もう一方には、比較するのに適当な既存の薬や、外観や味を新薬と全く同じにした偽薬を処方します。この試験により得られたデータから薬の効果を判断する際には、「仮説検定」などの統計的な手法が使われています。

具体的には、まず「新薬と既存薬の効果に差はない」という仮説(帰無仮説)を立て、その仮説のもとでデータが発生する確率を見ていきます。そして、この確率が小さい場合は、その仮説のもとでは「めったに起こらないことが起きた」と考え、はじめに立てた仮説が適当ではないとします。つまり、「新薬と既存薬の効果に差はある」(対立仮説)と判断されます。

新薬の効果の検証は、このような統計学の理論を用いて行われています。

品質管理

品質管理にも統計学の手法が使われています。

例えば、品質管理で行われる検査の一つとして、抜取検査があります。これは、ロットと呼ばれる品物の集団から一部のサンプルを抜き取って、そのサンプルについて試験し、結果のデータでロットの合格・不合格を決めるものです。

ビジネスの判断材料になる

ビジネスの領域では、統計学の活用が必要不可欠なものになってきています。統計学を活用して成果を挙げている事例をいくつか紹介します。

保険会社は統計を駆使しているから潰れない

例えば、たくさんある保険会社は、なぜ経営を維持できているのでしょうか。それは、年齢や性別、これまでの病歴をもとに、死亡確率や病気にかかる可能性を予測しているからです。

保険会社では、過去の統計データから得られた死亡確率や事故の発生率などをもとに、生命保険や損害保険などの保険料を算定しています。ここでも統計が使われています。

ICチップと統計で商品管理を最適化するスシロー

他にも企業の成果創出に統計学が使われています。

例えばスシローは、皿に取り付けたICチップを、レーンに隠したICリーダーで読み取り、年間約10億件規模のデータを集めています。

このデータから、寿司ネタの人気度を割り出し、材料の発注数を調整することで食品の廃棄量を減らしたり、さらに、ICリーダーが読み取った回数をもとに、握ってから時間がたったと判断したものはレーンから取り除いて鮮度管理に活用したりしています。

ダイドードリンコは「人の視線」の統計データで売上3割増

他にも、自販機メーカーのダイドードリンコは、人の視線を追いかけるアイトラッキング技術を取り入れ、自販機での商品購入行動の調査をしています。これらのデータをもとに、無意識の行動と購買行動時の感情、最終決定の決め手などを分析しています。

この活動によって適正に商品を配置し、売上が3割増になったという実績も出ています。

50以上の事業データを分析する楽天グループ

楽天グループでは、約50ある事業活動のデータを集約して、データアナリストが商品分析しています。そのデータは、楽天市場でのレコメンド機能に活用され、売れ筋商品ランキングの更新頻度の短縮と、ジャンルの細分化を試みて大きな成果をあげています。

このように、統計学を活用すれば、ビジネスを成功させるうえで、次のアクションに繋がる有力な判断材料を見つけることができ、方針やプロジェクトの軌道修正ができるようになります。

経験や勘に頼ってビジネスを進めるよりも、客観的な視点で物事を判断できるため、成功する確率を高めることができます。

仮説や理論を証明できる(根拠を与えられる)

統計学は、物理学・経済学・社会学・心理学・言語学といった人文科学・社会科学・自然科学(基礎科学)から、工学・医学・薬学といった応用科学まで、数ある学問のベースになっています。

これらの学問では、まず仮説を立て、その仮説を実証していくことで、仮説の正しさを追求します。統計学は、「〜かもしれない」というアイデアに根拠を与える手段として、広い分野で活用されています。

このように、統計学の理論は、国民の意識調査から、身近な天気予報、そして生活に関わる新薬の開発まで、さまざまな分野で活用されています。統計学を用いることによって、社会の過去・現在を読み解き、未来を予測することができます。

統計学にできないこと

答えを求めることはできない

統計学を活用することで、さまざまな可能性が広がる一方で、統計学だけでは解決できないこともあります。

それは、答えを求めることです。

統計分析の結果=答えではありません。分析結果は、人間が解釈してこそ新しい価値を生みます。

例えば、新しいアイデアは、データを分析して得られた示唆に、人間のクリエイティビティを掛け合わせることではじめて生み出されるものです。

統計学やデータに頼るだけではなく、常に人間のクリエイティビティを発揮し続けることが重要です。

統計学に関するよくある質問

統計学とは何ですか?

統計学とは、経験的に得られたデータから規則性・不規則性を明らかにし、現状の分析と未来の予測を行う学問です。天気予報の降水確率・選挙の当選確実・新薬の効果検証・企業の在庫管理など、幅広い分野で活用されています。

統計学とデータサイエンスの違いは何ですか?

データサイエンスとは、データから有益な知見を引き出すアプローチ全体を指す上位概念です。統計学はその中で使われる分析手法の一つです。データを分析する方法には統計学のほか、アルゴリズム・線形代数・機械学習など複数の手法があります。

統計学と機械学習の違いは何ですか?

最大の違いは目的にあります。統計学は「説明」を重視し、データの背景にある仕組みを論理的に明らかにします。機械学習は「予測精度」を重視し、大量データから高精度な予測モデルを構築することを目的とします。また、統計学は分析過程を説明できますが、機械学習はプロセスがブラックボックスになりやすい点も異なります。

統計学はビジネスでどのように活用されていますか?

保険料の算定・在庫管理・商品配置・マーケティング効果測定など多岐にわたります。具体的には、スシローがICチップと統計分析を組み合わせて食品廃棄量を削減し、ダイドードリンコがアイトラッキングデータの統計分析によって自販機の売上を約3割向上させた事例があります。

統計学にできないことはありますか?

統計学は「答えを自動で導く」ものではありません。統計分析の結果は人間が解釈してはじめて価値を持ちます。データが示す傾向と、人間のクリエイティビティや意思決定を組み合わせることが重要です。

統計学を初心者が学ぶには何から始めればよいですか?

「平均」「分布」「確率」の3つの基本概念を理解することから始めるのがおすすめです。入門書を一冊読んだあとは、実際のデータをExcelなどのツールで分析しながら手を動かすと理解が深まります。当サイトでは「ゼロから始めるデータ分析」連載でステップごとに解説しています。

今後、さらに重要性が高まる統計学

統計学は、データが溢れている現代においてとても重要な学問です。この記事で紹介した事例のように、統計学を活用したデータ分析は、研究分野だけでなく、ビジネスの領域でも企業活動のベースになっています。統計学の知見をキャッチアップすることは、ビジネスパーソンにとってもはや必須といえます。

この記事を読んで、統計学を少しでも身近に感じていただけたら、ぜひ初心者向けの書籍を手に取ってみたり、ご自身の業務に統計学を取り入れられないか検討してみたりしてはいかがでしょうか。

▼ 統計・データ分析にはじめて触れる方向けに、データ分析をビジネスに取り入れる方法を解説した連載です。記事の中で初心者向けのおすすめの書籍も紹介しているので、ぜひご覧ください

↓「ゼロから始めるデータ分析」連載

#1 初学者がまず知るべき「分析の8ステップ」
#2 データ分析初心者が覚えておくべき3つの分析手法
#3 データ分析初心者が知っておきたい、経営層を巻き込むコミュニケーションのポイント
#4 データ分析初心者が知っておきたい、経営層がデータ分析と分析担当者に求めるもの
#5 データ分析初心者でも経営と組織を巻き込める、現場担当者のための4つのTips

▼職種ごとに、どのようにデータ分析を業務に取り入れられるのか、事例を挙げながら解説しています。ご自身の業務にどのようにデータを活用できるのかをイメージするためにご活用ください。

データを業務でどう使う? 職種ごとのデータ活用事例【マーケティング・営業・人事・経理・広報】

▼他にも、統計学とマーケティング関連に知っておくべき情報・お役立つ記事も用意していますので、ご興味ある方は、ぜひご覧ください。

重回帰分析とは?マーケターが図で学ぶ基本の仕組みと分析手順
マーケティングでの統計モデル一覧:概要、活用法、課題と要件を分かりやすく解説
MMMとは?マーケティングミックスモデリングの基本・分析手順・導入ポイントを解説

▼ ビジネスメディア『PIVOT』にて、当社代表の平尾が、ビジネスにデータサイエンスを活かす方法を解説しています。ビジネスにおけるデータサイエンス活用の意義をより深く理解いただけます。

Related Articles