ビッグデータとは|意味や活用事例、分析手法など【今だからこそ知るべき基礎知識】
「ビッグデータ(Big Data)」という言葉は、2011〜2012年にかけて日本で大きなトレンドとなり、2013年には新語・流行語大賞の候補にもなりました。それから10年以上が経過し、耳にする機会が減ったようにも感じます。
しかし、ビッグデータの重要性が低下したわけではありません。データ分析に携わるビジネスパーソンが増えている今だからこそ、ビッグデータの意味や活用事例、その分析手法などを、あらためて理解すべきです。
ビッグデータ活用は、いまや大手企業や先進企業だけのものではなく、すべての企業が受けられるITの恩恵です。
この記事では、今だからこそあらためて知ってほしい「ビッグデータ」の基本的な知識をわかりやすく解説します。ビッグデータを活用する意義や活用事例を理解するためにも、ぜひ参考にしてみてください。
目次
ビッグデータ(Big Data)とは
ビッグデータとは文字通り、「膨大なデータの集まり」です。それは時間に比例して増えるのではなく、指数関数的に増加していきます。
下のグラフは、Intel Architecture Day 2020で紹介された資料を抜粋したものです。
このグラフは、世界におけるデータ増加の推移を表しています。2025年には、世界のデータは「175ゼタバイト(ZB)」という膨大なデータに成長すると予測されています。ゼタバイトはあまり聞き慣れない単位ですが、これは、テラバイトの10億倍に当たるデータの単位です。
175ゼタバイトというデータ量がいかに膨大なのか、イメージしやすいように例を挙げてみましょう。
たとえば、米国・ニューヨーク証券取引所では、1日あたり約1テラバイトの取引データが生成されています。これを175ゼタバイトに換算すると、2025年には約4,800万年分の証券取引データが生成されることになります。
この例で挙げたような、想像を絶するほど膨大なデータのことを、ビッグデータと呼びます。
ビッグデータの定義「5つのV」
しかし、ビッグデータの定義を「世界中で生成される膨大なデータ」で片付けてしまうと、企業でのビッグデータ活用は進みません。
そこで、ビッグデータの定義として世界中で用いられているのが「5つのV」です。
ビッグデータの5つのV
1. Volume(データの総量)
2. Velocity(データのリアルタイム性)
3. Variety(データの豊富さ)
4. Veracity(データの信頼性)
5. Value(データの価値)
この定義は、元ガートナー・VPアナリスト、ダグラス・レイニーが発案した「3つのV(1~3)」に、新たに「2つのV(4、5)」を追加したものです。企業単位でビッグデータを定義する際は、この「5つのV」を備えているかを一つの基準として考えてみてください(*1)。
(*1)ここで挙げた「5つのV」を備えていない=ビッグデータではない、というわけではありません。例えばデータの総量が1テラバイトほどでも、その他の「4つのV」が整っていれば、ビッグデータとしてビジネスへの活用が期待できるものもあります。
構造化データと非構造化データの違い
ビッグデータは、大きく2種類のデータによって構成されています。それが「構造化データ」と、「非構造化データ」です。
構造化データ
行と列で構成されているテーブル形式に整理できるデータ。クエリ(条件指定による検索)を容易に行える。
例)ExcelやCSV、リレーショナルデータベースにまとめられたデータ
非構造化データ
規則性がなく、テーブル形式で整理できないデータ。自由度が高く、AI開発や機械学習における重要度も高い。
例)チャット、SNS投稿、動画、IoTデータ、衛星画像など
近年のビッグデータ活用において注目されているのは、非構造化データです。しかし、非構造化データは扱いが難しく、データサイエンスの専門知識を必要とします。
非構造化データの活用に注目が集まる
昨今、世界で生成されているデータの約80%が非構造化データだと言われています。
インターネットとSNSの普及、IoT機器の増加、AI開発の進歩。これらを背景に非構造化データを活用し、ビジネスに新しい価値を見出そうとする企業が増えています。
扱いの難しい非構造化データですが、データサイエンスの力によりこれを可能にすれば、企業にとってビジネスを大きく推進する力になります。
非構造化データの活用については、「広がりを見せるビッグデータの活用事例」のセクションで詳しく解説しますので、参考にしてみてください。
今すぐできるビッグデータ解析
非構造化データのように特定の構造を持たないデータを分析可能な状態に整えるには、データサイエンスの専門知識が欠かせません。しかし、さまざまなツールを使うことで、データサイエンスの専門知識がなくても、ビッグデータから示唆を見つけ出すことができます。
たとえば、Googleの検索動向を調べられる「Googleトレンド」を使えば、駅利用者の推移を分析できます。
上記は、Googleトレンドで見た「渋谷駅」のトレンドを表す過去5年間のグラフです。2019年12月~2022年5月にかけて、トレンドが急激に低下しています。これは新型コロナウイルス感染症が急拡大し、緊急事態宣言が発令された時期と重なっています。
その後、「渋谷駅」のトレンドは上下を繰り返しながら、2023年2月頃にトレンド指数がコロナ禍以前の状態に戻りました。ちなみにグラフが下降している部分は、第1波~第7波の時期とちょうど重なっています。
このように、非構造化データとそれを視覚化するツールがあれば、誰でもビッグデータからヒントを得ることができます。
現代のビジネスパーソンに強く求められているのは、Googleトレンドのような視覚化ツールを利用し、データ分析を通じて何を読み解き、ビジネスにどう活かすかを考え、実行する力です。
ビッグデータは日本企業のデジタルシフトに欠かせない
日本のデジタル産業のこれからは、ビッグデータ活用を推進できるか否かによって、その結果が大きく変わると考えられています。
経済産業省が2018年9月に発表した「DXレポート」では、日本経済を待ち受ける「2025年の崖」に警鐘を鳴らしました。
「2025年の崖」とは、IT活用やデータ活用の遅れにより、2025年~2030年にかけて年間最大12兆円の経済損失が生じるというシナリオのことです。
この最悪のシナリオを回避するためには、IT環境の抜本的な見直しとともに、データ活用を可能にする「DX推進」が必要となります。
DXを推進するためにはIT環境の抜本的な見直しだけでなく、ビッグデータ解析も行いながら、新しい製品やサービス、新しいビジネス、新しい企業風土を生み出す取り組みが欠かせません。
つまり、ビッグデータは日本企業のデジタルシフトに欠かせない要素であり、DXを推進し「2025年の崖」を回避するためにも、極めて重要な役割を持っています。
ビッグデータで広がるAIやIoTの可能性
ビッグデータを語るうえで切り離せないのが、AI(Artificial Intelligence)とIoT(Internet of Things)です。
ひと口にAIと言っても、さまざまな研究分野があります。その中でもビッグデータとの関わりが深いのが、機械学習とディープラーニングです。
機械学習では膨大なデータをプログラムに取り込み、データの特徴を解析し、AIによるデータの分析や予測を可能にします。一方、ディープラーニングは膨大なデータをプログラムに取り込ませ、学習させることで、自律的な判断を可能にするAIを開発しています。
近年話題のChatGPTは機械学習とディープラーニングのなせる技であり、ChatGPTの学習や精度向上にもビッグデータが使われています。
IoTとは、センサーによるデータ収集とインターネット通信を可能にした機器のことで、これもビッグデータと深い関わりがあります。IoTが生み出すデータそのものがビッグデータとなり、分析を通じて、さまざまな知見やサービスを利用者に提供できます。
ビッグデータとAIとIoT、これらは相互補完の関係にあり、今とこれからのデジタル産業を支えるテクノロジーです。
広がりを見せるビッグデータの活用事例
AIやIoTと組み合わせたビッグデータの活用は、日本でも少しずつ広がっています。具体的にどういった活用事例があるのかご紹介します。
製品やサービスの企画、開発、生産
世界中で生成される消費者データや企業の購買データを分析することで、消費者や企業のニーズを把握し、ニーズに合った製品やサービスの企画・開発が可能になります。
ドイツ政府が2011年に発表した国家戦略プロジェクト「Industry 4.0」に代表されるように、製品生産においてもビッグデータ、AI、IoTの活用が進んでいます。
こうしたビッグデータ解析を通じて、製品・サービスの販売予測モデルを構築すれば、より効率的な企画、開発、生産を実現できます。
サービタイゼーション
サービタイゼーションは、従来は「モノ」として販売していた製品に新しい付加価値を生み、「コト(サービス)」として提供するビジネスモデルの転換を意味します。
たとえばロールス・ロイスが提供する「Power by the Hour」は、航空機エンジンをサブスクリプション契約で提供する、サービタイゼーションの代表例です。
エンジンにセンサーを搭載しIoT化することで、航空機の推進に使われたエネルギーを算出し、従量課金制サービスとしての提供を可能にしました。
スマート農業・スマート漁業
農業、漁業でもビッグデータが活用されており、近年は「スマート農業」や「スマート漁業」と称して注目されています。
ビッグデータ解析を通じて、最適な収穫時期の把握、効率的な漁獲方法の実行などを可能にし、さらに産地直送の販売モデルを構築するなど、ビッグデータ活用は小売にまで広がっています。
スマート農業でもスマート漁業でも、勘や経験に頼らない「データドリブンな収獲・漁獲」の実現が可能になります。
CX(カスタマーエクスペリエンス)の向上
WebサービスやECサイトにおいては、サービスやサイトから収集できるカスタマーデータを分析し、CXの向上に活用しています。
身近なところでは、カスタマーの類似点を把握し、製品やサービスを自動ですすめる「レコメンド機能」にビッグデータが活用されています。
今後は特定のサービスやサイトだけでなく、インターネット全体をまたいだカスタマーデータの収集・分析が進み、より快適なサービス提供に向けたCX向上が期待されています(データは匿名化されます)。
コンプライアンスとセキュリティの強化
個人情報や機密情報の漏えいは、「外部からのサイバー攻撃よりも、内部の不正や操作ミスに起因するものが多い」と言われています。
社内のデータ利用や不正のパターン、操作ミスによる情報漏えいのパターンなどをビッグデータとして分析すれば、内部の不正や操作ミスによるセキュリティ事件を未然に防ぐシステムを開発できます。
実際、世界中のセキュリティ・ソフトウェア開発企業が、ビッグデータ解析を通じたセキュリティ製品の強化を図っています。
マーケティング活動の最適化
近年主流のデジタルマーケティングにおいては、施策後に生じるビッグデータをリアルタイムで処理・分析できるかどうかが、マーケティング活動の成否を決めています。
たとえば、MMM(マーケティング・ミックス・モデリング)は、オンラインとオフラインをまたいだマーケティング施策の効果測定を可能にする統計的手法です。
これには、デジタル広告やSNSなどのマーケティングプラットフォームが生み出すビッグデータが活用されています。
外部データ取込みによる広告最適化
広告ビジネスにおけるビッグデータ活用として注目されているのが、DMP(データ・マネジメント・プラットフォーム)です。
DMPは自社が保有する1stパーティデータに加えて、DMP事業者が独自に入手・整理した3rdパーティデータを合わせ、一つのビッグデータとして分析できます(*1)。
2種類のデータの組み合わせにより広告最適化を促し、効率的なROI(投資収益率)向上を目指せます。
(*1)近年、個人情報保護意識の高まりから、Cookieのような個人に紐づくデータの取得が難しくなっています。パーソナルデータの利用に関しては企業としての指針を明確に決めておく必要があります。
▼ 個人データ利用の今後の見通しについては、こちらの記事も参考にしてみてください。
ビジネスでビッグデータを活用するための6つのシステム
前述したようなビッグデータ活用を実現するためには、データ分析を可能にするツール(手段)が欠かせません。マーケティング業界では、これらのツールが広告配信のような施策の実行まで担う場合もあります。
ここでは代表的な6つのシステムを紹介しますが、6つすべてが必要なのではなく、ビッグデータ活用の目的に応じて正しく取捨選択することが大切です。
1. BI(ビジネス・インテリジェンス)
BIとは、ビジネスを通じて生成されるデータを収集、加工、分析し、経営や現場の意思決定をサポートするシステムやプロセスの総称です。
データの収集・蓄積、集計・分析、レポーティングを得意とし、さまざまな形式でのデータ分析、データマイニング(探索)、レポート出力などの機能を提供し、意思決定の迅速化を促します。
2. DMP(データ・マネジメント・プラットフォーム)
膨大なデータを収集、蓄積し、他のシステムと連携することでビッグデータ活用を可能にするシステムです。
DMPといえば、一般的には、サービス・プロバイダが収集、蓄積した膨大な匿名データを利用できる「オープンDMP」を指します。このほか、社内のビジネスデータを収集・蓄積し、安全に管理できる「プライベートDMP」によるビッグデータ活用も進んでいます。
DMPを活用してセグメントしたユーザーごとに、広告配信やメール配信までできるため、One to Oneマーケティングが可能になります。近年の広告最適化には欠かせないシステムの一つです。
3. ERP(エンタープライズ・リソース・プランニング)
ERPとは、会計、販売、生産、在庫、人事など、企業の各部門のデータを統合データベースによって一元管理できる大規模な業務システムのことです。
ERPでカバーされた領域のデータをBIやDMPと連携することで、ビッグデータ活用の環境・基盤を作り出せます。
また、異なる業務間でのデータのやりとりが円滑になり、さらには企業の経営状況がリアルタイムで確認できるようになります。
データの処理効率アップ、最適で迅速な経営判断に寄与するビッグデータ活用のためのツールです。
4. MA(マーケティング・オートメーション)
MAとは、事前定義したシナリオと取り込んだ見込み客データにより、リードジェネレーション(見込み客の創出)とリードナーチャリング(見込み客の引き上げ)を可能にするシステムです。
オンラインとオフラインの見込み客データを分析しながら、事前に定義したシナリオをトリガー(きっかけ)にして、マーケティング施策の一部を自動化できます。
ビッグデータを活用したマーケティング業務の効率化を実現し、マーケターをクリエイティブな仕事に集中させることができます。
5. MMM(マーケティング・ミックス・モデリング)ツール
MMMとは、マーケティング関連のビッグデータを統合的に分析し、マーケティングの各施策が成果に与えた直接的な影響と間接的な影響を可視化する統計的手法のことをいいます。この仕組みを誰もが使えるよう、ツールに落とし込んだのがMMMツールです。
サイカが提供する「MAGELLAN(マゼラン)」はまさにMMMツールであり、広告効果の可視化・最適な予算配分のために、幅広い業界・業種の企業に導入されています。
6. RDBMS(リレーショナル・データベース・マネジメント・システム)
RDBMSとは、リレーショナル・データベースを管理するためのシステムです。
リレーショナル・データベースはテーブル形式でデータを保存できます。「Excelのようにテーブル形式でデータを保存するデータベース」と、シンプルに考えて差し支えありません。つまりは、ビッグデータのうち構造化データを管理できる環境・基盤のことです。
RDBMSはSQLというデータベース言語を使い、リレーショナル・データベースに保存されているデータをさまざまな形で処理できます。
ビッグデータに使われる主な分析手法
ビッグデータ活用は、ビジネスの目標から逆算し、適切な分析手法を選び、適切なデータを集め、分析することが大切です。
ここでは、ビッグデータに使われる主な分析手法を解説するので、これからデータ分析に携わる方は、ぜひ参考にしてみてください。
1. クロス集計分析
アンケートによって集計したデータを、細かい切り口で分析するための手法です。
たとえば、内閣の支持率を調査した場合、「支持するか否か」の単純集計ではなく、性別、年代別、都道府県別など、複数の項目とクロスさせて集計データを分析します。
一見するとシンプルな分析手法ですが、「何を軸に分析するか」によって導き出される結果が異なるため、データ分析の目的をハッキリさせておくことが大切です。
2. ロジスティック回帰分析
複数の説明変数(要因)から、「2値の目的変数(結果)」が起こる確率を予測・説明するための分析手法です。2値とは、「YESかNOか」のように、2つの目的変数しか存在しない値を意味します。
活用例として代表的なものがマーケティング施策のDM(ダイレクトメール)です。DMを経由して購入に至ったユーザーを「1」、購入しなかったユーザーを「0」として、ユーザーの購入確率を算出します。購入確率の高いユーザーに優先的にDMを送るようにすれば、効率よく成果につなげることができます。
3. アソシエーション分析
小売におけるPOS(販売実績)データをもとに、消費者の購買行動に関連性を見つけ出す分析手法を、アソシエーション分析といいます。
わかりやすく説明すると、「過去のPOSデータから、30代女性は商品Aを購入する可能性が高い」といった仮説を立てるための分析手法です。
アソシエーション分析をアルゴリズムに組み込むことで、ECサイトやVODサービスにおいて高度なレコメンド機能を実装できます。
4. クラスター分析
クラスター分析とは、母集団の中からデータごとの特徴を見つけ、データを分類した上で類似点と非類似点を明らかにすることで、分類したデータ(クラスター)の傾向を観察する分析手法です。
マーケティングやブランディングだけでなく、機械学習など幅広い分野に取り入れられている分析手法です。非構造化データの分析も可能であり、ビッグデータ活用において重視されている分析手法の一つでもあります。
5. 決定木分析
予測や判別、分類を目的としたデータマイニングの一種です。データマイニングとは、統計学や機械学習を用いて、ビッグデータから新しい知見を導き出すための技術を指します。
分析結果が樹形図になることから「決定木分析」と呼ばれています。
「Akinator」というスマホアプリをご存知でしょうか?いくつかの質問に答えるだけで、頭に浮かんだ著名人を言い当てられる、というアプリです。このAkinatorのアルゴリズムにも、決定木分析が使われています。
6. 主成分分析
たくさんの説明変数を持っているデータを集約し、新しく作成して変数(主成分)に置き換えて分析することで、データごとのパワーバランスを把握できます。
飲食チェーンの店舗分析を例に挙げると、来店客から集めたアンケート調査から、店舗ごとの総合力や、特定分野における能力などを分析できます。
どのような説明変数を用いて、どのような主成分で構成するかにより分析結果が大きく変わるため、分析のセンス・スキルが問われます。
7. MMM(マーケティング・ミックス・モデリング)
MMM(マーケティング・ミックス・モデリング)とは、マーケティング施策が成果に与える影響を定量化する統計学的な分析を意味します。マーケティング施策を実施することによる「他のマーケティング施策への影響 (間接効果)」や「成果への影響 (直接効果)」を数値化できるのがMMMの特徴です。
メディアやチャネルが多様化する中でマーケターに求められるのは、マーケティングの各施策の最適化だけではありません。複数のメディア・チャネルを使い、複数のマーケティング施策を同時並行で実施することが求められています。この状況で成果を最大化させるためには、施策同士の相乗効果を分析し、全体最適化によって成果を最大化することが重要です。
▼ MMMについては、以下の2記事で詳しく解説しています。データを武器にしたいビジネスパーソンにとっての必須ツールでもあるので、ぜひ参考にしてみてください。
クッキーレス時代、日本がマーケティングにMMMを取り入れるべき3つの理由
広告の正しい効果測定にマーケティング・ミックス・モデリングを使うべき理由
サイカが考えるビッグデータ解析の未来
ビッグデータという言葉がIT業界のトレンド入りを果たしてから、10年以上が経過しました。業界の中でも「もはや死語では?」という認識が、多からず浸透しています。にもかかわらず、ビッグデータについて当記事であらためて解説しているのはなぜか。
それは、ビッグデータが死語になっているどころか、ビジネスにおける重要性が年々増しているからです。
ビッグデータはいたるところに存在し、大企業だけのものではなく、中小企業でも十二分に活用できます。インターネット環境の整備と、SNSの爆発的な普及がそれを可能にしました。
しかし、企業側がそれに気づかず「ビッグデータをただ生成しつづけているだけ」という現状があります。ビッグデータを活用した業界の覇権争いは、すでにグローバル規模で始まっています。
ビッグデータへの感度が高い先進的な外資系企業は、データ分析システムを用いて一般的なビジネスパーソンをデータアナリストへと育てています。
データ分析の大部分はシステムと少数のデータサイエンティストに任せ、「現場視点で考えられるデータアナリスト」が、今後数年の間に生まれていくのです。ちなみにそのシステムというのが、前述した6つのシステムとなります。
日本でもようやく、IT人材育成プログラムが始まりました。しかしそれは「IT技術者を育てること」に重きを置いています。IT技術者不足は確かに深刻な社会問題ですが、それはシステムでカバーできる部分も多いでしょう。
大切なのは、ビジネスの目標と目的に応じて正しいシステムを選択し、システムから得られる分析データを用いて「現場視点で考えられるデータアナリスト」の存在です。
この動画では、ビジネスの現場で求められているデータ分析のスキルを話しています。ぜひ参考にしてみてください。
本記事を読まれたビジネスパーソンのみなさまには、「自社にとって本当に必要なIT人材とは」をあらためて定義してみていただきたいと思います。