データサイエンスとは|データのプロがわかりやすく解説【初学者におすすめの書籍3選】
データサイエンス(data science)という言葉を「聞いたことがない」という方はいないのではないでしょうか。データの重要性が叫ばれている現代ビジネスにおいて、市場競争を勝ち抜くために欠かせない要素の一つです。
データサイエンスとは、データを使って有益な知見を引き出そうとするアプローチ全体のことを言い、統計学ともデータアナリティクスとも少し違います。この記事ではそんなデータサイエンスについて、初学者の方向けにわかりやすく解説していきます。
データ分析に携わるビジネスパーソンや、データサイエンスに興味がある方は、ぜひ参考にしてみてください。
データサイエンスとは? 意味と定義
データサイエンスとは、企業が保有している膨大なデータを解析し、ビジネスの利益になる知見を導き出すためのアプローチです。
サイカはこれまで一貫して「データは答えをくれない」と言い続けてきました。データとは色がなく無機質なもの。データがあるだけでは答えを得られません。
ではどうすべきか。人がデータに色をつけ命を吹き込む必要があります。すると、色がなく無機質だったデータが、さまざまな知見を教えてくれるようになります。
ここでいう「データに色をつける」「命を吹き込む」という部分が、データサイエンスの得意領域です。
具体的には、統計解析、データの図表化、機械学習などを用いて、膨大なデータの収集・整理・加工・分析を効率よく行い、データの分析結果からビジネスの利益になるような知見を導き出すことで、データをビジネスの強力な武器にしていきます。
2011年に公開されたノンフィクション映画『マネーボール』では、米メジャーリーグの弱小球団に所属しているゼネラル・マネージャーが、独自の切り口で球団にメスを入れ、低予算で強豪球団に改革するまでの姿が描かれています。この映画で使われているのが、まさにデータサイエンスです。
データサイエンスと〇〇の違い
データ分析にかかわる用語は多いため、データサイエンスとその他の用語を混同している方も少なくないでしょう。たとえば「統計学」は、データサイエンスと混同されやすい用語です。
もともとは同じ意味合いで使われていた用語も、時代の流れによって少しずつ変化し、今では独立した用語として使われています。データサイエンスもそんな用語の一つです。
ここでは、データサイエンスと混同しやすい「統計学」「ビジネス分析」「データアナリティクス」との違いを解説します。すべてを完全に分けて説明するのは難しいのですが、ここでは「データサイエンス」の解像度を高めるため、便宜的にそれぞれの違いと関連性を整理してみます。
統計学との違い
統計学とは、性質にばらつきのあるデータに対し、応用数学を用いて、共通する性質や規則性、または不規則性を見つけるための学問です。
たとえば、コンビニやスーパーのレジには、購入された商品と単価、合計金額、購入した人の年齢層、性別などのPOSデータ(販売実績データ)が記録されています。
膨大なPOSデータを分析すれば、最適な仕入のタイミングや仕入量、季節的な需要などを予測可能です。この分析システムに統計学が取り入れられています。
一見するとデータサイエンスと同じようにも思えますが、統計学がデータを扱う一つの手法だとすれば、データサイエンスは、統計分析などの手法を用いてビジネスに有益な知見を引き出そうとするアプローチ全体を指します。
統計学については、『【初心者向け】統計学ってどんな学問? 身近な事例から統計学にできることを解説』で詳しく解説しているので、本記事と合わせて参考にしてみてください。
ビジネス分析との違い
ビジネス分析とは、データサイエンスに包括されている分野の一つです。ビジネスに特化し、主に構造化データを用いて売上予測などを行い、ビジネス上の意思決定を促すのに役立ちます。ビジネスの現場では、MMM(マーケティング・ミックス・モデリング)やBI(ビジネス・インテリジェンス)を導入し、ビジネス分析を行う場合が多いです。
MMMとは、マーケティング施策の直接的なROI(投資利益率)や、複数施策に対する間接的な効果を把握するための統計的手法です。テレビCMのように効果が見えづらいオフライン広告の効果可視化や、一つの成果に対してどの施策がどのくらい影響を及ぼしたのかといった施策同士の関係性を統合的に考慮して分析できるので、正しい効果測定とマーケティング施策の最適化に活かせます。
一方、BIとは、経営意思決定を促すためのシステムです。BIに収集・蓄積されたデータはレポートとして自動的に出力され、リアルタイムデータを観察しながら経営について議論ができます。
データアナリティクスとの違い
データアナリティクスとは、統計的手法を用いて、主に構造化データを分析するためのプロセスです。このデータアナリティクスも、データサイエンスに包括されている分野の一つだといえます。
データサイエンスとデータアナリティクスの違いを、「エンジニア寄りか、ビジネス寄りか」で解釈する場合もあります。データサイエンスが統計的手法やプログラミングなど幅広いスキルを用いるのに対して、データアナリティクスは統計的手法を用いるのに限定して語られることもあります。ただ、この境界は企業によって異なります。
データサイエンスが注目された背景
近年、データサイエンスに対する注目度が急激に上がっています。以下のグラフは、Googleトレンドで「データサイエンス」の人気指数をチェックしたものです。
Googleトレンドによれば、データサイエンスの注目度は今もなお上がりつづけています。そこにはどのような背景があるのか? 考えられる3つの理由を解説します。
AI、機械学習の存在感の高まり
AIや機械学習といった分野が、一過性のトレンドでなかったことは、現代ビジネスのさまざまな分野で証明されています。近年ではChatGPTが話題になっているように、AIや機械学習は今後も急速な成長が見込まれる分野です。
AIや機械学習の存在感の高まりとともに、データサイエンス熱も少しずつ上昇してきました。AIや機械学習を使ったサービスからは膨大なデータを収集できます。そこからさらに新しい知見を導き出すためには、データサイエンスが欠かせません。
データサイエンティストに対する評価
2012年、経営学誌のハーバード・ビジネス・レビューは、データサイエンティストを「21世紀で最もセクシーな職業」として紹介しました(*1)。当時は、データサイエンティストを神聖視するような意見も見られるほど、データ界隈は熱狂したものです。
あれから10年以上が経過し、データサイエンティストに対する評価はさらに上がっています。たとえば、カリフォルニア州における優秀なデータサイエンティストの年収中央値は20万(約2,700万円)ドルに近づいています(*2)。
データ発展途上国と呼ばれる日本では、残念ながらまだこの値には達していません。しかし、データ分析に敏感な企業は、すでに多額の投資によって優秀なデータサイエンティストを集めようとしています。
(*1)Data Scientist: The Sexiest Job of the 21st Century|Harvard Business Review https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
(*2)Data Science Manager Salary in California | Salary.com https://www.salary.com/research/salary/benchmark/data-science-manager-salary/ca
ビッグデータ、クラウドの概念が生まれる
ハーバード・ビジネス・レビューの情報からさらに遡ると、ビッグデータやクラウドといった概念が生まれた2006年頃から、データサイエンスへの注目度が上がり始めていることが分かります。
AWSやGAE(現GCP)などのクラウドサービスが次々に登場し、大規模なデータ処理を行うための環境を素早く立ち上げられるようになりました。それに伴いデータサイエンスを実践するための環境が整備され、データサイエンティストの活躍する場が大きく広がっていきました。
データサイエンティストの役割とは
データサイエンスを駆使し、ビジネスの利益になる知見を導き出すデータサイエンティストは、主に次のような役割があります。
● ビジネス責任者からデータ分析目標をヒアリングする
● データベースエンジニアと連携してデータを収集する
● データクレンジング、データモデリングを行う
● データモデルの精度検証を行い、モデルを決定する
● データ分析機能を実装する
● データ分析の結果をレポート・説明する
● 必要に応じてデータモデルの精度検証を繰り返す
データサイエンティストと聞くと、ひたすらデータに向き合っているイメージがあるかもしれませんが、ビジネス責任者やその他の関係者とコミュニケーションを取る時間も少なくありません。
そのため、優れたデータサイエンティストは、統計スキルだけでなく高いビジネスコミュニケーション能力を備えています。
データサイエンティストに求めらるれるスキル
データサイエンティストとして活躍するためには、次のようなスキルが求められます。
● 応用数学
● 統計学
● データエンジニアリング
● コーディング
● データモデリング
● データクレンジング
このほか、ビジネススキルとしてコミュニケーション能力、マネジメント能力、ドキュメント作成能力、コンサルティング能力なども求められます。
データアナリストとの違い
データアナリストは、データサイエンティストに並ぶデータ分析の専門家です。企業が保有している膨大なデータを解析し、高速な意思決定を促したり、ビジネスの利益になる知見を導き出すなどの使命は共通しています。
その一方で、データアナリストは「分析結果をビジネスに応用する」という点に比重が置かれています。データサイエンティストが「データ分析における総合職」なら、データアナリストは「ビジネスに特化した専門家」です。
したがって、データサイエンティストには大学(大学院)で統計を学んだ方が多いのに対し、データアナリストには、統計を学び、事業部門からキャリアチェンジした方も多い傾向にあります。
データアナリストがお勧めする初学者向け書籍3選
最後に、サイカのデータアナリストとCRO(Chief Research Officer)がおすすめする、初学者向け書籍を3冊ご紹介します。
『分析者のためのデータ解釈学入門 データの本質をとらえる技術(江崎貴裕/ソシム)』
データサイエンスを実務で扱う上で重要なことの1つは、データの性質を正しく把握した上で分析を行うことです。データサイエンス、データ分析というと、その手法やコーディングに注目しがちですが、適切なデータがなければ始まりません。そして、分析結果が現実世界の何を表すのかを数値から読み解く必要があります。
本書はデータサイエンスでおろそかになりがちな重要なポイント「分析の前後」を網羅的に取り扱った書籍です。データサイエンスを実務で武器にしようと思われた方は、ぜひ最初の一歩として本書を読んでいただくことをおすすめします。
(株式会社サイカ 事業本部 Analysis部 研究課 課長 兼 事業本部 Analysis部 Analysis1課 課長・高木 基伸)
『本質を捉えたデータ分析のための分析モデル入門 統計モデル、深層学習、強化学習等 用途・特徴から原理まで一気通貫!(杉山聡/ソシム)』
こちらは、初歩的な統計分析手法から機械学習など発展的な分野にも触れていたりと、広範囲かつ網羅的にデータサイエンスに触れられる書籍です。
重回帰分析やロジスティック回帰分析、因子分析、クラスター分析など、ビジネスでの活用が良くなされる手法に加え、深層強化学習など最近話題に上がるような各分析手法の概要の解説や利用用途、解釈などが簡潔にまとまっており、データ分析を今後学んで行きたい人には必読の一冊かと思われます。
(株式会社サイカ 事業本部 Analysis部 Analysis2課 課長・永井 佑典)
『ベイズ統計モデリング: R,JAGS, Stanによるチュートリアル 原著第2版(John K. Kruschke (著), 前田 和寛 (翻訳), 小杉 考司 (翻訳)/共立出版)』
この本は一見するとゴツくて初心者向けではない印象を受けるかもしれません。しかしそれは誤解です。騙されたと思って開いて読んでみてください。非常に丁寧に、冗長なくらいの例を交えて分かりやすく説明してくれています。確率という概念の基礎から MCMC による近似推定の基礎理論、R や Stan を用いた実装方法、そして統計的検定をベイズ推定で置き換える方法をこの本一冊で学べます。
(株式会社サイカ 執行役員CRO/開発本部 Research部・村田 賢太)
おわりに
データサイエンスの需要は、今後さらに加速していきます。それに伴い、データサイエンティストやデータアナリストが企業で担う役割もさらに大きくなっていくでしょう。
キャリアアップを検討しているビジネスパーソンは、「事業部門での経験を活かした特化型のデータアナリスト」を目指すという選択肢があることも忘れないでください。
データ分析をビジネスで活かせる人材になるためのヒントをこちらの動画でも紹介しています。ぜひこちらも参考にしてみてください。