統計学コラム

偏差値73.51!2013年・田中将大選手のスゴさを偏差値で見る|野球の統計学

セイバーメトリクスと呼ばれる野球の統計学をご存知ですか?田中将大選手が2013年に記録した成績を偏差値として表すと「73.51」。そのヤバさを統計学的に見ていきましょう。

※この記事は、2014年に公開した内容を一部編集したものです。

田中将大選手のヤバさを標準化変量からみてみた

野球の統計学

『マネー・ボール』という映画をご存知でしょうか?2011年に公開された映画で、オークランド・アスレチックスのチーム再建を目指すストーリーとなっています。この映画では、セイバーメトリクスと呼ばれる”野球の統計学”を駆使したチーム再建が行われました。

セイバーメトリクスとは、例えば「打率の良いバッターよりも出塁率の良いバッターを重視した方が得点に結びつく」とか、「得点の期待値を換算すると送りバントは得点の期待値を下げるため支持されない」など、野球を統計的に科学した研究領域を指します。このセイバーメトリクスは、メジャーリーグ(以下、MLB)では積極的に活用されており、日本プロ野球(以下、NPB)でも少しずつ浸透しつつあります。
そこでマーケのネタ帖でも、セイバーメトリクスに倣ってNPBを統計的に分析してみました。

分析するのは、マー君こと田中将大選手のデータ。現在、MLBのニューヨーク・ヤンキースで活躍しています。
2013年には24勝0敗という驚異的な記録を残して楽天史上初の日本一に貢献しました。楽天の星野監督(当時)はこの記録を「100年経っても破られないだろう」とベタほめ。この記録がどれだけ凄かったかが表れていますね。
では、2013年の田中選手がどれだけヤバかったのか、統計学の観点から明らかにしてみたいと思います。

分析に先立って:データの出所

今回分析に使用したデータは日本プロ野球機構オフィシャルサイトで公開されているデータです。ここでは、2005年から現在に至るまでの各年ごとの選手の成績や観客動員数等のデータが公開されています。この中から、各シーズンのセパ両リーグの規定投球回数に達しているピッチャーのデータを使用します。(※1)

検証手法:「ヤバい」はどうやってデータで分析するか?

「ヤバい」を統計学的に表現するために、今回は偏差値をつかいます。

偏差値は全体的に平均から大きく散らばっているようなデータの場合、仮に平均から離れていたとしてもあまり大きな値にはなりません。逆に、全体的に平均近くにまとまっているデータの中で一人だけ平均からかけ離れていると大きな値になるという特徴があります。
標準化(※2)の指標の中でも「偏差値(※3)」はなじみがありますよね。

また、今回指標として用いるのが「防御率」です。
勝ち星や勝率などで測るのも良いですが、これらは「登板した試合の味方の得点」や「エラーによる失点」など、投手の責任ではないことに左右されがちです。そのような投手自身の能力以外による影響を取り除くという観点から、今回は防御率を使用して検証します(※4)

さて、結果は……?

2013年の田中将大はやはりヤバかった! では、9年間の成績で見てみると……?

田中将大選手のヤバさを標準化変量からみてみた

2013年の田中選手の偏差値は「73.51」でした!高校の模試の偏差値に換算したら東大レベルでしょうか。とにかくすごい値です。

田中選手の次に偏差値が高かったのはオリックスの金子千尋選手の64.15、3位が西武の牧田和久選手の56.68となり、2位の金子選手との偏差値の差は10近くあります。これは、他の追随を許していないという点で、非常にヤバい結果であると言えそうです。

では、次に9年間セパ両リーグ(すなわち計18個のデータセット)でそれぞれ偏差値を計算し総合ランキングを作成してみます。

田中将大選手のヤバさを標準化変量からみてみた
※順位は年度・リーグの順位

総合ランキング1位は、やはり2013年の田中選手でした。過去9年間で一番のヤバさだったわけです。
ところが、2位は中日のウェイン・チェン選手(2009年)で、偏差値は73.84。ダントツと思われた田中選手(2013年)の偏差値と0.67しか差がありません。さらに、3位はダルビッシュ有選手(2010年)の72.61で、これも田中選手(2013年)と偏差値が2弱しか変わりません。

すなわち田中選手(2013年)の成績は、9年間の中で見てみるとダントツ!というわけではなかったのです。
チェン選手(2009年)とダルビッシュ選手(2010年)の防御率それ自体は田中選手(2013年)に劣っているように見えますが、標準化して比較すると同様にヤバかったということが言えます。

「飛ばないボール」の年は偏差値が低い

さらに田中選手は、2011年のシーズンでも2013年と同じく防御率1.27を達成しています。
総合ランキングで見てみると、2011年の田中選手の偏差値は69.28で7位であることがわかります。同じ防御率1.27なのに、なぜ偏差値が変わってくるのでしょうか?

それは、2011年は「飛ばないボール」と言われる統一球を使用していた事で、ピッチャー全体の防御率が例年に比べて低かったことから起因しています(同様に、2012年にも統一球が使用されたため、2011年と2012年のピッチャー全体の防御率は他の年に比べて低いです)。全投手の平均が低かったため、田中選手の防御率(1.27)も際立たなかったということです。

田中将大選手のヤバさを標準化変量からみてみた
田中将大選手のヤバさを標準化変量からみてみた

同じく、2010年と2011年のダルビッシュ選手の防御率も非常に興味深い結果となっています。
2010年と2011年のダルビッシュ選手の防御率はそれぞれ1.78と1.44となっており、2011年の方が防御率が良い結果と見えますね。ところが、偏差値換算するとそれぞれ72.61、66.69となっており、2010年の方が成績が良いという逆の結果になりました。すなわち、真の「ヤバさ」を見るためには、防御率を単体で見るよりも、偏差値などで標準化して比較する事が重要となります。

偏差値で分析すれば見えること

今回の検証を通じて分かったポイント。
2013年の田中選手の「ヤバさ」は、2013年のパ・リーグに限定すると群を抜いた数字でした。しかし、過去9年間18リーグの中で見ると実は際立って群を抜いていたというわけではなかった、ということです。

また、このような「ヤバさ」を検証する際には、実際の値よりも標準化した値を使用する方が適していることが分かりますね。標準化した値を使用するときの条件としては、平均が違っていたり、分散が違っていたりする時が該当します。

仕事の分析に疲れたら、趣味や好きなことのデータを分析してみるのも気分転換になりますよ!


※1:規定投球回数は、執筆時の2014年のときのルールに基づいています。(シーズンの試合数と定義)。例えば、ある年の試合数が144試合であれば、規定投球回数が144回となり、144回以上投げているピッチャーが対象となります。結果的に、基本的に1年間ローテーションを守り続けた各チームの先発ピッチャーに限られ、1リーグあたりおよそ10〜20人くらいのピッチャーが規定投球回数を満たします。
※2:標準化とは、あらゆる平均や分散を持つ分布を全て平均0、標準偏差1に変換することです。標準化を行うことで、各シーズンのリーグの平均や分散が異なっていても平均0、標準偏差1に統一されるため比較可能になります。
※3:偏差値は、平均50、標準偏差10に標準化した値です。
※4:一方、防御率が悪くても勝ち星や勝率が高い投手は、たとえ防御率が悪かったとしても、打線の援護のみならず投手として最大のミッションである勝利を多く(勝率であれば高い確率で)もたらしているという点で、勝ち星や勝率を用いるべきだ、という考え方もあります。従って、防御率が絶対的に良い指標であるとは断言できないことをあらかじめ断っておきます。