田中将大選手のヤバさを標準化変量からみてみた

田中将大選手のヤバさを標準化変量からみてみた

野球の統計学

『マネー・ボール』という映画をご存知でしょうか?2011年に公開された映画で、オークランド・アスレチックスのチーム再建を目指すストーリーとなっています。この映画では、セイバーメトリクスと呼ばれる”野球の統計学”を駆使したチーム再建が行われました。

セイバーメトリクスとは、例えば、「打率の良いバッターよりも出塁率の良いバッターを重視した方が得点に結びつく」とか、「得点の期待値を換算すると送りバントは得点の期待値を下げるため支持されない」など、野球を統計的に科学した研究領域を指します。このセイバーメトリクスは、メジャーリーグ(以下、MLB)では現在積極的に活用されており、日本プロ野球(以下、NPB)でも少しずつ浸透しつつあります。そこでサイカでは、セイバーメトリクスに倣ってNPBを統計的に解明しようということで、NPBのデータを様々な角度から分析していきたいと思います。

第一弾となる今回は、やっぱりこの人。マー君こと田中将大選手の分析です。昨年、24勝0敗という驚異的な記録を残して楽天史上初の日本一に貢献しました。楽天の星野監督はこの記録を「100年経っても破られないだろう」と言い放ったところに、この記録がどれだけ凄かったかが表れています。そこで今回、2013年の田中選手がどれだけ”ヤバかった”のか、統計学の観点から明らかにしてみたいと思います。

分析に先立って:データの出所

今回分析に使用したデータは日本プロ野球機構オフィシャルサイトで公開されているデータです。ここでは、2005年から現在に至るまでの各年ごとの選手の成績や観客動員数等のデータが公開されています。この中から今回は、各シーズンのセパ両リーグの規定投球回数に達しているピッチャーのデータを使用します(※1)

検証手法:「ヤバい」はどうやってデータで分析するか?

2013年の田中選手がどれだけヤバかったかを検証するためには、この「ヤバい」ということについて統計学的な言葉に変換する必要があります。さまざまな変換の方法がありますが、今回は、標準化(※2)の指標の中でもなじみのある「偏差値(※3)」を用いて比較したいと思います。

偏差値は、全体的に平均から大きく散らばっているようなデータでは、仮に平均から離れていたとしてもあまり大きな値にはならず、逆に全体的に平均近くにまとまっているデータの中で一人だけ平均からかけ離れていると大きな値になるという特徴があります。

また、今回指標として用いるのが「防御率」です。勝ち星や勝率などで測るのも良いですが、これらは「登板した試合の味方の得点」や「エラーによる失点」など、投手の責任ではないことに左右されがちです。そのような投手自身の能力以外による影響を取り除くという観点から、今回は防御率を使用して検証します(※4)

2013年の田中将大はやはりヤバかった!ただし…

それでは、偏差値を使いながら2013年の田中選手はどれほどヤバかったのか、結果を見てみましょう。

田中将大選手のヤバさを標準化変量からみてみた

2013年の田中選手の偏差値は「73.51」でした!高校の模試の偏差値に換算したら東大レベルでしょうか…とにかくすごい値です。

田中選手の次に偏差値が高かったのはオリックスの金子千尋選手の64.15、3位が西武の牧田和久選手の56.68となり、2位の金子選手との偏差値の差は10近くあります。これは、他の追随を許していないという点で、非常にヤバい結果であると言えそうです。

では、次に9年間セパ両リーグ(すなわち計18個のデータセット)でそれぞれ偏差値を計算し総合ランキングを作成してみます。

田中将大選手のヤバさを標準化変量からみてみた
※順位は年度・リーグの順位

ここでも田中選手のヤバさは際立つのではないか?と思いましたが、意外な結果が出ました。総合ランキング1位は、やはり2013年の田中選手でした。過去9年間で一番のヤバさだったわけです。ところが、2位は中日のウェイン・チェン選手(2009年)で、偏差値が73.84でした。ダントツと思われた田中選手(2013年)の偏差値と0.67しか差がありません。さらに、3位はダルビッシュ有選手(2010年)の72.61で、これも田中選手(2013年)と偏差値が2弱しか変わりません。

すなわち、田中選手(2013年)の成績は、9年間の中で見てみると実はダントツというわけではなかったのです。チェン選手(2009年)とダルビッシュ選手(2010年)の防御率それ自体は田中選手(2013年)に劣っているように見えますが、標準化して比較すると同様にヤバかったということが言えます。

「飛ばないボール」の年は偏差値が低い

さらに、実は偶然にも田中選手は2011年のシーズンでも防御率1.27を達成していました。しかしながら、総合ランキングで見ると、興味深いことに2011年の田中選手の偏差値は69.28で7位でした。2013年と同じ防御率1.27なのに、なぜこんなにも偏差値が変わってくるのでしょうか?

それは、2011年は「飛ばないボール」と言われる統一球を使用していた事で、ピッチャー全体の防御率が例年に比べて低かったことから起因しています(同様に、2012年にも統一球が使用されたため、2011年と2012年のピッチャー全体の防御率は他の年に比べて低いです)。全投手の平均が低かったため、田中選手の防御率(1.27)も際立たなかったということです。

田中将大選手のヤバさを標準化変量からみてみた
田中将大選手のヤバさを標準化変量からみてみた

同様に、2010年と2011年のダルビッシュ選手の防御率も非常に興味深い結果となっております。2010年と2011年のダルビッシュ選手の防御率はそれぞれ1.78と1.44となっており、2011年の方が防御率が良い結果となっています。ところが、偏差値換算するとそれぞれ72.61、66.69となっており、2010年の方が成績が良いという逆の結果になりました。すなわち、真の「ヤバさ」を見るためには、防御率を単体で見るよりも、偏差値などで標準化して比較する事が重要となります。

偏差値で分析すれば見えること

今回の検証を通じて分かった事は、2013年の田中選手の「ヤバさ」は、2013年のパ・リーグに限定されれば群を抜いた数字でしたが、過去9年間18リーグの中で見ると実は際立って群を抜いていたというわけではなかった、ということがわかりました。

また、このような「ヤバさ」を検証する際には、実際の値よりも標準化した値を使用する方が適していることが分かりました。標準化した値を使用するときの条件としては、平均が違っていたり、分散が違っていたりする時が該当します。

※1:現在NPBでは、規定投球回数はシーズンの試合数と定義されています。例えば、ある年の試合数が144試合であれば、規定投球回数が144回となり、144回以上投げているピッチャーが対象となります。結果的に、基本的に1年間ローテーションを守り続けた各チームの先発ピッチャーに限られ、1リーグあたりおよそ10〜20人くらいのピッチャーが規定投球回数を満たします。
※2:標準化とは、あらゆる平均や分散を持つ分布を全て平均0、標準偏差1に変換することです。標準化を行うことで、各シーズンのリーグの平均や分散が異なっていても平均0、標準偏差1に統一されるため比較可能になります。
※3:偏差値は、平均50、標準偏差10に標準化した値です。
※4:一方、防御率が悪くても勝ち星や勝率が高い投手は、たとえ防御率が悪かったとしても、打線の援護のみならず投手として最大のミッションである勝利を多く(勝率であれば高い確率で)もたらしているという点で、勝ち星や勝率を用いるべきだ、という考え方もあります。従って、防御率が絶対的に良い指標であるとは断言できないことをあらかじめ断っておきます。

この記事を書いた人