セイバーメトリクス

Rによるセイバーメトリクスをじっくり学ぶ Retrosheetについて

Retrosheetとは

1989年に設立されたボランティア団体です。

MLBで行われた全試合のプレーごとのデータ収集を目的として、

Delaware大学のDavid Smith教授によって設立されました。

1871年からの試合ごとのデータ そして、

1921年シーズンから全ての打席ごとのデータをもっているとのことです!

これらのデータは現在のセイバーメトリクスの発展に大きく寄与したことは言うまでもないでしょう。

Retrosheetで見れるデータについて

Retrosheet (https://www.retrosheet.org/)にアクセスすると、いろいろデータが見られることがわかります。

このようにタブで表示されていて、それぞれデータをみることができます。

Games, People, Parks

この項目ではそれぞれのシーズンの結果、個別のチームの結果など総合的なデータを網羅しています。

歴代の選手名鑑もあり、その選手の生涯成績を見ることができます。

例えば、アーロン・ジャッジ選手のページは下のような感じになっています。

Data downloads

Retrosheetには解析で使えるような、テキストファイルとしてデータを格納されています。

その中には、試合ごとのデータGame logs や打席ごとのデータEvent filesなどもあり、また試合日程のデータやチーム移籍のデータもあります。

この中のGame logsや、Event filesはRによる解析のツールとして有用で、後程使っていくことになります。

試合ごとのデータ Game Logs

Retrosheetで確認できる試合データは1871年まで遡ることができます。

Game Logsには試合ごとのデータが網羅されています。

いつ試合が行われたのか、何人の観客を動員したか、チーム、球場、スコアといった試合内容に関わるデータを持っています

さらには、チームの打席、守備成績、スタメンデータ、監督や審判のデータまで含まれています

こちらのサイトからGame Logとしてダウンロードすることができます。

https://www.retrosheet.org/gamelogs/index.html

実際データをダウンロードしてみると、、、

テキストファイルとして膨大なデータが入手できます

で、こちらのデータの羅列は161項目で構成されています。その試合のデータとなっています。

それぞれの項目については、ページ内に説明があります。

https://www.retrosheet.org/gamelogs/glfields.txt

こちらのテキストデータは、なんらかの方法を利用して使用できる状態に加工できるということ。ですが、それは後ほど。。。

このデータを利用すると

・1試合ごとの本塁打の推移

・ある伝説的な試合の観客数

・審判ごとの平均得点 なんてことも計算できます!

打席ごとのデータ Event files

retrosheetには1921年以降のほぼ全て試合の全ての打席ごとのデータが収納されています。

Event filesには試合中に発生した全ての打席の情報が含まれます。イニング、攻撃中のチーム、アウトカウント、ランナーの状況、出場プレイヤー、ピッチャーのバッターに対する投球順、などが含まれます。

例えば、打球が発生した場合、それがヒットかどうか、打球はゴロかフライか、誰が補給したのかという情報をもっています。

こちらのサイトからEvent files としてデータをダウンロードすることができます。

https://www.retrosheet.org/game.htm

実際にデータを見ると、Game logsと同様膨大なデータが入手できます。

このデータを利用すると

・ランナーがいる状況での打撃成績

・カウントごとの打撃成績など求められます。

そしてなんと言っても、得点期待値や打者の得点価値などを計算で求められますので、これから実際に計算をしていきましょう!

-セイバーメトリクス