Rによるセイバーメトリクス入門
今回ご紹介する本は 「Rによるセイバーメトリクス入門」です。
こちら、技術評論社さんから2020年11月に出版された単行本になります。
著者は海外のMax Marchi, Jim Albert, Benjamin Baumerです。翻訳者がTsuyuzakiさんとNishiwakiさんです。
あらすじ
このRによるセイバーメトリクス入門は全部で1〜12章までと付録としてA〜Cまでの構成となっています。
第1章・・・野球のデータセットについて解説されています。
この本では4種類の無料で使えるでターセットを利用して解説してくれています。
- The Lahman database 2. Retrosheet 3. PITCHf/x 4. Baseball Savant/ Statcast
それぞれのデータセットには特徴があるのですが、ざっくりと説明すると
- シーズンごとのデータ(The Lahman database)
- 試合ごとのデータ(Retrosheet)、打席ごとのデータ(Retrosheet)
- 投球ごとのデータ(PITCHf/x)
- プレイヤーの動きと打球のデータ(Baseball Savant/ Statcast
といったデータとなっています。
(※この記事を書いている時点では、PITCHf/xのデータをうまく利用できませんでした。データ参照の際にはご注意ください。)
これらのデータは非常に膨大なデータ量になるのですが、こちらを利用して後々の章では解析を進めていきます。
2章3章・・・Rの使い方について
Rとは…統計解析向けのプログラミング言語のことです。
オープンソースという無料で使えるツールでもあります。
Rを使うメリット(Rが得意とすること と言いますか)は統計計算とデータの可視化です。
近年データ収集量は膨大となり、データの質も向上しており、またそれらのデータはインターネット上に公開され、誰でもアクセスできるようになっています。
そういった一般に公開され、誰でも利用できる野球データとオープンソースのRは魅力的な組み合わせであります。
また、著者らは2014年にいくつかのMLBチームにアンケートをとったところ、以下のような回答であったようです。
・RやMySQL、Oracle、Perl、PHPを使っています
・Rをかなり活用していて、Rが私たちの主要な分析ツールです。他の有名なツールといえばExcelくらいです
・PythonでNumPyを使う例外を除いて、Rは我々が使う唯一のプログラミング言語です
・分析用途でRとExcelを使っています
はじめにより ページiv
そのような実践でも使われているRというツールの使い方を2章3章を読めば理解できるようになっています。
4章〜12章・・・実際のデータを利用した解析
4章以降は実際のデータを利用して解析方法を解説しています。
データを読み込み、そこにコマンドを入力して新しいデータを作ってという具合です。
この本パッと目次を見て…もう大興奮間違いなしです。
ピタゴラス勝率、得点期待値、フレーミング、パークファクター、Statcastなどの言葉がならんでいます。これらの解析ができるなんて、、、と思うこと間違いなしでしょう。
タイトルの意味
この本のタイトル、「Rによるセイバーメトリクス入門」
Rというのは、統計解析のためのオープンソースなプログラミング言語です。統計解析とデータの可視化を得意とする言語になります。膨大なデータをスムーズに解析できてしまいます。
しかも無料です。
大規模なデータを効率的に解析できるため、医学系の研究にも使われます。以前、僕も使っていました。
患者さんのデータが100人分ぐらいあってそれを解析します。ただその時はあんまりよくわかっていなかったんですけどね。
セイバーメトリクスとはSABRmetricsと表記され、SABR+metricsという造語です。この造語を作ったのはかのビルジェームズです。
SABRは Society for American Baseball Research=アメリカ野球学会の略です。metricsは解析という意味です。
この本を読み、Rを使ってセイバーメトリクスの世界に飛び込んでみましょう。
読むきっかけ
私はこの本を偶然みつけたようなきがします。ネットで見つけた気がしますが、、、あまり覚えてはないですね。
ただ、発売前に見つけて即予約した覚えがあります。本が届くのを待ち侘びていましたね。
というのもこの当時、マイブームでプログラミングの勉強していたんですね。休みの日なんかにちょこっと。
ただ、プログラミングするにはある程度目的が必要で、ゲームを作るとか、アプリを作るとか、、、そういった思いはあまり無かったんですね。
そんな時に、この本に出会ったのでRとう言語があるんだ、これを学べば野球のデータを解析できるんだっていのがわかったんですね。
しかもこの本の発売当時は2020年の夏。ということでコロナ禍真っ只中だったんですよね。完全に自粛の時代で野球もやってなくて。
そういう意味でも野球に飢えていましたよね。NHKBSで過去の名試合をひたすら流したりしていたときですからね。
そして、この時僕自身は大学院に行っていたのですが、ちょっとうまく行っていなくて。。研究室でこっそり隠れてこの本よんでいました(笑)
そういう意味でも、いろいろと思い入れのある1冊です。
展開・よみやすさ
最初この本を手にとったときのワクワクと言ったらないでしょう。
まず表紙にも、セイバーメトリシャン、熱烈な野球ファン、野球データの探求に興味のある学生に向けたデータ分析ガイドと書いてあります。
そして、ぱらぱらと目次を見てみると、得点と勝利の関係という項目があったり、ボール球とストライク球の効果とか、
シミュレーションとかStatcastの打球データとか、もう胸が高まりましたよね。
そして、最初から読み進めてみます。説明もしっかりと書かれていて、Rのダウンロードから解析まで一通りできるようになっています。
早く先に、進みたい進みたいという思いに駆られますね。
けど、内容は難しいです。行っている操作を理解できているかは怪しかったです。
それでも、何度も何度も読み返してみると理解が深まります。コマンドの1つ1つの意味がわかってきたりして、
読むたびに新たな発見があります。
そういった意味でこの本は何度も読み返していってほしい本になります。
おすすめの人
野球大好きな人にはぜひ読んでほしいです。データ分析に興味がなくてもよいです。この本を読むと野球の見方が変わってしまうでしょうが。
得点と失点に勝利との関係性があるということや、アウトカウント・ランナーの状況での期待される得点をわかったり、、、
これまで見て生きた野球観は変わってしまうので、、、危険! とも言えるでしょう。
あとは、パソコン操作が苦手でない人におすすめです。
Rのインストールの仕方や操作の方法は書かれていますが、そもそもそこを理解出来なと少し苦労すると思います。
ただ、PC操作に苦を感じない人にとっては、ずんずん進めることができますので、
やはり自分で解析してなんぼでもあると思います。
大谷翔平の打球方向や、アルトゥーベの価値を調べたり、プロホルスの700号への道のりを調べたりできちゃうので
ぜひ皆さんに読んでほしいです!