baseballrによるMLBデータの抽出と階層ベイズモデルによる打率の推定 / TokyoR118

baseballerによるMLBデータの抽出と階層ベイズモデルによる打率の推定森下光之助 (@dropout009) Tokyo.R 118 2025/06/21

森下光之助 (@dropout009) ドカベン、H2、ONE OUTS、リトルバスターズ、サンキューピッチなど数多の文献から野球を独学「スクイズの時の小フライはいかなる場合でもインフィールドフライにはならない」「代打バースと早口で言うとおはようございますに聞こえる」「大谷翔平はおむすびのおいしい国に生まれた」
など、広く深いドメイン知識を持つ自己紹介 2

1. baseballrパッケージによるMLBデータの抽出 2. 階層ベイズモデルによる打率の推定 3. まとめ目次 3

シーズンの途中までの成績から、選手のシーズン終了時点の打率を予測するという問題に取り組む（他に追加情報がないなら）単純にシーズン途中の打率でそのまま予測するしかないように思える実際は、シーズン途中の打率は打数が少なく安定していないので、シーズン終了時点の打率をうまく予測できないこの問題を克服するために、階層ベイズモデルで打率を推定する。各選手の打率を予測する際に、他の選手の情報を利用することで、打率の予測精度を向上させることを狙う本日お話する内容
4

打率は、打数に対する安打数の割合打率(BA) = 安打数(H) ÷ 打数(AB) ここで、打数(AB)とは、打席数(PA)から四死球と犠打を引いた数ちなみに、打率ってなんだっけ？ 5

baseballrによるMLBデータの抽出 6

Rの野球分析パッケージ FanGraphs.com、Baseball-Reference.com、 baseballsavant.mlb.comからデータを取得データ取得と指標計算の二つの主要機能を提供 baseballrとは 7

データ取得 MLB打者・投手の日次成績データ特定日時点でのリーグ順位 Statcastのピッチデータ Baseball Referenceの過去データ指標計算 wOBA（weighted On-Base Average）
FIP（Fielding Independent Pitching）チーム一貫性の指標 baseballrの主な機能 8

特定日のMLBリーグ順位を取得 library(baseballr) bref_standings_on_date("2024-06-20", "NL East") 期間を指定した打者成績の取得 data <- bref_daily_batter("2024-06-20", "2024-09-29")
基本的な使用例 9

シーズンの初期と最終時点の打撃成績を取得 start_date <- "2024-03-20" # シーズン開始 mid_date <- "2024-04-30" #
シーズンの途中までのデータ抽出用 end_date <- "2024-09-29" # シーズン終了 # 初期時点のデータ抽出 df_initial <- baseballr::bref_daily_batter( t1 = start_date, t2 = mid_date ) # 最終時点のデータ抽出 df_total <- baseballr::bref_daily_batter( t1 = start_date, t2 = end_date ) データの取得 10

ここで、 PA は打席数、 AB は打数、 H は安打数、 BA は打率 df
<- df_total |> # 初期時点と最終時点のデータを結合 select(Name, PA, AB, H, BA) |> filter(PA >= 502) |> # 規定打席以上の選手に限定 inner_join( df_initial |> select(Name, PA, AB, H, BA), by = c("Name"), suffix = c("_tot", "_ini") ) |> mutate(BA_mean = mean(BA_ini)) df # A tibble: 128 × 10 Name PA_tot AB_tot H_tot BA_tot PA_ini AB_ini H_ini BA_ini BA_mean <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 Jarren Duran 732 668 190 0.284 142 127 34 0.268 0.257 2 Shohei Ohtani 731 636 197 0.31 149 131 44 0.336 0.257 3 Gunnar Henderson 719 630 177 0.281 132 117 34 0.291 0.257 4 Marcus Semien 718 650 154 0.237 135 124 32 0.258 0.257 5 Juan Soto 713 576 166 0.288 144 117 38 0.325 0.257 分析用データの作成と確認 11

シーズンが開始して初期の時点ではまだ打数が少なく、打率にはノイズが含まれていることが示唆される打率の可視化 12

シーズン開始直後に極端な打率をとっていた打者も、最終的には平均的な打率に近づいていく打率の収束 13

初期時点の打率は、最終時点の打率の予測する性能はそれほど高くない単純に全選手の平均打率を利用したほうが予測精度が高い # A tibble: 2 × 4 pred_type .metric
.estimator .estimate <fct> <chr> <chr> <dbl> 1 平均 rmse standard 0.0252 2 初期時点 rmse standard 0.0430 初期時点の打率から最終時点の打率を予測できるか？ 14

予測精度が悪いのは、シーズンの初期時点では各選手の打数がまだ少なく、推定に誤差が多く含まれていることが原因このように、各選手の打数が少なく情報が不足している場合は、他の選手の打撃成績を間接的に利用することが効果的たとえば、初期時点で打率4割の選手がいても、最終時点では全体平均の2 割5分7厘に近い打率になると予測したほうが妥当性が高いと思われるこのようなモデリング手法として、階層ベイズモデルが知られているデータの情報不足を補う 15

階層ベイズモデルによる打率の推定 16

階層ベイズに入る前に、まずは通常のベイズで打率を推定する方法を考える個人の安打数は、試行回数が打数で、成功率が打率の二項分布に従うと考えられる打率は0から1の間の値をとる確率変数なので、無情報事前分布として区間の一様分布を利用する
H i θ i ∼ Binomial(AB , θ ) i i ∼ Uniform(0, 1) 打率の推定をベイズで考えると… i = 1, … , n H i AB i θ i [0, 1] 17

前述のモデルをStanで記述すると以下のようになる data { int<lower=0> N; int<lower=0> AB[N]; int<lower=0> H[N]; }
parameters { vector<lower=0, upper=1>[N] theta; } model { H ~ binomial(AB, theta); theta ~ uniform(0, 1); } Stanコード 18

データをStanに渡して学習するモデルの学習にはrstanパッケージを利用 data <- list( N = nrow(df), H =
df |> pull(H_ini), AB = df |> pull(AB_ini) ) fit_uninfo <- rstan::stan( file = "model_uninformative.stan", data = data ) モデルの学習 19

打率の事後分布の平均値を打率の予測値として利用 df_result <- df |> select(Name, BA_mean, BA_tot, BA_ini)
|> mutate( BA_uninfo = fit_uninfo |> tidybayes::spread_draws(theta[i]) |> summarise(theta = mean(theta)) |> pull(theta) ) df_result # A tibble: 128 × 5 Name BA_mean BA_tot BA_ini BA_uninfo <chr> <dbl> <dbl> <dbl> <dbl> 1 Jarren Duran 0.257 0.284 0.268 0.272 2 Shohei Ohtani 0.257 0.31 0.336 0.339 3 Gunnar Henderson 0.257 0.281 0.291 0.295 4 Marcus Semien 0.257 0.237 0.258 0.261 5 Juan Soto 0.257 0.288 0.325 0.328 ベイズ推定の予測結果 θ i 20

事前分布を無情報にしているので、予測結果は初期時点の単純集計とほぼ同じ # A tibble: 3 × 4 pred_type .metric .estimator
.estimate <fct> <chr> <chr> <dbl> 1 平均 rmse standard 0.0252 2 初期時点 rmse standard 0.0430 3 無情報ベイズ rmse standard 0.0424 ベイズ推定の予測精度の確認 21

各選手の打率が、選手全体に共通する一つの分布から生成されていると考え、他の選手の情報を間接的に利用する具体的には、各選手の打率が、共通の平均と精度を持つベータ分布に従うと仮定
H i θ i μ ν ∼ Binomial(AB , θ ) i i ∼ Beta(μν, (1 − μ)ν) ∼ Beta(a, b) ∼ Exponential(c) は全選手の平均打率、は打率のばらつきの小ささ（精度）を表すパラメータ。これらにも事前分布を設定し、データからとも同時に推定する階層ベイズモデルを構築 θ i θ i μ ν μ ν μ ν 22

パラメータは全選手の打率の平均も確率なので、その事前分布もベータ分布で設定する 4割打者は漫画の中にしかいないというドメイン知識を活かして、打率の平均は3割程度になると予想する全選手の打率の平均は選手数が十分多いので弱い事前分布でも問題なく推定できそうなので、を事前分布として設定する事前分布の設定
μ μ μ Beta(3, 7) 23

パラメータは各選手の打率の密集度前述のように4割超えがあまり出ないような事前分布にしておきたいので、は100くらいの大きな値にしておくのがよさそう事前分布の設定(1) ν ν ν 24

0以上の連続値をとる事前分布の候補として指数分布がある指数分布の期待値はなので、0.01にすると平均が 100になる事前分布の設定(2) ν Exponential(λ) 1/λ 25

data { int<lower=0> N; int<lower=0> AB[N]; int<lower=0> H[N]; } parameters
{ real<lower=0, upper=1> mu; real<lower=0, upper=10> nu; vector<lower=0, upper=1>[N] theta; } model { H ~ binomial(AB, theta); // nuはスケール調整されているため、100倍して元のスケールに戻して使用 theta ~ beta(100 * mu * nu, 100 * (1 - mu) * nu); mu ~ beta(3, 7); nu ~ exponential(1); } Stanコード 26

df_result <- df_result |> mutate( BA_hier = fit_hier |> tidybayes::spread_draws(theta[i])
|> summarise(theta = mean(theta)) |> pull(theta) ) df_result # A tibble: 128 × 6 Name BA_mean BA_tot BA_ini BA_uninfo BA_hier <chr> <dbl> <dbl> <dbl> <dbl> <dbl> 1 Jarren Duran 0.257 0.284 0.268 0.272 0.261 2 Shohei Ohtani 0.257 0.31 0.336 0.339 0.284 3 Gunnar Henderson 0.257 0.281 0.291 0.295 0.268 4 Marcus Semien 0.257 0.237 0.258 0.261 0.258 5 Juan Soto 0.257 0.288 0.325 0.328 0.278 階層ベイズモデルの予測結果 27

階層ベイズモデルを利用することで、最終時点の打率の予測精度は改善ただ、全体平均で予測した場合と大差ない結果ではある # A tibble: 4 × 4 pred_type .metric
.estimator .estimate <fct> <chr> <chr> <dbl> 1 平均 rmse standard 0.0252 2 初期時点 rmse standard 0.0430 3 無情報ベイズ rmse standard 0.0424 4 階層ベイズ rmse standard 0.0227 階層ベイズモデルの予測精度 28

階層ベイズによる予測値は、初期の打率よりも全体平均の方向に引き寄せられる。これは縮小推定 (shrinkage) と呼ばれる効果であり、情報が少ない（打数が少ない）選手ほど、この引き寄せが強くなる。階層ベイズモデルの予測結果の可視化 29

選手全体の打率の期待値の事後分布は、今までの単純集計とほぼ同じ値に密集しているの事後分布 μ μ 30

選手ごとの打率の精度（ばらつきの逆数）を表すの事後分布は、200付近にピークを持つ。これは、MLBのレギュラー選手の打率は、シーズン全体で見るとかなり狭い範囲に集中していることを示唆する。事前分布の影響を完全に排除できているわけではないが、データによってがかなり大きな値に更新されたことがわかる。の事後分布 ν ν
ν 31

まとめ 32

baseballrでMLBの打撃成績データを取得し、シーズン途中成績からシーズン最終打率を予測する問題に取り組んだシーズン途中の打率は情報量が少なく不安定なため、そのままでは予測精度は高くないそこで、全選手の情報を活用する階層ベイズモデルを構築。これにより、予測精度を改善できることを確認した（でも、予測精度がすごく高いわけではなかった）階層ベイズモデルの縮小推定の効果により、特に打数が少なく成績が極端な選手に対しても、より妥当な予測値を与えることが可能となるまとめ
33

本分析では事後分布の平均値を予測値として利用したが、ベイズ推定の大きな利点は予測の不確実性を定量化できる点にある各選手の予測打率の95%信用区間などを算出・可視化することで、予測の確からしさを評価できるたとえば、打数が少ない選手ほど信用区間は広くなり、「まだ情報不足で真の打率は不明確である」ことを表現可能議論(1)予測の不確実性の評価 34

構築したモデルがデータをどの程度うまく説明できているか、事後予測チェックなどで検証することが望ましいモデルから生成したシミュレーションデータと実データを比較し、分布が大きく異なる場合はモデルの改善を検討する議論(2)モデルの妥当性チェック 35

今回は全選手が同じ分布に従うと仮定したが、より精緻な予測のためには選手個人の特徴量を活用することが考えられる前年の成績、年齢、打席の左右などの共変量をモデルに導入することで、より選手の実力に応じた予測が可能となる議論(3)モデルの拡張 36

精度パラメータが大きな値に推定されたことは、「MLBレギュラー選手の真の打率は、非常に狭い範囲に密集している」というデータからの知見と解釈できる事前分布の選択が結果に与える影響（感度分析）も重要な論点。異なる事前分布を試し、結果の頑健性を示すことも考えられる議論(4)パラメータの解釈と事前分布 ν 37

補足：本塁打数のモデリング 38

資料を作ってしまってから、大谷翔平の本塁打数を予測しよう、みたいなテーマのほうが面白かったと思ったせっかくなので、モデリングを考えてみたい。基本的には、打率と似たモデリングになると思う HR i θ
i ∼ Binomial(PA , θ ) i i ∼ Beta(μν, (1 − μ)ν) ここで、は打席数（打数ABではない）、は本塁打数、は本塁打率本塁打数のモデリング PA i HR i θ i 39

本塁打数は「数」なので、「率」よりも予測が難しい。シーズン終了時点の打席数も予測対象になるシーズン途中の試合数として、打席数はに比例すると仮定する試合数に対する打席数の分布はカウントデータなので、ポアソン分布を仮定するして学習。 PA
∼ i Poisson(Gλ ) i ここで、は1試合あたりの平均的な打席数。打順や出場試合数が異なるので、選手ごとに推定予測のときは、シーズン終了時点の試合数は162試合と決まっているので、これを利用してで予測打席数のモデリング PA i G PA i G λ i G = 162 40

1試合あたりの打席数はデータから学習するので、事前分布をおく平均的には4打席くらいまわると思われるので、ガンマ分布の期待値が4くらいになるように超事前分布を置く PA i λ
i α ϕ ∼ Poisson(Gλ ) i ∼ Gamma(α, α/ϕ) ∼ Gamma(a, b) ∼ Gamma(c, d) の事前分布 λ ϕ 41

『ビジネス課題を解決する技術』を執筆しました数理最適化、数理モデル、そしてデータを統合的に活用してビジネス課題を解決する方法を解説していますデータサイエンスを使ってビジネス価値を生み出したいすべての人に届いてほしいです！発売日：2025/06/27 宣伝 42

baseballrによるMLBデータの抽出と階層ベイズモデルによる打率の推定 / TokyoR118

baseballrによるMLBデータの抽出と階層ベイズモデルによる打率の推定 / TokyoR118

森下光之助

More Decks by 森下光之助

Other Decks in Science

Featured

Transcript

baseballerによるMLBデータの抽出と階層ベイズモデルによる打率の推定森下光之助 (@dropout009) Tokyo.R 118 2025/06/21

1. baseballrパッケージによるMLBデータの抽出 2. 階層ベイズモデルによる打率の推定 3. まとめ目次 3

打率は、打数に対する安打数の割合打率(BA) = 安打数(H) ÷ 打数(AB) ここで、打数(AB)とは、打席数(PA)から四死球と犠打を引いた数ちなみに、打率ってなんだっけ？ 5

baseballrによるMLBデータの抽出 6

Rの野球分析パッケージ FanGraphs.com、Baseball-Reference.com、 baseballsavant.mlb.comからデータを取得データ取得と指標計算の二つの主要機能を提供 baseballrとは 7

データ取得 MLB打者・投手の日次成績データ特定日時点でのリーグ順位 Statcastのピッチデータ Baseball Referenceの過去データ指標計算 wOBA（weighted On-Base Average）

特定日のMLBリーグ順位を取得 library(baseballr) bref_standings_on_date("2024-06-20", "NL East") 期間を指定した打者成績の取得 data <- bref_daily_batter("2024-06-20", "2024-09-29")

シーズンの初期と最終時点の打撃成績を取得 start_date <- "2024-03-20" # シーズン開始 mid_date <- "2024-04-30" #

ここで、 PA は打席数、 AB は打数、 H は安打数、 BA は打率 df

シーズンが開始して初期の時点ではまだ打数が少なく、打率にはノイズが含まれていることが示唆される打率の可視化 12

シーズン開始直後に極端な打率をとっていた打者も、最終的には平均的な打率に近づいていく打率の収束 13

初期時点の打率は、最終時点の打率の予測する性能はそれほど高くない単純に全選手の平均打率を利用したほうが予測精度が高い # A tibble: 2 × 4 pred_type .metric

階層ベイズモデルによる打率の推定 16

前述のモデルをStanで記述すると以下のようになる data { int<lower=0> N; int<lower=0> AB[N]; int<lower=0> H[N]; }

データをStanに渡して学習するモデルの学習にはrstanパッケージを利用 data <- list( N = nrow(df), H =

打率の事後分布の平均値を打率の予測値として利用 df_result <- df |> select(Name, BA_mean, BA_tot, BA_ini)

事前分布を無情報にしているので、予測結果は初期時点の単純集計とほぼ同じ # A tibble: 3 × 4 pred_type .metric .estimator

各選手の打率が、選手全体に共通する一つの分布から生成されていると考え、他の選手の情報を間接的に利用する具体的には、各選手の打率が、共通の平均と精度を持つベータ分布に従うと仮定

パラメータは各選手の打率の密集度前述のように4割超えがあまり出ないような事前分布にしておきたいので、は100くらいの大きな値にしておくのがよさそう事前分布の設定(1) ν ν ν 24

0以上の連続値をとる事前分布の候補として指数分布がある指数分布の期待値はなので、0.01にすると平均が 100になる事前分布の設定(2) ν Exponential(λ) 1/λ 25

data { int<lower=0> N; int<lower=0> AB[N]; int<lower=0> H[N]; } parameters

df_result <- df_result |> mutate( BA_hier = fit_hier |> tidybayes::spread_draws(theta[i])

階層ベイズモデルを利用することで、最終時点の打率の予測精度は改善ただ、全体平均で予測した場合と大差ない結果ではある # A tibble: 4 × 4 pred_type .metric

選手全体の打率の期待値の事後分布は、今までの単純集計とほぼ同じ値に密集しているの事後分布 μ μ 30

まとめ 32

補足：本塁打数のモデリング 38

資料を作ってしまってから、大谷翔平の本塁打数を予測しよう、みたいなテーマのほうが面白かったと思ったせっかくなので、モデリングを考えてみたい。基本的には、打率と似たモデリングになると思う HR i θ

1試合あたりの打席数はデータから学習するので、事前分布をおく平均的には4打席くらいまわると思われるので、ガンマ分布の期待値が4くらいになるように超事前分布を置く PA i λ