Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スポーツデータアナリティクス:ランキングおよび予測モデル構築手法を中心に / Sports d...

konakalab
March 08, 2023

スポーツデータアナリティクス:ランキングおよび予測モデル構築手法を中心に / Sports data analytics: Ranking and prediction model design

電子情報通信学会2023年総合大会 基礎・境界ソサイエティ特別企画「エンターテインメントとシステム数理・制御通信」で発表したスライドです.講演時間:40分

スポーツデータアナリティクスのうち,「良いランキングの設計方法と,その予測モデル構築への活用」に着目し,著者の成果を含めて紹介しています.

konakalab

March 08, 2023
Tweet

More Decks by konakalab

Other Decks in Science

Transcript

  1. 自己紹介 ⚫氏名:小中 英嗣(こなか えいじ) ⚫所属:名城大学情報工学部情報 工学科 ⚫研究分野 ⚫システム制御理論 ⚫連続・離散ハイブリッドシステム ⚫最適化による設計

    ⚫スポーツアナリティクス ⚫レーティング・ランキング手法 ⚫メトリクス(評価指標)開発 ⚫スポーツアナリティクスへ至る経緯 ⚫趣味:スポーツ観戦(結構何でも観る) ⚫得点過程→確率過程では? ⚫予測モデルを作ってみる ⚫ランキングや大会制度の不備を数理的に指 摘する ⚫バレーボール各国代表チームのレーティン グ手法の提案および結果予測・大会形式評 価への応用(2017) ⚫J1 リーグ 2 ステージ+ポストシーズン制 度の統計的分析(2016) 2022/3/8 電子情報通信学会総合大会2023 2
  2. Definition of “sports” ⚫PLAY ⚫Spontaneous PLAY ⚫Organized PLAY = GAMES

    ⚫Non-competitive GAMES ⚫Competitive GAMES = CONTESTS ⚫Intellectual CONTESTS ⚫Physical CONTESTS = SPORTS (Sports | Definition, History, Examples, & Facts | Britannica) ⚫「スポーツ」とは… ⚫物理的・身体的で ⚫競争を伴う ⚫組織だった遊び 2022/3/8 電子情報通信学会総合大会2023 7
  3. 採用されているランキング手法 [Stefani, 2011] ⚫オリンピック採用種目を中心に公式 ランキング手法を調査 ⚫159競技・種目 ⚫分類 ⚫None: 60 ⚫Subjective:

    2 ⚫Accumulative: 84 ⚫Adjustive: 13 ⚫Accumulative ⚫一定期間の試合・大会結果に基づく加 算 ⚫Adjustive ⚫試合ごとに調整 2022/3/8 電子情報通信学会総合大会2023 13
  4. 「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する ⚫前提条件 ⚫トーナメント戦 ⚫有力選手への出場義務 ⚫順位とランキングポイントの関係が適(右 表) ⚫上位選手を強制的に参加させる大会を 数多く開けないとうまくいかない

    ⚫グランドスラムには全上位選手が出場 2022/3/8 電子情報通信学会総合大会2023 27 W F SF QF R16 R32 R64 GS 2000 1200 720 360 180 90 45 ATP1000 96D 1000 600 360 180 90 45 25 ATP500 48D 500 300 180 90 45 20 ATP250 48D 250 150 90 45 20 × 0.6 × 0.6 × 0.5 × 0.5 × 0.5
  5. 「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ⚫ランキングが高いほうが勝つ可能性が高い ⚫リオ五輪 球技予測プロジェクト ⚫球技5競技10種目を予測する ⚫ バスケットボール,ハンドボール,ホッケー,バレー

    ボール,水球 ⚫ 予測内容:各試合の勝敗,メダルの有無/色 ⚫予測方法 ⚫ 世界ランキング ⚫ 雑誌・新聞予測 ⚫ 小中英嗣の予測 ⚫ Konaka, “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games” 2022/3/8 電子情報通信学会総合大会2023 29
  6. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 31 試合数 正解 公式ランキング 370 238 小中英嗣 370 ??? メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ???
  7. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 32 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ??? (* p<0.01 で有意差あり)
  8. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 33 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 19 10 (* p<0.01 で有意差あり)
  9. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫統計予測を扱う企業(Gracenote) 2022/3/8 電子情報通信学会総合大会2023 34

    試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10 (* p<0.01 で有意差あり)
  10. リオ五輪予測プロジェクト:まとめ ⚫公式ランキングは実力を適切に評価 できていないのではないか? ⚫現場を取材している記者・専門家も 実力を適切に評価できていないので はないか? ⚫小中英嗣は何をしたのか? ⚫統計予測企業も公式ランキングや専門家 を出し抜いている 2022/3/8

    電子情報通信学会総合大会2023 35 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10
  11. 「実力」とは何か? 人間の専門家の特徴 ⚫◎競技特性・構造の定性的な理解 ⚫×データの記憶 ⚫×みられる試合数は限られる ⚫×「実力」評価に必要・不要な要素を適切に 分別できない ⚫余分な情報を得られすぎる 「実力」とは何か? ⚫5競技の共通点:得点が多いほうが勝ち

    ⚫「実力」=「得点を取る能力」「失点を抑える 能力」 ⚫仮説:実力評価に最も有効なデータは過去 の結果(得失点)である ⚫「1点取られる間に何点取れるか」=得失点比 ⚫専門家による技術・戦術の評価は必ずしも実力 を定量化しない 2022/3/8 電子情報通信学会総合大会2023 37
  12. 球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? 電子情報通信学会総合大会2023 そうです!! ෝ 𝑤𝑖,𝑗

    = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 ⚫ 𝑟𝑖 , 𝑟 𝑗 :チーム𝑖, 𝑗の実力(レーティング) ⚫𝐷𝑘 : 競技𝑘の変換パラメータ ⚫ෝ 𝑤𝑖.𝑗 : チーム𝑖の𝑗に対する予測勝率 ⚫(Eloレーティングと同様のモデル) 2022/3/8 41
  13. モデルの構築 ⚫ find ⚫ that minimize ⚫subject to 電子情報通信学会総合大会2023 ෝ

    𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 𝐽 = ෍ 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑚𝑎𝑡𝑐ℎ𝑒𝑠 𝑤𝑖,𝑗 − ෝ 𝑤𝑖,𝑗 2 𝑟𝑖 (𝑖 = 1, ⋯ , 𝑁𝑇 ), 𝐷𝑘 𝑤𝑖,𝑗 : past results ⚫ 過去の試合結果と予測勝率の誤差 (二乗和)が最小となるような各チーム レーティング(実力値)と競技パラメー タを導出する ⚫実際は得点割合を説明するパラメータの 導出が間に入っています.[Konaka(2019)] ⚫本質的にイロ・レーティングと等価 2022/3/8 42
  14. イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 ,

    𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2022/3/8 電子情報通信学会総合大会2023 45
  15. イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 ,

    𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 ⚫レーティング差0=予測勝率0.5 ⚫レーティング差大→予測勝率が1に近づく シグモイド関数 2022/3/8 電子情報通信学会総合大会2023 46
  16. イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合

    ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2022/3/8 電子情報通信学会総合大会2023 47
  17. イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合

    ⚫Aが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟖𝟎𝟒 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟓𝟗𝟔 ⚫ ±𝟑. 𝟖𝟒 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2022/3/8 電子情報通信学会総合大会2023 48
  18. イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が 多い 修正過程 ⚫試合が多い場合

    ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟕𝟖𝟕 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟔𝟏𝟑 ⚫ ±𝟏𝟐. 𝟏𝟔 2022/3/8 電子情報通信学会総合大会2023 49
  19. 結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 ⚫番付の近い力士と対戦 ⚫勝ち越し・負け越し数と番付の上下量が対応 ⚫以下の点でランキングとしての性能が下がる ⚫経験的 ⚫特殊な運用の番付(横綱・大関) ⚫数理的なレーティングで予測精度が改善

    ⚫横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2022/3/8 電子情報通信学会総合大会2023 53 小中.「大相撲における力士の実力の定量的評価 指標の提案」
  20. 結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 ⚫番付の近い力士と対戦 ⚫勝ち越し・負け越し数と番付の上下量が対応 ⚫以下の点でランキングとしての性能が下がる ⚫経験的 ⚫特殊な運用の番付(横綱・大関) ⚫数理的なレーティングで予測精度が改善

    ⚫横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2022/3/8 電子情報通信学会総合大会2023 54 小中.「大相撲における力士の実力の定量的評価 指標の提案」
  21. どの「平幕優勝」がすごいの? の定量化 2020年1月場所 「最も驚きの」幕内優勝10傑(~2020年3月) year month nameEng wins predicted wins

    logloss 1991 7 Kotofuji 14 5.6273 1.5755 2020 1 Tokushoryu 14 5.5564 1.4768 1984 9 Tagaryu 13 6.1411 1.2961 2008 5 Kotooshu 14 6.8338 1.2534 1972 1 Tochiazuma 11 6.2910 1.2266 1975 7 Kongo 13 6.8946 1.2054 2018 1 Tochinoshin 14 6.6507 1.1892 1961 5 Sadanoyam a 12 7.0139 1.1161 1976 9 Kaiketsu 14 6.6405 1.1107 2000 3 Takatoriki 13 5.9884 1.1094 2022/3/8 55 電子情報通信学会総合大会2023
  22. で,東京オリンピックは? 公式ランキングの改善 ⚫イロレーティング系への改善 ⚫バスケットボール ⚫ホッケー ⚫バレーボール ⚫その他2種目(ハンドボール,水球) ⚫公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 ◦

    有意差無し(p=0.271>0.05) 2022/3/8 電子情報通信学会総合大会2023 60 試合数 正解 公式ランキング 354 250 小中英嗣 354 258 数理的根拠を伴う,公正なランキングが広まりつつある
  23. まとめ 適切なランキングの設計 ⚫ランキングの良し悪し ⚫ランキングの上下が試合結果の予測となってい るべき ⚫大会形式と合わせて慎重に設計されるべき ⚫過大・過小評価による弊害 ⚫イロレーティング ⚫勝率予測モデルと試合結果に基づく修正を繰り 返す

    ⚫様々なランキングがこちらに変更されつつある 「順序をつける」 ⚫スポーツだけではない ⚫Web検索など ⚫抽象化:「評価を定量化して並べる」 ⚫数学的な構造の活用 2022/3/8 電子情報通信学会総合大会2023 66
  24. ありがとうございました! 研究情報公開一覧 ⚫Webサイト ⚫https://www-ie.meijo- u.ac.jp/~konaka/summary.html ⚫SNS ⚫@konakalab/Twitter ⚫ブログ ⚫note, qiita,

    livedoor Blog ⚫発表スライド ⚫https://speakerdeck.com/konakalab さわれるWEBアプリ ⚫ポアソン分布を利用したサッカーシミュレー ション ⚫Bリーグにおける勝利確率(得失点差と残り 時間) ⚫男子プロテニス サービス位置・ランキング ポイントと成功確率 2022/3/8 電子情報通信学会総合大会2023 67