Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Model Routerを使った逐次LLM選択による毀損低減効果の検証

Model Routerを使った逐次LLM選択による毀損低減効果の検証

2026/6/9に、2026年度 人工知能学会全国大会(第40回)で発表した田口、中田、嶋田の資料になります。

Avatar for Recruit

Recruit PRO

June 17, 2026

More Decks by Recruit

Other Decks in Technology

Transcript

  1. いつ採用LLMを入れ替えるのか? 約3~12ヶ月での入れ替えが必要 採用モデル確定後の活用期間が短期化傾向にある 基準 根拠 入れ替えサイクル モデルパフォーマンス Densing Law of

    LLMs [1] 3.3ヶ月 EOL[2] GPT, geminiのdocs [3] 基本12ヶ月 [1] 3.3ヶ月毎にパラメーターあたりのLLM性能が倍になっていることを示した Chaojun Xiao, et al. arXiv: 2412.04315, 2024 [2] ここではLLMの有償API等が利用できるようになってからできなくなるまでの期間のこと [3] https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/model-versions https://developers.openai.com/api/docs/deprecations LLMの入れ替え基準2つ 5
  2. 実験設定 実験期間 3.5ヶ月 - 前述のLLMパラメーターあたり性能倍化に必要な時間を基準とした モデル選択方法 ベースはThompson samplingを採用 - 変数を採用しないbanditの中では、経験的に毀損を最も抑えられるものとして知られている

    - クリック or not クリックの確率を表現する二項分布の共役事前分布はベータ分布 - beta(クリック数, not クリック数)で得られる事後分布を使った採用モデル決定が基本 ただしModel Routerの介入によるレイテンシ悪化を最小限にする必要あり - 日次バッチで計算した採用確率 + セッションごとIDから計算したハッシュ値をベースにした採用モ デルの決定としている モデル呼び出し経路 オリジナル:アプリ -> LLMによる生成 実験時: アプリ -> model router -> LLMによる生成 12
  3. ディスカッション Welchのt検定 精度結果 Model Aの方がCVRで優れているという、統計的に有意であるという結果は得られなかった (今回の実施内容は入れ替えサイクル内での報酬毀損低減ができたので、ビジネス観点からは悪くない) 関連研究 Power Constrained Bandits

    Jiayu Yao, et al. Proceedings of the 6th Machine Learning for Healthcare Conference, PMLR, vol. 149, 2021 Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments Joseph Jay Williams, et al. arXiv preprint, 2103.12198 検定力を担保した上でbanditを実行する方法についての提案。検定による効果(量)の特定には役立つも のの、得られる利得を最大化するというbanditの利点を部分的にでも毀損している Banditを適用して得られたサンプルに対しても有効に機能する統計的な検定手法を調査した内容。現時 点では存在しないため、その登場が待たれるとの内容 17
  4. - LLMの進化サイクルが高速化している - LLMから得られる利益を最大化することを目的にした場合、従来型のオンライン検証では 不十分な可能性がある - 上記問題を解消するため、Banditを採用した報酬ベースのModel Routerを提案した - レイテンシの悪化を極限まで避け、

    Model Router自体がCVR、CTRに対して悪影響を与え る事態を回避することができた - その上で実サービスでの検証の結果、報酬毀損を大きく低減できる可能性が示唆された まとめ 19