Model Routerを使った逐次LLM選択による毀損低減効果の検証

田口正一1、中田百科1、嶋田達之介1 1. 株式会社リクルート人工知能学会2026 Model Routerを使った逐次LLM選択による毀損低減効果の検証
1

Outline 背景 – 施策におけるLLM選択に関する課題タスク結果まとめ 2

施策でのLLM採用 LLMの出力をカスタマーに直接表出する機会が増えている LLMの(出力)品質がコンバージョンに大きく影響するケースが増加 =LLM選択が重要要約掲載チャットボットレポート 3

LLM選定プロセスオフライン検証 + オンライン検証(ABテスト)により決定する精度検証類似タスク採用モデルを確定するまでのリードタイムが長い初期モデル候補(複数)選定過去データ
オンライン検証 (探索) 採用モデル確定 (以降活用) 4

いつ採用LLMを入れ替えるのか？約3~12ヶ月での入れ替えが必要採用モデル確定後の活用期間が短期化傾向にある基準根拠入れ替えサイクルモデルパフォーマンス Densing Law of
LLMs [1] 3.3ヶ月 EOL[2] GPT, geminiのdocs [3] 基本12ヶ月 [1] 3.3ヶ月毎にパラメーターあたりのLLM性能が倍になっていることを示した Chaojun Xiao, et al. arXiv: 2412.04315, 2024 [2] ここではLLMの有償API等が利用できるようになってからできなくなるまでの期間のこと [3] https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/model-versions https://developers.openai.com/api/docs/deprecations LLMの入れ替え基準2つ 5

LLM活用施策における課題オンラインテストにかかる時間が長く、モデル更新サイクルが短期化探索 -> 活用サイクルの見直しが必要何が起こるか - 探索 -> 活用サイクル全体の短期化
- 従来通りの探索方法(ABテスト等)だと探索期間は短縮されず、活用期間が短期化 - LLMから得られる利得の減少 6

提案手法オンライン検証以降のプロセスをbanditアルゴリズムを使ったModel Routerにより代替する従来型検証プロセスを採用することによる報酬毀損を低減できる可能性がある Model Router (Bandit採用による動的モデル選択) 精度検証
類似タスク初期モデル候補(複数)選定過去データオンライン検証 (探索) 採用モデル確定 (以降活用) 7

Model Routerの役割モデル入れ替えサイクル内での報酬毀損の低減サイクルの中で報酬毀損を減らすことが狙い - 従来型の方法は探索(ABテスト)と活用の期間がはっきり分かれている - 提案手法では推定報酬が最も高いものを採用し続ける - 時間の経過とともに、報酬の推定値の正確性が向上するため、結果的に活用の割
合が増える 8

実験対象サービス以下実サービスへの導入により、効果を計測するじゃらん：AIチャットでご提案(試験運用版) https://www.jalan.net/chat/?ccnt=pc_yad_top_theme_soukichat_init 会話しながら希望に沿った宿を提案するサービストップ画面会話 10

タスク宿提案時の説明文(赤枠、LLM生成対象)を対象に、banditで2パターンのモデルを試す宿名称宿写真目的 - コンバージョンレートやクリックレート(CVR, CTR)が高いものがあるかを探す - 報酬毀損観点での通常のオンラインテスト(ABテスト)との結果比較
11

実験設定実験期間 3.5ヶ月 - 前述のLLMパラメーターあたり性能倍化に必要な時間を基準としたモデル選択方法ベースはThompson samplingを採用 - 変数を採用しないbanditの中では、経験的に毀損を最も抑えられるものとして知られている
- クリック or not クリックの確率を表現する二項分布の共役事前分布はベータ分布 - beta(クリック数, not クリック数)で得られる事後分布を使った採用モデル決定が基本ただしModel Routerの介入によるレイテンシ悪化を最小限にする必要あり - 日次バッチで計算した採用確率 + セッションごとIDから計算したハッシュ値をベースにした採用モデルの決定としているモデル呼び出し経路オリジナル：アプリ -> LLMによる生成実験時：アプリ -> model router -> LLMによる生成 12

Model Routerによる最適化の結果セッション数、CVR Model Aの方が本タスクに適していることが示唆される結果となった 14

従来手法(ABテスト)と提案手法の毀損比較 - モデル入れ替えサイクルが短期になるほど、提案手法の毀損低減効果が高まる結果となった 15

出力内容を比較した定性的考察 - Model Aはよりリッチに、どのような過ごし方ができるかまで言及しているのに対し、 Model Bは事実を羅列するだけであり、魅力が薄いと感じられた可能性がある - 各モデルがソースとする情報は同じであり、どのような文章を作るかによってユーザーの評価が変化した興味深い事例だと考えられる
※定量評価で良かったのはModel A 16

ディスカッション Welchのt検定精度結果 Model Aの方がCVRで優れているという、統計的に有意であるという結果は得られなかった (今回の実施内容は入れ替えサイクル内での報酬毀損低減ができたので、ビジネス観点からは悪くない) 関連研究 Power Constrained Bandits
Jiayu Yao, et al. Proceedings of the 6th Machine Learning for Healthcare Conference, PMLR, vol. 149, 2021 Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments Joseph Jay Williams, et al. arXiv preprint, 2103.12198 検定力を担保した上でbanditを実行する方法についての提案。検定による効果(量)の特定には役立つものの、得られる利得を最大化するというbanditの利点を部分的にでも毀損している Banditを適用して得られたサンプルに対しても有効に機能する統計的な検定手法を調査した内容。現時点では存在しないため、その登場が待たれるとの内容 17

- LLMの進化サイクルが高速化している - LLMから得られる利益を最大化することを目的にした場合、従来型のオンライン検証では不十分な可能性がある - 上記問題を解消するため、Banditを採用した報酬ベースのModel Routerを提案した - レイテンシの悪化を極限まで避け、
Model Router自体がCVR、CTRに対して悪影響を与える事態を回避することができた - その上で実サービスでの検証の結果、報酬毀損を大きく低減できる可能性が示唆されたまとめ 19

今後の課題 - Model Routerでの選択候補とするLLMの選定高速化 - 生成品質モニタリング - コスト、速度制約の組み込み 20

Model Routerを使った逐次LLM選択による毀損低減効果の検証

Model Routerを使った逐次LLM選択による毀損低減効果の検証

Recruit PRO

More Decks by Recruit

Other Decks in Technology

Featured

Transcript

田口正一1、中田百科1、嶋田達之介1 1. 株式会社リクルート人工知能学会2026 Model Routerを使った逐次LLM選択による毀損低減効果の検証

Outline 背景 – 施策におけるLLM選択に関する課題タスク結果まとめ 2

施策でのLLM採用 LLMの出力をカスタマーに直接表出する機会が増えている LLMの(出力)品質がコンバージョンに大きく影響するケースが増加 =LLM選択が重要要約掲載チャットボットレポート 3

LLM選定プロセスオフライン検証 + オンライン検証(ABテスト)により決定する精度検証類似タスク採用モデルを確定するまでのリードタイムが長い初期モデル候補(複数)選定過去データ

いつ採用LLMを入れ替えるのか？約3~12ヶ月での入れ替えが必要採用モデル確定後の活用期間が短期化傾向にある基準根拠入れ替えサイクルモデルパフォーマンス Densing Law of

LLM活用施策における課題オンラインテストにかかる時間が長く、モデル更新サイクルが短期化探索 -> 活用サイクルの見直しが必要何が起こるか - 探索 -> 活用サイクル全体の短期化

Outline 背景 – 施策におけるLLM選択に関する課題タスク結果まとめ 9

Outline 背景 – 施策におけるLLM選択に関する課題タスク結果まとめ 13

Model Routerによる最適化の結果セッション数、CVR Model Aの方が本タスクに適していることが示唆される結果となった 14

従来手法(ABテスト)と提案手法の毀損比較 - モデル入れ替えサイクルが短期になるほど、提案手法の毀損低減効果が高まる結果となった 15

Outline 背景 – 施策におけるLLM選択に関する課題タスク結果まとめ 18

今後の課題 - Model Routerでの選択候補とするLLMの選定高速化 - 生成品質モニタリング - コスト、速度制約の組み込み 20