Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIコーディング道場成果発表【予告】

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 AIコーディング道場成果発表【予告】

Avatar for 吉田真吾

吉田真吾

June 07, 2025
Tweet

More Decks by 吉田真吾

Other Decks in Technology

Transcript

  1. 吉⽥真吾 +"846(ԣ඿ࢧ෦ 4FSWFSMFTT$PNNVOJUZ +1 -BOH$IBJO $PNNVOJUZ +1 FUDʜ コミュニティ 2011〜

     DMPVEQBDL  ג ηΫγϣϯφΠϯ  ג αΠμε  ג δΣωϥςΟϒΤʔδΣϯπ p"844FSWFSMFTT)FSP p-BOH$IBJO ެࣜ &YQFSU"NCBTTBEPS コミュニティ型転職・独⽴
  2. アプローチ 1. コードによる評価: 完全⼀致、正規表現、JSON形式の 妥当性チェックなど、プログラムコードによる評価。 ・決定的で安価かつ⾼速 ・⾃然⾔語の応答内容のニュアンスを捉えるには限界あ り。 2. LLM

    as a Judge: ⼤規模⾔語モデル(LLM)⾃⾝を評 価者として利⽤する⼿法。 ・複雑な評価基準に対応できる可能性がある ・評価⽤LLMのプロンプトエンジニアリングが必要に なるなど、導⼊の難しさも伴う。 3. ⼈間によるアノテーション: ユーザーからのフィード バック(サムズアップ/ダウンなど)を収集したり、専 ⾨のアノテーターがLangSmithのアノテーションキュー を通じて評価を⾏う。
  3. ジャーニー 1. オフライン評価 (Offline Evals) 本番環境に移⾏する前に、 事前に準備したデータセットに対してアプリケーションを実 ⾏し、パフォーマンスを測定・スコアリング。モデルやプロ ンプトの変更がパフォーマンスに与える影響を追跡。 2.

    オンライン評価 (Online Evals) 本番環境で稼働中のアプリ ケーションに対し、実際に⼊⼒されるデータの⼀部をサンプ リングしてスコアリング。実際のユーザーインタラクション に基づいたリアルタイムなパフォーマンス監視が可能。 3. インザループ評価 (In-the-loop Evals) エージェントが実⾏ 中に発⽣するEvals。エージェントの応答前に評価を⾏い、誤 りを検知した場合には⾃⼰修正を促し、応答品質の向上や、 不適切な応答のブロックが可能。⽋点は時間とコストの増加。 ミスへの許容度が低い場合や、レイテンシが問題にならない ような⻑時間実⾏されるエージェントに適している。⻑時間 実⾏エージェントの増加に伴い、このタイプのEvalsの重要性 が増すと予測。