Upgrade to Pro — share decks privately, control downloads, hide ads and more …

継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for seya seya
November 24, 2024

 継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

Avatar for seya

seya

November 24, 2024
Tweet

More Decks by seya

Other Decks in Technology

Transcript

  1. ©️ Gaudiy Inc. 関連資料 Who Validates the Validators? Aligning LLM-Assisted

    Evalu... Due to the cumbersome nature of human evaluation and limitations of c... arxiv.org Who validates the validators? 正に継続的に評価をアップデートする仕組みを
 検証した結果作ったフレームワークである EvalGenを紹介している論文。読むべし。 Creating a LLM-as-a-Judge That Drives Business... A step-by-step guide with my learnings from 30+ AI implementations. hamel.dev Creating a LLM-as-a-Judge That Drives Business Results LLM-as-a-Judgeの作成手順や勘所をかなり 具体的に解説している記事 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-... Use cases, techniques, alignment, finetuning, and critiques against LLM... eugeneyan.com Evaluating the Effectiveness of LLM-Evaluators LLM-as-a-Judgeの有効性を評価した記事。 LLM-as-a-Judgeに関連した論文が大集合し ているのでぜひ読んでみてください。 表示 自動化するLLMシステム... こんにちは。ファンと共に時代... Hatena Blog 自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方 私のLLM-as-a-Judgeの作成手順を解説して いる記事