LLMアプリケーションのリリース前に実験することでプロンプトエンジニアリングとフローエンジニ アリングの設計を行っている ◦ オフライン評価としてLLM-as-a-Judgeを導入している • LangSmithによる実験管理とトレースの可視化を行っている • オンライン評価として、LLM-as-a-Judgeによる評価、ユーザーの返信率や返信速度、最終的な ビジネス指標として購入率や継続率まで日次・モニタリングしている • 本番での出力結果をLangSmithでアノテーションすることで、本番での出力の正答率を評価す るだけではなく、データセットを蓄積することでオフライン評価、ファインチューニングに活用して いる LLMアプリケーションのライフサイクルを管理し、継続的な改善ループを回し続けている