Text-to-SQLの評価データセットを作って最新LLMモデルの性能評価をしてみた
AIエージェントの実用化に向けて、データベースアクセスの精度は超重要!でも既存のベンチマークって実際のビジネスシーンとは違う。
そこで、実際のeCommerceデータセットを使って独自の評価データセット(60問)を作成し、最新のLLMモデル7種類(Claude Opus 4、Claude Sonnet 4、GPT-4.1、GPT-4o、o3、Gemini 2.5 Pro/Flash)の性能を比較しました。
【主な内容】
・実用的なText-to-SQL評価データセットの作り方
・各LLMモデルの実行精度比較(意外な結果も!)
・より正確な評価のための独自指標の開発
結果:Claude Sonnet 4とGPT-4.1が最強でした!Opus 4やGemini 2.5は意外と苦戦...