Pros&Consの生成
◦ 制御性に関する4つの評価観点
▪ フォーマット, 文字数, キーワード, NGワード
• タスク横断的に、同一の評価観点から評価することが可能
◦ 「タスクによって同じLLMでも制御性能のパフォーマンスは異なるのでは?」という仮説に 答えることが可能
Task Dataset FORMAT C-COUNT KEYWORD P-WORD Summarization ABEMA TIMES 120 120 120 120 Ad Text Generation CAMERA 150 150 150 150 Pros & Cons Generation — 150 150 150 150 LCTG Bench
13