(失敗例, reflection) の 2-shot プロンプトを LLM に挿⼊して reflection を⽣成 • reflection をエージェントのメモリに追加し、推論を再実⾏する Reflexion [Shinn+’23] (1/2) https://arxiv.org/abs/2303.11366 hallucination や ⾮効率なプランを検出 ⾏動の繰り返しを検出 試⾏あたりの act 数を制限 バイナリ報酬 各⾏動に 0:失敗, 1:成功 を割り当て HotPotQA では EM を⽤いて採点 𝐿𝐿𝑀 𝑠*, 𝑟*, 𝑎+, 𝑜+, … , 𝑎*, 𝑜* , 𝑚𝑒𝑚 h 𝑠* , 𝑎* , 𝛺, 𝜀, 𝑎+ , 𝑜+ , … , 𝑎*,( , 𝑜*,( = ; 1 1 0 repeat 𝑎+, 𝑜+, … , 𝑎*,(, 𝑜*,( > 𝛺 𝑡 > 𝜀 otherwise 図3. reflection によって⼤幅に正解率が向上する (HotPotQA 完全⼀致評価)