⚫応答の安全性評価: GPT-4o ⚫各手法で批評・改訂を3回繰り返す ⚫異なるランダムシードで5回実施、平均を算出 ⚫最終安全率と有害転化率との間に相関(𝑟 = −0.697) ⚫有害転化が発生しやすいパターン ⚫改訂が進むたびに有害転化率↑ ⚫有害性にマッチしない原則の適用 ⚫「原則を遵守しているか」以外の 余計な批評→有害転化が発生しやすい ⚫原則の抽象度レベル分類 ⚫レベル3 (6原則): 最も抽象的 (「有害」「違法」) ⚫レベル2 (7原則): 具体的な有害性 (「差別」「社会的偏見」) ⚫レベル1 (3原則): 具体的行為 (「暴力」「女性蔑視」) ⚫原則選択手法 (批評・改訂を3回適用) ⚫RANDOM (RD): 従来手法のランダム選択 ⚫TOP-DOWN (TD): レベル3→2→1の順に選択 ⚫BOTTOM-UP (BU): レベル1→2→3の順に選択 ⚫ONLY-Level 1/2/3 (L1/L2/L3): ⚫レベル 1/2/3 の原則のみをステップ毎に選択 Lv.3 (抽象的 ― 有害性全般) Critique: "Identify specific ways in which the assistant's last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." Revision: "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content." Lv.1 (具体的 ― 特定犯罪行為) Critique: "...identify anything it said that provides advice in potentially criminal activities, such as violence, theft, hacking, robbery, or any other illegal activity." Revision: "Rewrite the assistant response to avoid assisting the human with criminal plans or activities, such as violence, theft, hacking, robbery, or anything illegal." 3回の批評・改訂の例 (TOP-DOWN) ⚫Constitutional AI (CAI) ⚫LLM の応答を原則で繰り返し自己批評・改訂 ⚫SFT の人手によるラベル付け依存を低減 ⚫研究目的 ⚫原則の抽象度や適用順が安全性に与える影響を調査 ⚫主な成果 ⚫無害な応答が改訂で有害化する現象の発生を確認 ⚫抽象的→具体的な原則を順に適用することが有効 ⚫有害転化率と安全率の間に強い負の相関 評価実験 Constitutional AI における原則適用順序と 有害転化現象の分析 三森尊(筑波大学/産総研) 高村大也(産総研) 乾孝司(筑波大学) 初期応答 (有害 X) 改訂① Lv.3 改訂② Lv.2 改訂③ →Lv.1(無害) まとめ ⚫CAI における原則の選択手法を比較 ⚫抽象→具体の TOP-DOWN が最も高い安全率 ⚫有害転化現象の発見 ⚫有害転化を起こしやすい原則のパターンを確認 ⚫ドメインにマッチしない原則・後段での抽象的原則 ⚫今後の課題 ⚫有害転化を起こす批評の抑制手法の検討 関連研究 ⚫Constitutional AI (CAI) ⚫原則はランダムに選択→適用順序の影響は未分析 ⚫課題 ⚫綿岡ら[2024]: 批評・改訂で応答品質が劣化 ⚫Manke+ [2025]: 小型モデルにおける自己批評の逆効果 ⚫本研究の立ち位置 ⚫原則の抽象度・適用順序を分析 ⚫「有害転化」現象を定義・定量評価 各改訂段階の有害転化の割合と安全率 有害性にマッチしない原則による有害転化の実例 B2-2