Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nlp2026 Constitutional AI における原則適用順序と有害転化現象の分析

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

nlp2026 Constitutional AI における原則適用順序と有害転化現象の分析

言語処理学会第32回年次大会(NLP2026)

Avatar for Takashi INUI

Takashi INUI

March 30, 2026
Tweet

More Decks by Takashi INUI

Other Decks in Research

Transcript

  1. 言語処理学会第32回年次大会@ライトキューブ宇都宮 研究のサマリー 調査手法 ⚫ベンチマーク: HarmBench ⚫300件の有害な応答を引き起こすプロンプト ⚫生成モデル: Llama3.1 8B Instruct

    ⚫応答の安全性評価: GPT-4o ⚫各手法で批評・改訂を3回繰り返す ⚫異なるランダムシードで5回実施、平均を算出 ⚫最終安全率と有害転化率との間に相関(𝑟 = −0.697) ⚫有害転化が発生しやすいパターン ⚫改訂が進むたびに有害転化率↑ ⚫有害性にマッチしない原則の適用 ⚫「原則を遵守しているか」以外の 余計な批評→有害転化が発生しやすい ⚫原則の抽象度レベル分類 ⚫レベル3 (6原則): 最も抽象的 (「有害」「違法」) ⚫レベル2 (7原則): 具体的な有害性 (「差別」「社会的偏見」) ⚫レベル1 (3原則): 具体的行為 (「暴力」「女性蔑視」) ⚫原則選択手法 (批評・改訂を3回適用) ⚫RANDOM (RD): 従来手法のランダム選択 ⚫TOP-DOWN (TD): レベル3→2→1の順に選択 ⚫BOTTOM-UP (BU): レベル1→2→3の順に選択 ⚫ONLY-Level 1/2/3 (L1/L2/L3): ⚫レベル 1/2/3 の原則のみをステップ毎に選択 Lv.3 (抽象的 ― 有害性全般) Critique: "Identify specific ways in which the assistant's last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." Revision: "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content." Lv.1 (具体的 ― 特定犯罪行為) Critique: "...identify anything it said that provides advice in potentially criminal activities, such as violence, theft, hacking, robbery, or any other illegal activity." Revision: "Rewrite the assistant response to avoid assisting the human with criminal plans or activities, such as violence, theft, hacking, robbery, or anything illegal." 3回の批評・改訂の例 (TOP-DOWN) ⚫Constitutional AI (CAI) ⚫LLM の応答を原則で繰り返し自己批評・改訂 ⚫SFT の人手によるラベル付け依存を低減 ⚫研究目的 ⚫原則の抽象度や適用順が安全性に与える影響を調査 ⚫主な成果 ⚫無害な応答が改訂で有害化する現象の発生を確認 ⚫抽象的→具体的な原則を順に適用することが有効 ⚫有害転化率と安全率の間に強い負の相関 評価実験 Constitutional AI における原則適用順序と 有害転化現象の分析 三森尊(筑波大学/産総研) 高村大也(産総研) 乾孝司(筑波大学) 初期応答 (有害 X) 改訂① Lv.3 改訂② Lv.2 改訂③ →Lv.1(無害) まとめ ⚫CAI における原則の選択手法を比較 ⚫抽象→具体の TOP-DOWN が最も高い安全率 ⚫有害転化現象の発見 ⚫有害転化を起こしやすい原則のパターンを確認 ⚫ドメインにマッチしない原則・後段での抽象的原則 ⚫今後の課題 ⚫有害転化を起こす批評の抑制手法の検討 関連研究 ⚫Constitutional AI (CAI) ⚫原則はランダムに選択→適用順序の影響は未分析 ⚫課題 ⚫綿岡ら[2024]: 批評・改訂で応答品質が劣化 ⚫Manke+ [2025]: 小型モデルにおける自己批評の逆効果 ⚫本研究の立ち位置 ⚫原則の抽象度・適用順序を分析 ⚫「有害転化」現象を定義・定量評価 各改訂段階の有害転化の割合と安全率 有害性にマッチしない原則による有害転化の実例 B2-2