とができる。我々は、悪意のある学習者が検出不可能なバックドアを分類器に仕込む方法を示す。このようなバックドアを仕込んだ 分類器は、表面上は正常に動作しているが、実際には、学習者がわずかな操作で任意の入力の分類を変更するメカニズムを保持 している。重要なのは、適切な「バックドアキー」がなければ、このメカニズムは隠され、計算量に制限のある観測者には検出できな いことである。我々は、検出不可能なバックドアを仕掛けるための2つのフレームワークを、比類のない保証付きで実証する。まず、 デジタル署名方式を用いて、任意のモデルにバックドアを仕掛ける方法を示す。この構成では、元のモデルとバックドアを仕込んだ バージョンにブラックボックスでアクセスできる場合、両者が異なる単一の入力さえ見つけることは計算上不可能であることが保証 されます。この性質は、バックドアードモデルがオリジナルモデルと同程度の汎化誤差を持つことを意味する。第二に、ランダム フーリエ特徴量(RFF)学習パラダイムやランダムReLUネットワークで学習したモデルに、検出不可能なバックドアを挿入する方法を 示す。この構成では、強力なホワイトボックス識別器に対して検出不能が成り立つ。ネットワークの完全な記述と訓練データがあれ ば、効率的な識別器はモデルが「クリーン」であるかバックドアを含んでいるかを推測することができない。我々の構築した検出不 可能なバックドアは、敵対的な例に対する頑健性という関連した問題にも光を当てている。特に、我々の構成は、「敵対的ロバスト」 分類器と見分けがつかないが、全ての入力が敵対的な例を持っている分類器を生成することができるのです。要約すると、検出不 可能なバックドアの存在は、敵対的ロバスト性を証明する上で重要な理論的障害となる。 https://arxiv.org/abs/2204.06974v1 目的: モデル学習時にバックドア(次スライドで説明)を仕込む方法を示す 成果: 現実的なサンプル数のテストでは発見できないバックドアを仕込むことができることを暗号学を用いて示した 方法: - モデル名: - 著者所属: UC Berkeley, MIT, IAS