on the Mobile • ViTの次元方向には少数の外れ値で量子化が困難 – モデルの重みにより固定のIndexで外れ値が発生→外れ値を抑制で学習可能なPTRを導入 – 入力サイズ64×128の外れ値の抑制方法 • 1×128の範囲で平均と標準偏差で3σルールを使用し外れ値のIndexを特定 • 1×128サイズのPTRは学習可能なnを使用し外れ値のIndexに対応したPTRのnを使用し 1 2𝑛 で積 – 外れ値の抑制し,それに応じて重みを変化→外れ値のないモデルを学習 – 学習方法:重みとPTRを同時に学習→PTRを固定し重みを再学習 • 外れ値のない量子化しやすいモデルを獲得 147 Swinの各次元の最大値と最小値 • 1024枚の画像でテスト:21,89,146,189の次元Indexで常に外れ値が発生 • 外れ値の0にすると精度が30%→外れ値を切り捨てるのはダメ • ViTで使用するGeLUやsoftmaxの量子化はlog2量子化を使用 • GELUの外れ値を抑制するためにGELU後に[-1,10]でクリップ