Mobile-Former: Bridging MobileNet and Transformer

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
Mobile-Former: Bridging MobileNet and Transformer 2022/8/21 Acroquest Technology株式会社山本大輝

山本大輝（@tereka114） 1. Acroquest Technology株式会社 ① 画像処理・自然言語処理の研究開発 2. のんびりしているエンジニアの日記
http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① Sartorius – Cell Instance Segmentation 4th ② Google Landmark Retrieval 2021 5th ③ Happywhale – Whale and Dolphin Identification 11th 4. CQ出版 Interface ML／AI関連記事を複数寄稿 Kaggle Grandmaster

Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
3 IoT革新事業人々の生活基盤を変革する事業あらゆるモノからリアルタイムなデータ分析を実現する顧客価値創造事業企業のビジネスを変革する事業あらゆるデータをビジネス活用し新たな価値創造を実現する AIソリューション事業業務のありかたを変革する事業あらゆる産業で映像解析によって自動化・効率化を実現するプラットフォーム開発事業ビジネスを加速させる開発事業マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通してビジネスを強化するITシステムの構築を行う

機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
4 Acroquest社内で発足したデータサイエンスチームYAMALEX プロジェクトの高度な問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーのパートナーとして認定されています。様々な分野・規模での、AI/MLを活用した開発・導入実績があります <小売> <農業> <製造業> AI/ML分野での実力を、対外的にも認められています多種多様な課題をAIで解決するデータサイエンティストチーム

Evolve the Earth with Emotion of Technology 「働きがいのある会社(GPTW)」ランキング(従業員25～99人部門) １位
を 3回受賞１位１位１位

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.
6 会社を元気にする「いきいき実践勉強会」を開催し、多くの経営者様にご参加いただいております。

目次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
7 1. 論文概要 2. 関連研究 3. 論文手法紹介 4. 実験 5. その他提案手法の考察 6. まとめ

1. 論文概要

1. 今回の論文のポイント Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 9 Mobile-Former: Bridging MobileNet and Transformer 執筆者 • Microsoft所属の研究者が執筆発表 • Oral 論文のポイント • MobileNetとTransformerを組み合わせた軽量、かつ、高精度なネットワーク、Mobile-Formerの提案 • MobileNetで利用されるLocalと Transformerで獲得されるGlobal な特徴を結合する。個人的に面白いと思ったポイント • Transformer+Convolutionのモデルで高精度、軽量化したところ。この組み合わせは次に流行すると考えています。

2. 関連研究

2. 関連研究①:Searching for MobileNetV3 Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 11 計量モデルで有名なMobileNetのV3。 V2からの精度改善のために、 Squeeze-and-ExciteやNASの手法を取り入れ、モデルの構造を改善した。同じ同じぐらいの精度で計算量が少ない。

2. 関連研究②:An Image is Worth 16x16 Words: Transformers for Image
Recognition at Scale Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 Transformerでの高精度画像認識をするモデル「ViT」。画像からパッチを作り、そのパッチをTransformerで解析することで今までのCNNモデルを越えた。

2. 関連研究③:Early Convolutions Help Transformers See Better Copyright © Acroquest
Technology Co., Ltd. All rights reserved. 13 ViTは収束に対するLRをはじめとするハイパラの選択がセンシティブで安定性に欠けるが、 Convolutionは安定する。ViTより前にConvolutionを入れることで、収束を安定させ、精度を向上させた。

2. 関連研究④:End-to-End Object Detection with Transformers Copyright © Acroquest Technology
Co., Ltd. All rights reserved. 14 画像から特徴量を抽出する。抽出した特徴量とObject Queries（パラメータは学習する）を使う。得られた特徴量を分類・回帰する。 DETRと呼ばれる初のTransformerで構成されたObject Detectionのアーキテクチャ。通常のObject Detectionで必要なnmsなどのハイパラ群を不要とするような学習を実施するのが特徴

3. 論文手法紹介

3-1. 今回の論文のポイント（再掲） Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 16 Mobile-Former: Bridging MobileNet and Transformer 執筆者 • Microsoft所属の研究者が執筆発表 • Oral 論文のポイント • MobileNetとTransformerを組み合わせた軽量、かつ、高精度なネットワーク、Mobile-Formerの提案 • MobileNetで利用されるLocalと Transformerで獲得されるGlobal な特徴を結合する。個人的に面白いと思ったポイント • Transformer+Convolutionのモデルで高精度、軽量化したところこの組み合わせは次に流行すると考えています。

3-2. Mobile-Formerについて:Mobile-Formerの全体像 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 17 最も高精度かつ計算量が少ない Mobile-Former Block の繰り返し ZのTokenも入力する。学習するAttention用に利用するパラメータを指す。 MobileNetとTransformerを参考にした構造であるMobileとFormer。そして、それらを相互に連結するAttention構造である Cross AttentionのMobile←FormerとMobile→Formerの組み合わせである Mobile-Former Blockを重ねたもの

3-2. Mobile-Formerについて:他のモデルとの比較 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 18 精度が最も高く他の計算回数と同等なモデルより精度が高い。

3-2. Mobile-Formerについて:Mobile-Formerの構造 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 19 ②Former Block Transformerの Multi-Head AttentionとFFN を利用。 ①Mobile->Former Local FeatureとGlobal Featureの組み合わせ ③Mobile MobileNetの構造主にLocalFeatureを取得 ④Mobile<-Former Global FeatureとLocal Featureの組み合わせ前の入力（特徴マップor画像） Globalな特徴を示すtoken ※説明順にナンバリングしています。 Mobile-Formerは4つのブロックで構成されている

3-2. Mobile-Formerについて:計算順序 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 20 • MobileNetで利用される Inverted bottle neck構造を採用 • ただし、活性化関数が ReLU->Dynamic ReLUに変化しており、Z’の値をパラメータに利用する。 • Mobileで得られた特徴とFormerの結果とのAttention • 一般的なAttentionに含まれるQKVのうち、KVのみ。これは計算コストの削減に貢献している。 • Transformerでおなじみの Multi-Head AttentionとFFNを組み合わせた構造 • 出力結果として次の入力で利用される新しいtoken Z’が得られる • 入力画像XとTokenであるZのAttention • 一般的なAttentionに含まれるQKVのうち、 Qのみ。これは計算コストの削減に貢献している。 ① ② ③ ④ ① ② ③ ④ ※①～④は計算順に記載 Mobile-Formerは4つのブロックで構成されている前の入力（特徴マップor画像） Globalな特徴を示すtoken

3-2. Mobile-Formerの要素:Dynamic ReLU Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 21 inpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, Zicheng Liu Dynamic ReLU https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123640341.pdf 入力データに従ってハイパラを生成するReLU 1. パラメータを活性化関数の入力から推定する。 2. 次式にて出力を計算する。精度は従来のReLUよりも高いがパラメータや計算コストは推定分増える。推定パラメータ入力からの推定パラメータ Dynamic ReLUの精度が高い

3-3. 物体検出におけるMobile-Formerの応用 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 22 DETRは1/16まで、Mobile- FormerはDETRと比較して計算コストが低いため一層多い。 Position embeddingsの追加空間方向に制限をかけるSpatial-aware dynamic ReLUに置き換える Transformerを利用する物体検出モデルDETRと概ね同じだが、異なる点がある。

3-3. 物体検出の要素:Spatial-aware Dynamic ReLU Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 23 同じ位置のTokenの重みの合計が1になるような制約を設定する。（i=位置、j=token） Mobile-Formerの物体検出において利用される活性化関数空間単位で制約をかけるのが従来のDynamic ReLUと異なる点画像分類では効果がなかったが物体検出（COCO）のmAP向上に貢献した。（予想だが、位置情報が重要になる物体検出だから精度が向上した・・?）

4. 実験

4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 25 項目値 Dataset ImageNet Image Size 224 Optimizer AdamW （記載なし） Epoch 450 Batch size 1024 Scheduler Cosine learning rate decay Augmentation Mixup, auto-augmentation, random erasing ▪画像分類 ▪物体検出画像分類と物体検出の2種類でMobile-Formerの実験を行った。項目値 Dataset COCO2017 ImageSize 800 x 1333 Optimizer AdamW （lr1e-4, wd 1e-4） Epoch 300 Batch size 2 x 8GPUs Scheduler 200epでlrを0.1倍 Augmentation （記載なし） BNLayer Frozen (Pretrained imagenet)

4-2. 画像分類:Ablation Study Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 27 +Former(Transformer)と Dynamic ReLUの効果がある。 Transformerで利用される Multi Head Attention+FFNが良い Tokenの数は6が最も良く、Mobile-Formerではその値を採用している。 Tokenの次元数192が最も良い。 Mobile-Formerのパラメータに関する比較を実施

4-3. 物体検出:実験結果 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 28 物体検出で提案された手法 Spatial Dynamic ReLU,MFHead, AdaptPE それぞれ効果あり DETRと精度は同等だが、計算量とパラメータ数も少ない。同程度の規模のアーキテクチャの精度であれば、 Mobile-Formerの計算量が最も少ない計算量が低い計算量が低い計算量が低い計算量が低い全ての手法が乗っているもの精度が同等で計算量が DETRと比較して1/4ほど

4-4. 実験結果のまとめ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 29 No. 項目説明 1 精度物体検出／物体検出共に、同程度の計算量／パラメータ量における精度が高い。 2 性能本提案手法は、物体検出／物体検出共に同系統の有名な手法であるMobileNetV3より計算量が少ない。また、物体検出ではDETRと同等の精度であり、かつ、計算量が抑えられている。 3 効果のあった取り組み提案手法において、次の手法の効果があった画像分類:Former+Bridge/Dynamic ReLU/MHA+FFN 物体検出:Spatial Dynamic ReLU,MFHead, AdaptPE

5. その他提案手法の考察

5-1. その他手法の考察 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 31 No. 項目内容 1 Cross Attentionの可視化 Attention構造であるMobile→Former, Mobile←Former構造を可視化した結果。それぞれの構造でモデルが得ている特徴がわかる 2 Mobile-Former vs MobileNetV3の性能本提案手法であるMobile-Formerと CNNベースの手法であるMobileNetV3の比較。実際に利用する上で性能を重視する場合、どちらのモデルをいつ利用すべきかの判断が可能精度に関連する実験の他にMobile-Formerに関する手法の考察を実施している。

5-2. Cross Attentionの可視化 Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 32 主にGlobalな特徴を獲得している。主にLocalな特徴を獲得している。低レイヤー:エッジやコーナ―を中心高レイヤー:広い領域を見る Mobile→Former、Mobile←Formerの可視化 Global／Localな特徴を別々にとらえていることがわかる

5-3. Mobile-Former vs MobileNetV3の性能 Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 33  Mobile-FormerとMobileNetV3では、ほぼ同じFLOPSを持つモデル。画像が大きい場合は、Mobile-Formerの性能が良い。  ただし、PyTorchの実装はConvolutionの効率が最も良いため、解像度が低い場合、MobileNetV3の方が高速になる。 800付近で逆転

6. まとめ

6-1. まとめ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 35  Mobile-Formerと呼ばれる高精度、高性能なモデルを提案した。特に、Cross AttentionによるConvolution/Transformerの組み合わせが精度に貢献した。  画像分類、物体検出において同系統のMobileNetV3/DETRなどと比較して、精度向上・性能向上を確認できた。

6-2. 感想 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 36  Mobile-Formerは高速であるため、ラズパイなどに配置でき、モデルの最適化することでCPUで計算が可能かもしれない。  Transformer＋Convolutionを組み合わせたモデルで使いやすいのが、SoTAとして1年以内に登場しそう。

Mobile-Former: Bridging MobileNet and Transformer

Mobile-Former: Bridging MobileNet and Transformer

More Decks by tereka114

Other Decks in Programming

Featured

Transcript