Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Mobile-Former: Bridging MobileNet and Transformer
Search
tereka114
August 21, 2022
Programming
0
1k
Mobile-Former: Bridging MobileNet and Transformer
第11回 全日本コンピュータビジョン勉強会(後編) 発表資料
https://kantocv.connpass.com/event/253626/
tereka114
August 21, 2022
Tweet
Share
More Decks by tereka114
See All by tereka114
トラブルがあったコンペに学ぶデータ分析
tereka114
2
910
Harnessing Large Language Models for Training-free Video Anomaly Detection
tereka114
1
1.4k
KDD2023学会参加報告
tereka114
2
500
Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering
tereka114
0
340
DER: Dynamically Expandable Representation for Class Incremental Learning
tereka114
0
150
Jupyter Notebookを納品した話
tereka114
0
340
Multi Scale Recognition with DAG-CNNs
tereka114
0
100
How to use scikit-image for data augmentation
tereka114
0
190
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
tereka114
0
210
Other Decks in Programming
See All in Programming
Jakarta EE meets AI
ivargrimstad
0
110
Micro Frontends Unmasked Opportunities, Challenges, Alternatives
manfredsteyer
PRO
0
110
Ethereum_.pdf
nekomatu
0
460
Arm移行タイムアタック
qnighy
0
330
Contemporary Test Cases
maaretp
0
140
Amazon Qを使ってIaCを触ろう!
maruto
0
410
ActiveSupport::Notifications supporting instrumentation of Rails apps with OpenTelemetry
ymtdzzz
1
240
GitHub Actionsのキャッシュと手を挙げることの大切さとそれに必要なこと
satoshi256kbyte
5
430
3rd party scriptでもReactを使いたい! Preact + Reactのハイブリッド開発
righttouch
PRO
1
610
AWS Lambdaから始まった Serverlessの「熱」とキャリアパス / It started with AWS Lambda Serverless “fever” and career path
seike460
PRO
1
260
CSC509 Lecture 11
javiergs
PRO
0
180
Better Code Design in PHP
afilina
PRO
0
130
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
31
6.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Faster Mobile Websites
deanohume
305
30k
Why Our Code Smells
bkeepers
PRO
334
57k
Side Projects
sachag
452
42k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
YesSQL, Process and Tooling at Scale
rocio
169
14k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
420
Transcript
1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
Mobile-Former: Bridging MobileNet and Transformer 2022/8/21 Acroquest Technology株式会社 山本 大輝
山本 大輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・自然言語処理の研究開発 2. のんびりしているエンジニアの日記
http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① Sartorius – Cell Instance Segmentation 4th ② Google Landmark Retrieval 2021 5th ③ Happywhale – Whale and Dolphin Identification 11th 4. CQ出版 Interface ML/AI関連記事を 複数寄稿 Kaggle Grandmaster
Acroquestの事業内容 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
3 IoT革新事業 人々の生活基盤を 変革する事業 あらゆるモノからリアルタイムな データ分析を実現する 顧客価値創造事業 企業のビジネスを 変革する事業 あらゆるデータをビジネス活用し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変革する事業 あらゆる産業で映像解析によって 自動化・効率化を実現する プラットフォーム 開発事業 ビジネスを 加速させる 開発事業 マイクロサービスアーキテクチャによる開発や DevOps実践などの活動を通して ビジネスを強化するITシステムの構築を行う
機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
4 Acroquest社内で発足した データサイエンスチームYAMALEX プロジェクトの高度な 問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーの パートナーとして 認定されています。 様々な分野・規模での、AI/MLを活用した開発・導入実績があります <小売> <農業> <製造業> AI/ML分野での実力を、 対外的にも認められています 多種多様な課題をAIで解決する データサイエンティストチーム
Evolve the Earth with Emotion of Technology 「働きがいのある会社(GPTW)」 ランキング(従業員25~99人部門) 1位
を 3回 受 賞 1位 1位 1位
組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.
6 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。
目次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
7 1. 論文概要 2. 関連研究 3. 論文手法紹介 4. 実験 5. その他提案手法の考察 6. まとめ
1. 論文概要
1. 今回の論文のポイント Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 9 Mobile-Former: Bridging MobileNet and Transformer 執筆者 • Microsoft所属の研究者が執筆 発表 • Oral 論文の ポイント • MobileNetとTransformerを組み 合わせた軽量、かつ、高精度な ネットワーク、Mobile-Formerの 提案 • MobileNetで利用されるLocalと Transformerで獲得されるGlobal な特徴を結合する。 個人的に 面白いと思った ポイント • Transformer+Convolutionのモ デルで高精度、軽量化したところ。 この組み合わせは次に流行すると 考えています。
2. 関連研究
2. 関連研究①:Searching for MobileNetV3 Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 11 計量モデルで有名なMobileNetのV3。 V2からの精度改善のために、 Squeeze-and-ExciteやNASの手法を取り入れ、モデルの構造を改善した。 同じ 同じぐらいの精度 で計算量が少ない。
2. 関連研究②:An Image is Worth 16x16 Words: Transformers for Image
Recognition at Scale Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 Transformerでの高精度画像認識をするモデル「ViT」。 画像からパッチを作り、そのパッチをTransformerで解析することで 今までのCNNモデルを越えた。
2. 関連研究③:Early Convolutions Help Transformers See Better Copyright © Acroquest
Technology Co., Ltd. All rights reserved. 13 ViTは収束に対するLRをはじめとするハイパラの選択がセンシティブで安定性に欠けるが、 Convolutionは安定する。ViTより前にConvolutionを入れることで、 収束を安定させ、精度を向上させた。
2. 関連研究④:End-to-End Object Detection with Transformers Copyright © Acroquest Technology
Co., Ltd. All rights reserved. 14 画像から特徴量 を抽出する。 抽出した特徴量とObject Queries(パラメータは学 習する)を使う。 得られた特徴量を 分類・回帰する。 DETRと呼ばれる初のTransformerで構成されたObject Detectionのアーキテクチャ。 通常のObject Detectionで必要なnmsなどのハイパラ群を 不要とするような学習を実施するのが特徴
3. 論文手法紹介
3-1. 今回の論文のポイント(再掲) Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 16 Mobile-Former: Bridging MobileNet and Transformer 執筆者 • Microsoft所属の研究者が執筆 発表 • Oral 論文の ポイント • MobileNetとTransformerを組み 合わせた軽量、かつ、高精度な ネットワーク、Mobile-Formerの 提案 • MobileNetで利用されるLocalと Transformerで獲得されるGlobal な特徴を結合する。 個人的に 面白いと思った ポイント • Transformer+Convolutionのモ デルで高精度、軽量化したところ この組み合わせは次に流行すると 考えています。
3-2. Mobile-Formerについて:Mobile-Formerの全体像 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 17 最も高精度かつ計算量 が少ない Mobile-Former Block の繰り返し ZのTokenも入力する。 学習するAttention用に利用 するパラメータを指す。 MobileNetとTransformerを参考にした構造であるMobileとFormer。 そして、それらを相互に連結するAttention構造である Cross AttentionのMobile←FormerとMobile→Formerの組み合わせである Mobile-Former Blockを重ねたもの
3-2. Mobile-Formerについて:他のモデルとの比較 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 18 精度が最も高く他の計算回数と同等なモデルより精度が高い。
3-2. Mobile-Formerについて:Mobile-Formerの構造 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 19 ②Former Block Transformerの Multi-Head AttentionとFFN を利用。 ①Mobile->Former Local FeatureとGlobal Featureの組み合わせ ③Mobile MobileNetの構造 主にLocalFeatureを取得 ④Mobile<-Former Global FeatureとLocal Featureの組み合わせ 前の入力 (特徴マップor画像) Globalな特徴を示すtoken ※説明順にナンバリングしています。 Mobile-Formerは4つのブロックで構成されている
3-2. Mobile-Formerについて:計算順序 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 20 • MobileNetで利用される Inverted bottle neck構造を採用 • ただし、活性化関数が ReLU->Dynamic ReLUに 変化しており、Z’の値をパラメータに 利用する。 • Mobileで得られた特徴とFormerの 結果とのAttention • 一般的なAttentionに含まれるQKVの うち、KVのみ。 これは計算コストの削減に 貢献している。 • Transformerでおなじみの Multi-Head AttentionとFFNを 組み合わせた構造 • 出力結果として次の入力で利用される 新しいtoken Z’が得られる • 入力画像XとTokenであるZのAttention • 一般的なAttentionに含まれるQKVのうち、 Qのみ。 これは計算コストの削減に貢献している。 ① ② ③ ④ ① ② ③ ④ ※①~④は計算順に記載 Mobile-Formerは4つのブロックで構成されている 前の入力 (特徴マップor画像) Globalな特徴を示すtoken
3-2. Mobile-Formerの要素:Dynamic ReLU Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 21 inpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, Zicheng Liu Dynamic ReLU https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123640341.pdf 入力データに従ってハイパラを生成するReLU 1. パラメータを活性化関数の入力から推定する。 2. 次式にて出力を計算する。 精度は従来のReLUよりも高いが パラメータや計算コストは推定分増える。 推定パラメータ 入力からの 推定パラメータ Dynamic ReLUの 精度が高い
3-3. 物体検出におけるMobile-Formerの応用 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 22 DETRは1/16まで、Mobile- FormerはDETRと比較して 計算コストが低いため一層多い。 Position embeddingsの追加 空間方向に制限をかけ るSpatial-aware dynamic ReLUに置き 換える Transformerを利用する物体検出モデルDETRと概ね同じだが、異なる点がある。
3-3. 物体検出の要素:Spatial-aware Dynamic ReLU Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 23 同じ位置のTokenの重みの 合計が1になるような制約を設定する。 (i=位置、j=token) Mobile-Formerの物体検出において利用される活性化関数 空間単位で制約をかけるのが従来のDynamic ReLUと異なる点 画像分類では効果がなかったが物体検出(COCO)のmAP向上に貢献した。 (予想だが、位置情報が重要になる物体検出だから精度が向上した・・?)
4. 実験
4-1. 実験 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 25 項目 値 Dataset ImageNet Image Size 224 Optimizer AdamW (記載なし) Epoch 450 Batch size 1024 Scheduler Cosine learning rate decay Augmentation Mixup, auto-augmentation, random erasing ▪画像分類 ▪物体検出 画像分類と物体検出の2種類でMobile-Formerの実験を行った。 項目 値 Dataset COCO2017 ImageSize 800 x 1333 Optimizer AdamW (lr1e-4, wd 1e-4) Epoch 300 Batch size 2 x 8GPUs Scheduler 200epでlrを0.1倍 Augmentation (記載なし) BNLayer Frozen (Pretrained imagenet)
4-2. 画像分類:実験結果 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 26 計算量の大幅な削減と精度向上を実現 性能が同程度のCNNと比較して Mobile-Formerの精度が上回る。
4-2. 画像分類:Ablation Study Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 27 +Former(Transformer)と Dynamic ReLUの効果がある。 Transformerで利用される Multi Head Attention+FFNが良い Tokenの数は6が最も良く、Mobile-Formerでは その値を採用している。 Tokenの次元数192が最も良い。 Mobile-Formerのパラメータに関する比較を実施
4-3. 物体検出:実験結果 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 28 物体検出で提案された手法 Spatial Dynamic ReLU,MFHead, AdaptPE それぞれ効果あり DETRと精度は同等だが、計算量と パラメータ数も少ない。 同程度の規模のアーキテクチャの精度であれば、 Mobile-Formerの計算量が最も少ない 計算量が低い 計算量が低い 計算量が低い 計算量が低い 全ての手法が 乗っているもの 精度が同等で計算量が DETRと比較して1/4ほど
4-4. 実験結果のまとめ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 29 No. 項目 説明 1 精度 物体検出/物体検出共に、同程度の計算量/パラメータ量 における精度が高い。 2 性能 本提案手法は、物体検出/物体検出共に同系統の有名な手 法であるMobileNetV3より計算量が少ない。 また、物体検出ではDETRと同等の精度であり、かつ、 計算量が抑えられている。 3 効果のあった 取り組み 提案手法において、次の手法の効果があった 画像分類:Former+Bridge/Dynamic ReLU/MHA+FFN 物体検出:Spatial Dynamic ReLU,MFHead, AdaptPE
5. その他提案手法の考察
5-1. その他手法の考察 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 31 No. 項目 内容 1 Cross Attentionの可視化 Attention構造であるMobile→Former, Mobile←Former構造を可視化した結果。それぞ れの構造でモデルが得ている特徴がわかる 2 Mobile-Former vs MobileNetV3の性能 本提案手法であるMobile-Formerと CNNベースの手法であるMobileNetV3の比較。 実際に利用する上で性能を重視する場合、どちら のモデルをいつ利用すべきかの判断が可能 精度に関連する実験の他にMobile-Formerに 関する手法の考察を実施している。
5-2. Cross Attentionの可視化 Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 32 主にGlobalな特徴 を獲得している。 主にLocalな特徴を 獲得している。 低レイヤー:エッジや コーナ―を中心 高レイヤー:広い 領域を見る Mobile→Former、Mobile←Formerの可視化 Global/Localな特徴を別々にとらえていることがわかる
5-3. Mobile-Former vs MobileNetV3の性能 Copyright © Acroquest Technology Co., Ltd.
All rights reserved. 33 Mobile-FormerとMobileNetV3では、ほぼ同じFLOPSを持つモデル。 画像が大きい場合は、Mobile-Formerの性能が良い。 ただし、PyTorchの実装はConvolutionの効率が最も良いため、 解像度が低い場合、MobileNetV3の方が高速になる。 800付近で逆転
6. まとめ
6-1. まとめ Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 35 Mobile-Formerと呼ばれる高精度、高性能なモデルを提案した。 特に、Cross AttentionによるConvolution/Transformerの組み 合わせが精度に貢献した。 画像分類、物体検出において同系統のMobileNetV3/DETRなどと 比較して、精度向上・性能向上を確認できた。
6-2. 感想 Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 36 Mobile-Formerは高速であるため、ラズパイなどに配置でき、 モデルの最適化することでCPUで計算が可能かもしれない。 Transformer+Convolutionを組み合わせたモデルで使いやすいの が、SoTAとして1年以内に登場しそう。
Evolve the Earth with Emotion of Technology Copyright © Acroquest
Technology Co., Ltd. All rights reserved. 37 ご清聴ありがとうございました。