YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection

中村凌  1 YOLO26: Key Architectural Enhancements and Performance Benchmarking for
Real-Time Object Detection 第24回 atAI.challenge勉強会 

中村凌株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ •
株式会社天地人データサイエンティスト（2024/04 - 現在） • SatAI.challenge 主宰（2024/09 - 現在） • cvpaper.challenge HQ（2021/1 - 現在） • 福岡大学大学院理学研究科応用数学専攻博士課程（2021/04 - 2024/03） • 産業技術総合研究所コンピュータビジョンチーム RA（2021/05 - 2024/03） • 福岡大学大学院理学研究科応用数学専攻修士課程（2019/04 - 2021/03）自己紹介 Twitter LinkedIn 2 これまで個人的な活動 • 研究効率化Tips （ViEW2021招待講演） • 国際会議へ論文採択実績（IROS / ICCV 2023, ICASSP / ECCV2024） • CCCS,W2021/2022 GC PC（登録者800名超え） • SSII2023オーディエンス賞受賞 • SatAI.challenge運営（国際論文日本語資料・動画アーカイブ化）

計算度を改善するために、これまでボトルネックになってた処理を削除し、段階的な学習と小物体へ学習、最適化方法を見直し性能を改善   3 OLO26: Key Architectural Enhancements
and Performance Benchmarking for eal- ime Object Detection   • 従来 OLOシリーズで活用された、「NM （Non-Maximum uppression）」と「DFL（Distribution Focal Loss）」計算時間や実利用ボトルネックに焦点をあて、これまで物体検出で大事とされていた方法論を取り除いた  • そ代わりにProgLoss（学習が進む毎に難しいサンプルへ重みを上げる）、 AL（小物体へラベル割り当て工夫）、Mu GD（学習収束を早くする工夫）を用いて、計算度と性能維持を図った論文  • 以下実験結果が示すよにCOCOデータセットで計算時間・精度で高い性能を示している    Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

これまで OLOアップデート歴史   Ranjan Sapkota et al. (2026), “YOLO26:
Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構的イノベーションと貢献概要 YOLOv1 (2015) 最初統合されたシングルステージ物体検出器（バウンディングボックスとクラス確率を単一ネットワークで処理） YOLOv2 (2016) マルチスケール学習導入。事前ボックス（ Prior boxes）を改善するためアンカーボックス次元クラスタリング（YOLO9000による結合検出・分類） YOLOv3 (2018) 残差結合（ Residual connections）を持つより深い Darknet-53バックボーン採用。SPPモジュールと、小物体検出ためマルチスケール特徴融合追加 YOLOv4 (2020) Mish活性化関数採用。特徴再利用を強化するため CSPDarknet-53バックボーン。 YOLOv5 (2020) UltralyticsによるPyTorch実装。アンカーフリー検出ヘッドオプション、 SiLU（Swish）活性化関数、特徴集約ため PANetネック使用。 YOLOv6 (2022) 自己注意（ Self-attention）を埋め込んだ EfficientRepバックボーン。効率化ためアンカーフリー物体検出モード導入。 attention追加  物体検出性能向上ためモデルモデル計算方法について検討  

Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構的イノベーションと貢献概要 YOLOv7 (2022) モデル再パラメータ化（ Model re-parameterization）を伴う拡張 ELAN（E-ELAN）バックボーン。より広範なタスク（追跡など）ため Transformerベースモジュール統合。 YOLOv8 (2023) 新しいC2fバックボーンと分離型ヘッド（ Decoupled head）。生成技術（ GANベース拡張）と完全なアンカーフリー設計統合。 YOLOv9 (2024) 選択的な学習ためプログラマブル勾配情報（PGI：Programmable Gradient Information）導入。特徴抽出向上ため G-ELAN（強化版 ELAN）提案。 YOLOv10 (2024) 一貫したデュアルアサインメント学習戦略による、 End-to-End NMS（非極大抑制）フリー検出導入。 ransformer導入  物体検出精度向上  

Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構的イノベーションと貢献概要 YOLO11 (2024) 効率化ため、バックボーンとネック全体に C3k2 CSPボトルネック（より小さなカーネル CSPブロック）を追加。重要な領域に焦点を当てるため C2PSA（空間的注意付き CSP）モジュール導入（SPPF 維持）。 YOLOv12 (2025) Attention中心アーキテクチャ：効率的なエリア Attentionモジュール（低計算量グローバル自己注意）導入。特徴集約を改善する Residual ELAN（R-ELAN）ブロック導入により、YOLO 度でTransformerレベル精度を実現。 YOLOv13 (2025) 大域的な高次特徴相互作用を捉えるため Hypergraph-based Adaptive Correlation Enhancement（HyperACE）モジュール。ネットワーク全体特徴フローを強化する Full-Pipeline Aggregation-Distribution（FullPAD）スキーム。複雑さを軽減するため Depthwise-separable convolutions（深さ方向分離畳み込み）利用。 v11ぐらいから計算効率化に焦点があたり始める(おそらく egment Anything Model 影響)   ベンチマーク精度向上によって改善されてきたで  「モデル外処理（後処理やエクスポート対応）増加」「動かすまで工数増加」

論文問題点  • OLO26で計算効率以下課題にフォーカス   ◦ NM ：アルゴリズム
特性場現場で活用する際にパラメータチューニングが必要   ◦ DFL：計算処理に積分処理が含まれてしまい別計算機へ移植性に影響を与える   • OLO26 (1) NM を消す、(2) DFLを消す、(3) そ穴を学習側工夫（ProgLoss/ AL/Mu GD）で埋める方針を取る  Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 DFL計算遅い  NM チューニング大変  小規模物体学習が困難  学習効率（時間がかかる） 

• NM ：「多数候補枠（One-to-many）」から最後に精度良い1つバウンディングボックを求めるため後処理   • 具体的な計算
手順  ◦ 1. 確信度スコアが高い順へ並び変え   ◦ 2. リスト先頭にある正解候補（M）を選出（一番先頭代表候補）   ◦ 3. 重なり判定：代表候補と正解候補（M）同士 Io （重なり度合い）を計算   ◦ 4. 重複したバウンディングボックス削除：計算したIo が閾値以上であるかを判定   ◦ 5. Io が閾値未満結果を別クラス予測候補として活用   NM （Non-Maximum uppression）って何？   １  ２  ３  ４  ５  Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

DFL（Distribution Focal Loss）って何？   • DFL：従来バウンディングボックス座標or中心座標予測と異なり、確率分布として予測する位置座標回帰を高精度化する仕組み。  
  d4r6j et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 ←点回帰  ←点周辺確率が高くなるように回帰 

OLO26 概要：「推論を単純化」し「学習で改善」という設計思想   Ranjan Sapkota et al. (2026), “YOLO26: Key
Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用推論過程変更部分   学習過程変更部分  

NM を取り除くモチベーションについて   • NM 現場にデプロイする際にパラメータチューニングが必要   ◦ NM を取り除くために論文で
直接回帰ヘッドを用いて予測   ◦ 予測１つに対して１つバウンディングボックスを割り当てる方式で学習   Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

AL( mall- arget-Aware Label Assignment)   Ranjan Sapkota et al.
(2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用従来手法（Io ベース割り当て）   Io が低いため小物体が無視される   AL  サイズ情報に基づき重み付けを行い   優先的にラベルを割り当て   物体が小さいとラベル割り当てがうまくいかない   「小物体へラベル割当て」を変更し小物体を学習しやすくする   物体が小さいとラベル割り当てがうまくいかない  

DFLを取り除くモチベーションについて   • DFL で、バウンディングボックス座標を「1つ数値」でなく「確率分布」として予測   ◦
確率分布を積分（また加重平均）して座標値に戻す処理を推論時に行う   • 上記処理特定演算操作を必要とし計算機によって動かない原因になる   ◦ ONN 、 ensor 、CoreML、 FLiteなど異なる形式へ変換（エクスポート）する際、演算子が対応していなかったり、特殊なプラグインが必要になるケースが発生する   • OLO26で、DFLを取り除き、こ計算を単純化。     Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用特徴マップ  分布予測  softmax演算  期待値計算  バウンディングボックス  バウンディングボックス  特徴マップ  位置回帰  単純化 

ProgLossについて：「学習後半で簡単な例に支配される問題」を抑える   • ProgLoss（Progressive Loss Balancing）、学習進行状況（エポック数や収束具合）に応じて、異なる損失コンポーネント
「重み付け」を動的に変化させる仕組み   • 具体的な数式論文中に記載されてないで概念的なイメージを共有       • 動的な重み係数（Dynamic eighting）   ◦ 「学習後半において、簡単なサンプルが損失全体を支配してしまうを防ぐ」ために適応的に再重み付けを実施することで、学習後半難しいサンプルへ学習   • 残り、物体位置回帰（L_box）・物体クラス分類（L_cls）損失     Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Mu GDについて：「 GD 汎化」・「より安定にく収束」最適化を目指す   • Mu GD： GDにMuon系
最適化を良い所取りした手法   ◦ GD（確率的勾配降下法）役割   ▪ 汎化性能担保： GD 長年 OLOシリーズを含む画像認識モデルで使用されてきた標準的な手法で、未知データに対する適応力（汎化）が高いことが知られている   ◦ Muon（Momentum/Curvature）役割   ▪ 収束さと安定性を担保：Muon 大規模言語モデルトレーニング用に提案された手法  ▪ パラメータ曲率（curvature）やモーメンタム（勢い）を考慮した適応的な挙動を持ち、複雑な損失関数「谷」を効率よく下ることが可能に   Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用「 GD 汎化」・「より安定にく収束」良いとこ取りをした最適化手法 

実験設定  • 評価タスク：検出/インスタンスセグメンテーション/分類/pose/回転BBoxを、同系列モデルで横並び評価  • 主要ベンチ：COCO（検出/セグメ/pose）、ImageNet（分類）、DO A v1（回転BBox）   •
ランタイム：CP ONN 、GP N IDIA 4 + ensor FP16を中心に度を報告   （e2e指標も併記）  • モデル表記について説明  ◦ OLO26n = nano（最小）  ◦ OLO26s = small  ◦ OLO26m = medium  ◦ OLO26l = large  ◦ OLO26x = extra-large（最大）  Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

• 下記に物体検出とインスタンスセグメンテーション結果を示す  ◦ モデルサイズが異なる結果を異なる指標で評価（e2eがNM free 結果）  • NM -freeにしても精度低下が小さい（と書いてあった。）
  ◦ 物体検出： OLO26nでe2e mAP 40.1（-0.8低下）、 OLO26xで56.9（-0.6低下）  ◦ セグメンテーション： OLO26nでe2e mAP 結果33.9（-5.7低下）、 OLO26xで47.0（-0.6低下）  • モデルサイズを大きくしても性能が改善   ◦ 物体検出：e2e n-seg vs x-segで16.8精度が向上  ◦ mAPmask n-seg vs x-segで13.1精度が向上(33.9→47.0)    ベンチマーク：物体検出&インスタンスセグメンテーション   Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

• NM -freeにしても精度低下が小さい（と書いてあった。）   ◦ e2e有り無し比較  物体検出： OLO26nで mAP
-0.8低下、 OLO26xで -0.6低下  ◦ セグメンテーション： OLO26nで mAP -5.7低下、 OLO26xで -0.6低下  • モデルサイズを大きくしても性能が改善   ◦ モデルサイズ比較  ◦ 物体検出：e2e n-seg vs x-segだと、16.8精度が向上  ◦ mAPmask n-seg vs x-segだと、13.1精度が向上    ベンチマーク：物体検出&インスタンスセグメンテーション   Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

ベンチマーク：画像分類&ポーズ推定   Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural
Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用画像分類  ポーズ推定  モデルサイズ大きくすると精度向上  

ベンチマーク：回転バウンディングボックス（データセットDO A）   • モデルサイズを大きくすると精度が改善   • NM -free 設計を回転検出にも拡張し、航空画像・リモセン用途に適すると述べる
  • 小物体（ AL）×回転BBox（DO A）組、船舶・車両・建物など“細長い/斜め” 検出で効き筋がある  Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用回転バウンディングボックス回帰でもモデルサイズに応じて精度向上を確認  

YOLO26_ Key Architectural Enhancements and Perf...

YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript

中村凌  1 YOLO26: Key Architectural Enhancements and Performance Benchmarking for

中村凌株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ •

計算度を改善するために、これまでボトルネックになってた処理を削除し、段階的な学習と小物体へ学習、最適化方法を見直し性能を改善   3 OLO26: Key Architectural Enhancements

これまで OLOアップデート歴史   Ranjan Sapkota et al. (2026), “YOLO26:

これまで OLOアップデート歴史   Ranjan Sapkota et al. (2026), “YOLO26:

これまで OLOアップデート歴史   Ranjan Sapkota et al. (2026), “YOLO26:

論文問題点  • OLO26で計算効率以下課題にフォーカス   ◦ NM ：アルゴリズム

• NM ：「多数候補枠（One-to-many）」から最後に精度良い1つバウンディングボックを求めるため後処理   • 具体的な計算

DFL（Distribution Focal Loss）って何？   • DFL：従来バウンディングボックス座標or中心座標予測と異なり、確率分布として予測する位置座標回帰を高精度化する仕組み。

OLO26 概要：「推論を単純化」し「学習で改善」という設計思想   Ranjan Sapkota et al. (2026), “YOLO26: Key

NM を取り除くモチベーションについて   • NM 現場にデプロイする際にパラメータチューニングが必要   ◦ NM を取り除くために論文で

AL( mall- arget-Aware Label Assignment)   Ranjan Sapkota et al.

DFLを取り除くモチベーションについて   • DFL で、バウンディングボックス座標を「1つ数値」でなく「確率分布」として予測   ◦

ProgLossについて：「学習後半で簡単な例に支配される問題」を抑える   • ProgLoss（Progressive Loss Balancing）、学習進行状況（エポック数や収束具合）に応じて、異なる損失コンポーネント

Mu GDについて：「 GD 汎化」・「より安定にく収束」最適化を目指す   • Mu GD： GDにMuon系

実験設定  • 評価タスク：検出/インスタンスセグメンテーション/分類/pose/回転BBoxを、同系列モデルで横並び評価  • 主要ベンチ：COCO（検出/セグメ/pose）、ImageNet（分類）、DO A v1（回転BBox）   •

• 下記に物体検出とインスタンスセグメンテーション結果を示す  ◦ モデルサイズが異なる結果を異なる指標で評価（e2eがNM free 結果）  • NM -freeにしても精度低下が小さい（と書いてあった。）

• NM -freeにしても精度低下が小さい（と書いてあった。）   ◦ e2e有り無し比較  物体検出： OLO26nで mAP

ベンチマーク：画像分類&ポーズ推定   Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural

ベンチマーク：回転バウンディングボックス（データセットDO A）   • モデルサイズを大きくすると精度が改善   • NM -free 設計を回転検出にも拡張し、航空画像・リモセン用途に適すると述べる