Upgrade to Pro — share decks privately, control downloads, hide ads and more …

YOLO26_ Key Architectural Enhancements and Perf...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

紹介する論文は、「YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection」です。
従来OLOシリーズで活用された、「NM(Non-Maximum uppression)」と「DFL(Distribution Focal Loss)」
が計算時間と実利用に置いてボトルネックになっていました。そこで、この論文ではProgLoss(学習が進む毎に難しいサンプルへ重みを上げる)、AL(小物体へラベル割り当て工夫)、MuGD(学習収束を早くする工夫)を用いて、計算度と性能維持を超えて性能の改善を行なっています。実験結果ではCOCOデータセットで計算時間・精度で高い性能を示しました。
Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用

Avatar for SatAI.challenge

SatAI.challenge

March 03, 2026
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 中村凌
 1 YOLO26: Key Architectural Enhancements and Performance Benchmarking for

    Real-Time Object Detection 第24回 atAI.challenge勉強会

  2. 中村 凌 株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ •

    株式会社天地人データサイエンティスト (2024/04 - 現在) • SatAI.challenge 主宰(2024/09 - 現在) • cvpaper.challenge HQ(2021/1 - 現在 ) • 福岡大学大学院 理学研究科 応用数学専攻 博士課程(2021/04 - 2024/03) • 産業技術総合研究所 コンピュータビジョンチーム RA(2021/05 - 2024/03) • 福岡大学大学院 理学研究科 応用数学専攻 修士課程(2019/04 - 2021/03) 自己紹介 Twitter LinkedIn 2 これまで 個人的な活動 • 研究効率化Tips (ViEW2021招待講演) • 国際会議へ 論文採択実績(IROS / ICCV 2023, ICASSP / ECCV2024) • CCCS,W2021/2022 GC PC(登録者800名超え) • SSII2023オーディエンス賞受賞 • SatAI.challenge運営(国際論文 日本語資料・動画 アーカイブ化)
  3. 計算 度を改善するために、これまでボトルネックになってた処理を削除し、段階的な学習と小物体 へ 学習、最適化方法を見直し性能を改善 
 3 OLO26: Key Architectural Enhancements

    and Performance Benchmarking for eal- ime Object Detection 
 • 従来 OLOシリーズで活用された、「NM (Non-Maximum uppression)」と「DFL(Distribution Focal Loss)」 計算時間や実利用 ボトルネックに焦点をあて、これまで物体検出で大事とされていた方法論を取り除いた
 • そ 代わりにProgLoss(学習が進む毎に難しいサンプルへ 重みを上げる)、 AL(小物体へ ラベル 割り 当て 工夫)、Mu GD(学習 収束を早くする工夫)を用いて、計算 度と性能維持を図った論文
 • 以下 実験結果が示すよにCOCOデータセットで計算時間・精度で高い性能を示している
 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  4. これまで OLOアップデート 歴史 
 Ranjan Sapkota et al. (2026), “YOLO26:

    Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構 的イノベーションと貢献 概要 YOLOv1 (2015) 最初 統合されたシングルステージ物体検出器 (バウンディングボックスとクラス確率を単一 ネットワークで処理) YOLOv2 (2016) マルチスケール学習 導入 。事前 ボックス( Prior boxes)を改善するため アンカーボッ クス次元 クラスタリング (YOLO9000による結合検出・分類) YOLOv3 (2018) 残差結合( Residual connections)を持つより深い Darknet-53バックボーン 採用 。SPPモ ジュールと、小物体検出 ため マルチスケール特徴融合 追加 YOLOv4 (2020) Mish活性化関数 採用 。特徴 再利用を強化するため CSPDarknet-53バックボーン。 YOLOv5 (2020) UltralyticsによるPyTorch実装。アンカーフリー検出ヘッド オプション、 SiLU(Swish)活性化 関数、特徴集約 ため PANetネック 使用 。 YOLOv6 (2022) 自己注意( Self-attention)を埋め込んだ EfficientRepバックボーン 。 効率化 ため アンカーフリー物体検出モード 導入。 attention追加
 物体検出性能向上 ため モ デル モデル 計算方法につ いて検討 

  5. これまで OLOアップデート 歴史 
 Ranjan Sapkota et al. (2026), “YOLO26:

    Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構 的イノベーションと貢献 概要 YOLOv7 (2022) モデル 再パラメータ化( Model re-parameterization)を伴う拡張 ELAN(E-ELAN)バック ボーン。より広範なタスク(追跡など) ため Transformerベース モジュール 統合 。 YOLOv8 (2023) 新しいC2fバックボーンと分離型ヘッド( Decoupled head)。 生成技術( GANベース 拡張)と完全なアンカーフリー設計 統合 。 YOLOv9 (2024) 選択的な学習 ため プログラマブル勾配情報 (PGI:Programmable Gradient Information) 導入。 特徴抽出向上 ため G-ELAN(強化版 ELAN) 提案 。 YOLOv10 (2024) 一貫したデュアルアサインメント学習戦略による、 End-to-End NMS(非極大抑制)フリー検 出 導入 。 ransformer導入
 物体検出 精度向上 

  6. これまで OLOアップデート 歴史 
 Ranjan Sapkota et al. (2026), “YOLO26:

    Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 Model 重要な構 的イノベーションと貢献 概要 YOLO11 (2024) 効率化 ため、バックボーンとネック全体に C3k2 CSPボトルネック (より小さなカーネル CSPブロック)を追加。 重要な領域に焦点を当てるため C2PSA(空間的注意付き CSP)モジュール 導入 (SPPF 維持)。 YOLOv12 (2025) Attention中心 アーキテクチャ: 効率的なエリア Attentionモジュール(低計算量 グローバ ル自己注意) 導入 。特徴集約を改善する Residual ELAN(R-ELAN)ブロック 導入 によ り、YOLO 度でTransformerレベル 精度を実現。 YOLOv13 (2025) 大域的な高次特徴 相互作用を捉えるため Hypergraph-based Adaptive Correlation Enhancement(HyperACE)モジュール 。ネットワーク全体 特徴フローを強化する Full-Pipeline Aggregation-Distribution(FullPAD)スキーム 。複雑さを軽減するため Depthwise-separable convolutions(深さ方向分離畳み込み) 利用 。 v11ぐらいから計算効率化に焦点があたり始め る(おそらく egment Anything Model 影響) 
 ベンチマーク 精度向上によって改善されてきた で
 「モデル外 処理(後処理やエクスポート対応)増加 」「動かすまで 工数 増加」
  7. 論文 問題点
 • OLO26で 計算効率以下 課題にフォーカス 
 ◦ NM :アルゴリズム

    特性場現場で活用する際にパラメータチューニングが必要 
 ◦ DFL:計算処理に積分処理が含まれてしまい別 計算機へ 移植性に影響を与える 
 • OLO26 (1) NM を消す、(2) DFLを消す、(3) そ 穴を 学習側 工夫(ProgLoss/ AL/Mu GD) で埋める方針を取る
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 DFL計算遅い
 NM チューニング大変
 小規模物体 学習が困難
 学習効率(時間がかかる)

  8. • NM :「多数 候補枠(One-to-many)」から最後に精度 良い1つ バウンディングボックを求めるため 後処理 
 • 具体的な計算

    手順
 ◦ 1. 確信度スコアが高い順へ並び変え 
 ◦ 2. リスト 先頭にある正解候補(M)を選出(一番先頭 代表候補) 
 ◦ 3. 重なり判定:代表候補と正解候補(M)同士 Io (重なり度合い)を計算 
 ◦ 4. 重複したバウンディングボックス 削除:計算したIo が閾値以上であるかを判定 
 ◦ 5. Io が閾値未満 結果を別 クラス 予測候補として活用 
 NM (Non-Maximum uppression)って何? 
 1
 2
 3
 4
 5
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  9. DFL(Distribution Focal Loss)って何? 
 • DFL:従来 バウンディングボックス座標or中心座標 予測と異なり、確率分布として予測する位置座標 回帰を高精度化する仕組み。 


    
 d4r6j et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 ←点 回帰
 ←点 周辺 確率 が高くなるように回 帰

  10. OLO26 概要:「推論を単純化」し「学習で改善」という設計思想 
 Ranjan Sapkota et al. (2026), “YOLO26: Key

    Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 推論過程 変更部分 
 学習過程 変更部分 

  11. NM を取り除くモチベーションについて 
 • NM 現場にデプロイする際にパラメータチューニングが必要 
 ◦ NM を取り除くために論文で

    直接回帰ヘッドを用いて予測 
 ◦ 予測1つに対して1つ バウンディングボックスを割り当てる方式で学習 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  12. AL( mall- arget-Aware Label Assignment) 
 Ranjan Sapkota et al.

    (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 従来手法(Io ベース 割り当て) 
 Io が低いため小物体が無視される 
 AL
 サイズ情報に基づき重み付けを行い 
 優先的にラベルを割り当て 
 物体が小さいとラベル 割り当てがうまくいかない 
 「小物体へ ラベル割当て」を変更し小物体を学習しやすくする 
 物体が小さいとラベル 割り当てがうまくいかない 

  13. DFLを取り除くモチベーションについて 
 • DFL で、バウンディングボックス 座標を「1つ 数値」で なく「確率分布」として予測 
 ◦

    確率分布を積分(また 加重平均)して座標値に戻す処理を推論時に行う 
 • 上記 処理 特定 演算操作を必要とし計算機によって 動かない原因になる 
 ◦ ONN 、 ensor 、CoreML、 FLiteなど 異なる形式へ変換(エクスポート)する際、演算子が対応してい なかったり、特殊なプラグインが必要になるケースが発生する 
 • OLO26で 、DFLを取り除き、こ 計算を単純化。 
 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 特徴マップ
 分布予測
 softmax演算
 期待値計算
 バウンディング ボックス
 バウンディング ボックス
 特徴マップ
 位置 回帰
 単純化

  14. ProgLossについて:「学習 後半で簡単な例に支配される問題」を抑える 
 • ProgLoss(Progressive Loss Balancing) 、学習 進行状況(エポック数や収束具合)に応じて、異な る損失コンポーネント

    「重み付け」を動的に変化させる仕組み 
 • 具体的な数式 論文中に記載されてない で概念的なイメージを共有 
 
 
 • 動的な重み係数(Dynamic eighting) 
 ◦ 「学習 後半において、簡単なサンプルが損失全体を支配してしまう を防ぐ」ために適応的に 再重み付けを実施することで、学習 後半 難しいサンプルへ 学習 
 • 残り 、物体 位置 回帰(L_box)・物体 クラス分類(L_cls) 損失 
 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  15. Mu GDについて:「 GD 汎化」・「より安定に く収束」最適化を目指す 
 • Mu GD: GDにMuon系

    最適化を良い所取りした手法 
 ◦ GD(確率的勾配降下法) 役割 
 ▪ 汎化性能 担保: GD 長年 OLOシリーズを含む画像認識モデルで使用されてきた標 準的な手法で、未知 データに対する適応力(汎化)が高いことが知られている 
 ◦ Muon(Momentum/Curvature) 役割 
 ▪ 収束 さと安定性を担保:Muon 大規模言語モデル トレーニング用に提案された手 法
 ▪ パラメータ 曲率(curvature)やモーメンタム(勢い)を考慮した適応的な挙動を持ち、複雑 な損失関数 「谷」を効率よく下ることが可能に 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 「 GD 汎化」・「より安定に く収束」 良いとこ取りをした最適化手法

  16. 実験設定
 • 評価タスク:検出/インスタンスセグメンテーション/分類/pose/回転BBoxを、同系列モデルで横並び 評価
 • 主要ベンチ:COCO(検出/セグメ/pose)、ImageNet(分類)、DO A v1(回転BBox) 
 •

    ランタイム:CP ONN 、GP N IDIA 4 + ensor FP16を中心に 度を報告 
 (e2e指標も併記)
 • モデル 表記について 説明
 ◦ OLO26n = nano(最小)
 ◦ OLO26s = small
 ◦ OLO26m = medium
 ◦ OLO26l = large
 ◦ OLO26x = extra-large(最大)
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  17. • 下記に物体検出とインスタンスセグメンテーション 結果を示す
 ◦ モデルサイズが異なる結果を異なる指標で評価(e2eがNM free 結果)
 • NM -freeにしても精度低下が小さい(と書いてあった。)

    
 ◦ 物体検出: OLO26nでe2e mAP 40.1(-0.8低下)、 OLO26xで56.9(-0.6低下)
 ◦ セグメンテーション: OLO26nでe2e mAP 結果33.9(-5.7低下)、 OLO26xで47.0(-0.6低下)
 • モデルサイズを大きくしても性能が改善 
 ◦ 物体検出:e2e n-seg vs x-segで16.8精度が向上
 ◦ mAPmask n-seg vs x-segで13.1精度が向上(33.9→47.0)
 
 ベンチマーク:物体検出&インスタンスセグメンテーション 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  18. • NM -freeにしても精度低下が小さい(と書いてあった。) 
 ◦ e2e有り無し 比較
 物体検出: OLO26nで mAP

    -0.8低下、 OLO26xで -0.6低下
 ◦ セグメンテーション: OLO26nで mAP -5.7低下、 OLO26xで -0.6低下
 • モデルサイズを大きくしても性能が改善 
 ◦ モデルサイズ 比較
 ◦ 物体検出:e2e n-seg vs x-segだと、16.8精度が向上
 ◦ mAPmask n-seg vs x-segだと、13.1精度が向上
 
 ベンチマーク:物体検出&インスタンスセグメンテーション 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用
  19. ベンチマーク:画像分類&ポーズ推定 
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural

    Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 画像分類
 ポーズ推定
 モデル サイズ大きくすると精度向上 

  20. ベンチマーク:回転バウンディングボックス(データセットDO A) 
 • モデルサイズを大きくすると精度が改善 
 • NM -free 設計を回転検出にも拡張し、航空画像・リモセン用途に適すると述べる

    
 • 小物体( AL)×回転BBox(DO A) 組 、船舶・車両・建 物など“細長い/斜め” 検出で効き筋 がある
 Ranjan Sapkota et al. (2026), “YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection”, arXiv:2509.25164. より引用 回転バウンディングボックス 回帰でもモデルサイズに応じて精度向上を確認