$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
生成AIと物体検知 (YOLO)の活用例について
Search
Ikumi Ono
September 13, 2025
0
380
生成AIと物体検知 (YOLO)の活用例について
Ikumi Ono
September 13, 2025
Tweet
Share
More Decks by Ikumi Ono
See All by Ikumi Ono
ログ管理の新たな可能性?CloudWatchの新機能をご紹介
ikumi_ono
0
470
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.4k
Unsuck your backbone
ammeep
671
58k
Site-Speed That Sticks
csswizardry
13
990
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.2k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.1k
BBQ
matthewcrist
89
9.9k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
121
20k
For a Future-Friendly Web
brad_frost
180
10k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Thoughts on Productivity
jonyablonski
73
5k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
700
Transcript
⽣成AIと物体検知 (YOLO)の活⽤例につ いて ⼤野 育海 クラウド事業本部 運⽤イノベーション部
⾃⼰紹介 2 • 名前:⼤野 育海 • ロール:プラットフォームエンジニア • 趣味:カメラ、野⿃撮影、バイク
そもそも⽣成AIとは? 3 • ⽣成AI(Generative AI)は、学習したデータをもとに⽂章や画像、⾳声、 コードなど「新しいコンテンツを⽣み出すAI」のこと • OpenAI の ChatGPT
は ⾃然⾔語処理に特化した⼤規模⾔語モデル(LLM: Large Language Model) の代表例で、⼊⼒プロンプトに応じて⼈間のように ⾃然な⽂章を⽣成できる
物体検知とは?YOLOとは? 4 • 物体検知(object detection)とは、画像や動画の中から「どの場所に何が あるか」を⾒つける技術のこと • YOLO (You Only
Look Once)は物体検知を⾼速かつ⾼精度に⾏うための ディープラーニング(深層学習)モデルの⼀つ • 例)⽝、猫、⼈、⾃動⾞、信号機 などを囲んで「これは⽝、これは⼈」と認 識できる • YOLO は「ディープラーニングを使った画像認識AI」 • したがって AIの⼀種(機械学習モデルの⼀種)に分類される • ただし YOLO ⾃体は「⽣成するAI」ではなく「認識するAI」
両者の違いまとめ 5 観点 物体検知( YOLOなど) 生成AI(ChatGPTなど) 主な役割 画像の中の物体を検出・分類 入力から新しい文章や画像な どを生成
AIの種類 認識系AI 生成系AI 技術要素 画像認識用のCNNベースのモデ ル 大規模言語モデル(LLM)や拡 散モデル 出力 バウンディングボックス+ラベル テキスト・画像・音声などのコン テンツ
アプリを作りました 6 • ⽣成AIと物体検知を組み合わせたアプリを作成しました • まずはデモをご覧ください
アプリデモ動画 7
使⽤技術の概要 8 名称 概要 目的 備考 YOLO11(yolo11n.pt) 物体検出 インプット画像から鳥を検 出
OpenCV 画像処理 鳥の部分のみ切り出し Gemini 2.5 Pro 回答生成 鳥の名前などのテキスト を生成 Google AI StudioのFree プラン React + Electron フロントエンド デスクトップアプリの UIを 作成 SQLite データベース 鳥のデータを保持
組み合わせの利点 9 単体使⽤の限界 【YOLO単体の場合‧‧‧】 • 「⿃がいる」ことはわかるが、種類は不明 • 検出精度:95% → でも「何の⿃?」は答えられない
【Gemini単体の場合‧‧‧】 • 背景、枝、葉っぱなど不要情報が多すぎる • ノイズ情報に惑わされて判定ミス
組み合わせの利点 10 組み合わせた場合 【YOLO → Gemini】 • YOLO(+OpenCV)で画像から⿃の部分のみ切り出し、リサイズ • 1枚の画像に複数⽻の⿃がいる場合でもYOLOで個別に検出
• ノイズ情報を除去した画像をGeminiで分析することで回答精度向上 • リサイズにより消費トークン量も削減
YOLOの検出例 11
⿃部分の切り出しとリサイズ 12
Geminiの回答⽐較 13 元画像のまま⼊⼒
Geminiの回答⽐較 14 ⿃部分のみ切り抜いて⼊⼒
Geminiの回答⽐較 15 ⽐較まとめ Geminiへの入力方法 回答の正確さ トークン消費量 元画像のまま 低い: • 東京に生息しない鳥を回答とし
て生成 • ハルシネーション発生 高い: • トークン消費量:359 • 回答の正確性の低さ(不確実な推論)に より出力テキストが長くなり、トークン量 が多くなった 鳥部分だけ切り抜き 高い: • 正確に鳥の名前を同定 低い: • トークン消費量:338 • 結論+短い説明だけのため出力テキスト が簡潔で、トークン量が少ない
落とし⽳ 16 YOLOを挟まない⽅が回答精度が⾼い場合も‧‧‧? • Gemini 2.5 Proがかなり優秀 • 未学習のデフォルトモデルでは⿃検出に特化していない
この画像、どこに⿃がいるかわかりますか? 17
YOLOの検出結果 18
Gemini 2.5 Pro の回答 19
いた‧‧‧!! 20
今後の展望 21 • ⽣成AIでYOLOモデルを強化 • ⽣成させた画像でYOLOの学習を実施する • 学習データの調達が容易 • YOLOの検出精度向上
+ 独⾃ラベルの設定 • ⽣成AIへのプロンプト簡易化=トークン節約 :「ラベル名の⿃について解説お願い」 • オフライン環境で使⽤可能 「YOLO → ⽣成AI」を「⽣成AI → YOLO」へ
おわりに 22 • 物体検出はオワコンではない(⾃戒) • 実際に多くの分野で活躍: ◦ CCTV映像の要約システム ▪ YOLOにより映像内の物体(⼈‧⾞など)を検出し、⽣成AIにて検出
結果から⽂脈付きのテキスト要約を⽣成する研究が報告されている 参考:https://arxiv.org/html/2501.04764v1?utm_source=chatgpt.com ◦ 洪⽔災害対応システムの構築 ▪ マレーシアの洪⽔災害対応研究では、⽣成AIで合成した洪⽔画像を YOLOモデルの学習に使⽤。実際のドローン撮影映像でも⾼い検出性 能を⽰している。 参考:https://x.gd/1SFTC
23 ご清聴ありがとうご ざいました!! これからもYOLOを ヨロシク😀💦
None