生成AIと物体検知（YOLO）の活用例について

⽣成AIと物体検知（YOLO）の活⽤例について⼤野育海クラウド事業本部運⽤イノベーション部

⾃⼰紹介 2 • 名前：⼤野育海 • ロール：プラットフォームエンジニア • 趣味：カメラ、野⿃撮影、バイク

そもそも⽣成AIとは？ 3 • ⽣成AI（Generative AI）は、学習したデータをもとに⽂章や画像、⾳声、コードなど「新しいコンテンツを⽣み出すAI」のこと • OpenAI の ChatGPT
は⾃然⾔語処理に特化した⼤規模⾔語モデル（LLM: Large Language Model）の代表例で、⼊⼒プロンプトに応じて⼈間のように⾃然な⽂章を⽣成できる

物体検知とは？YOLOとは？ 4 • 物体検知（object detection）とは、画像や動画の中から「どの場所に何があるか」を⾒つける技術のこと • YOLO (You Only
Look Once)は物体検知を⾼速かつ⾼精度に⾏うためのディープラーニング（深層学習）モデルの⼀つ • 例）⽝、猫、⼈、⾃動⾞、信号機などを囲んで「これは⽝、これは⼈」と認識できる • YOLO は「ディープラーニングを使った画像認識AI」 • したがって AIの⼀種（機械学習モデルの⼀種）に分類される • ただし YOLO ⾃体は「⽣成するAI」ではなく「認識するAI」

両者の違いまとめ 5 観点物体検知（ YOLOなど）生成AI（ChatGPTなど）主な役割画像の中の物体を検出・分類入力から新しい文章や画像などを生成
AIの種類認識系AI 生成系AI 技術要素画像認識用のCNNベースのモデル大規模言語モデル（LLM）や拡散モデル出力バウンディングボックス＋ラベルテキスト・画像・音声などのコンテンツ

アプリを作りました 6 • ⽣成AIと物体検知を組み合わせたアプリを作成しました • まずはデモをご覧ください

アプリデモ動画 7

使⽤技術の概要 8 名称概要目的備考 YOLO11（yolo11n.pt）物体検出インプット画像から鳥を検出
OpenCV 画像処理鳥の部分のみ切り出し Gemini 2.5 Pro 回答生成鳥の名前などのテキストを生成 Google AI StudioのFree プラン React + Electron フロントエンドデスクトップアプリの UIを作成 SQLite データベース鳥のデータを保持

組み合わせの利点 9 単体使⽤の限界【YOLO単体の場合‧‧‧】 • 「⿃がいる」ことはわかるが、種類は不明 • 検出精度：95% → でも「何の⿃？」は答えられない
【Gemini単体の場合‧‧‧】 • 背景、枝、葉っぱなど不要情報が多すぎる • ノイズ情報に惑わされて判定ミス

組み合わせの利点 10 組み合わせた場合【YOLO → Gemini】 • YOLO（＋OpenCV）で画像から⿃の部分のみ切り出し、リサイズ • 1枚の画像に複数⽻の⿃がいる場合でもYOLOで個別に検出
• ノイズ情報を除去した画像をGeminiで分析することで回答精度向上 • リサイズにより消費トークン量も削減

YOLOの検出例 11

⿃部分の切り出しとリサイズ 12

Geminiの回答⽐較 13 元画像のまま⼊⼒

Geminiの回答⽐較 14 ⿃部分のみ切り抜いて⼊⼒

Geminiの回答⽐較 15 ⽐較まとめ Geminiへの入力方法回答の正確さトークン消費量元画像のまま低い： • 東京に生息しない鳥を回答とし
て生成 • ハルシネーション発生高い： • トークン消費量：359 • 回答の正確性の低さ（不確実な推論）により出力テキストが長くなり、トークン量が多くなった鳥部分だけ切り抜き高い： • 正確に鳥の名前を同定低い： • トークン消費量：338 • 結論＋短い説明だけのため出力テキストが簡潔で、トークン量が少ない

落とし⽳ 16 YOLOを挟まない⽅が回答精度が⾼い場合も‧‧‧？ • Gemini 2.5 Proがかなり優秀 • 未学習のデフォルトモデルでは⿃検出に特化していない

この画像、どこに⿃がいるかわかりますか？ 17

YOLOの検出結果 18

Gemini 2.5 Pro の回答 19

いた‧‧‧！！ 20

今後の展望 21 • ⽣成AIでYOLOモデルを強化 • ⽣成させた画像でYOLOの学習を実施する • 学習データの調達が容易 • YOLOの検出精度向上
＋独⾃ラベルの設定 • ⽣成AIへのプロンプト簡易化＝トークン節約：「ラベル名の⿃について解説お願い」 • オフライン環境で使⽤可能「YOLO → ⽣成AI」を「⽣成AI → YOLO」へ

おわりに 22 • 物体検出はオワコンではない（⾃戒） • 実際に多くの分野で活躍： ◦ CCTV映像の要約システム ▪ YOLOにより映像内の物体（⼈‧⾞など）を検出し、⽣成AIにて検出
結果から⽂脈付きのテキスト要約を⽣成する研究が報告されている参考：https://arxiv.org/html/2501.04764v1?utm_source=chatgpt.com ◦ 洪⽔災害対応システムの構築 ▪ マレーシアの洪⽔災害対応研究では、⽣成AIで合成した洪⽔画像を YOLOモデルの学習に使⽤。実際のドローン撮影映像でも⾼い検出性能を⽰している。参考：https://x.gd/1SFTC

23 ご清聴ありがとうございました！！これからもYOLOをヨロシク😀💦

生成AIと物体検知（YOLO）の活用例について

生成AIと物体検知（YOLO）の活用例について

Ikumi Ono

More Decks by Ikumi Ono

Featured

Transcript

⽣成AIと物体検知（YOLO）の活⽤例について⼤野育海クラウド事業本部運⽤イノベーション部

⾃⼰紹介 2 • 名前：⼤野育海 • ロール：プラットフォームエンジニア • 趣味：カメラ、野⿃撮影、バイク

そもそも⽣成AIとは？ 3 • ⽣成AI（Generative AI）は、学習したデータをもとに⽂章や画像、⾳声、コードなど「新しいコンテンツを⽣み出すAI」のこと • OpenAI の ChatGPT

物体検知とは？YOLOとは？ 4 • 物体検知（object detection）とは、画像や動画の中から「どの場所に何があるか」を⾒つける技術のこと • YOLO (You Only

両者の違いまとめ 5 観点物体検知（ YOLOなど）生成AI（ChatGPTなど）主な役割画像の中の物体を検出・分類入力から新しい文章や画像などを生成

アプリを作りました 6 • ⽣成AIと物体検知を組み合わせたアプリを作成しました • まずはデモをご覧ください

アプリデモ動画 7

使⽤技術の概要 8 名称概要目的備考 YOLO11（yolo11n.pt）物体検出インプット画像から鳥を検出

組み合わせの利点 9 単体使⽤の限界【YOLO単体の場合‧‧‧】 • 「⿃がいる」ことはわかるが、種類は不明 • 検出精度：95% → でも「何の⿃？」は答えられない

組み合わせの利点 10 組み合わせた場合【YOLO → Gemini】 • YOLO（＋OpenCV）で画像から⿃の部分のみ切り出し、リサイズ • 1枚の画像に複数⽻の⿃がいる場合でもYOLOで個別に検出

YOLOの検出例 11

⿃部分の切り出しとリサイズ 12

Geminiの回答⽐較 13 元画像のまま⼊⼒

Geminiの回答⽐較 14 ⿃部分のみ切り抜いて⼊⼒

Geminiの回答⽐較 15 ⽐較まとめ Geminiへの入力方法回答の正確さトークン消費量元画像のまま低い： • 東京に生息しない鳥を回答とし

落とし⽳ 16 YOLOを挟まない⽅が回答精度が⾼い場合も‧‧‧？ • Gemini 2.5 Proがかなり優秀 • 未学習のデフォルトモデルでは⿃検出に特化していない

この画像、どこに⿃がいるかわかりますか？ 17

YOLOの検出結果 18

Gemini 2.5 Pro の回答 19

いた‧‧‧！！ 20

今後の展望 21 • ⽣成AIでYOLOモデルを強化 • ⽣成させた画像でYOLOの学習を実施する • 学習データの調達が容易 • YOLOの検出精度向上

おわりに 22 • 物体検出はオワコンではない（⾃戒） • 実際に多くの分野で活躍： ◦ CCTV映像の要約システム ▪ YOLOにより映像内の物体（⼈‧⾞など）を検出し、⽣成AIにて検出

23 ご清聴ありがとうございました！！これからもYOLOをヨロシク😀💦

生成AIと物体検知 （YOLO）の活用例について

生成AIと物体検知 （YOLO）の活用例について

More Decks by Ikumi Ono

Featured

Transcript

生成AIと物体検知（YOLO）の活用例について

生成AIと物体検知（YOLO）の活用例について