Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-...
Search
yumulab
March 18, 2025
Research
1
510
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
2025年3月18日(火)の情報処理学会エンタテインメントコンピューティング(EC)研究発表会 発表スライド
yumulab
March 18, 2025
Tweet
Share
More Decks by yumulab
See All by yumulab
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
410
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
430
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
260
NOVVS:北海道情報大学図書館における滞在人数可視化システムの開発と検証 / i2025-minami
yumulab
0
92
CHaserWeb:ブラウザ上で動作する対戦型プログラミング学習環境の提案と評価 / i2025-inoue
yumulab
0
250
CARMUI-NET:自動運転車遠隔監視のためのバーチャル都市プラットフォームにおける通信品質変動機能の開発と評価 / UBI85
yumulab
0
250
待機電力を削減したネットワーク更新型電子ペーパーサイネージの研究開発 / UBISympo2025
yumulab
0
110
デジタルファブリケーションの未来を北海道・札幌から考える / SIAF School 2025
yumulab
0
110
入浴時に映像が投影される一人用足湯システムの開発と運用 / ipsjhokkaido2024
yumulab
0
140
Other Decks in Research
See All in Research
Generative Models 2025
takahashihiroshi
21
12k
Submeter-level land cover mapping of Japan
satai
3
130
最適決定木を用いた処方的価格最適化
mickey_kubo
4
1.7k
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
6
2.8k
rtrec@dbem6
myui
6
890
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
350
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
980
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.5k
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
270
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
900
Vision And Languageモデルにおける異なるドメインでの継続事前学習が性能に与える影響の検証 / YANS2024
sansan_randd
1
110
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
24
16k
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Cult of Friendly URLs
andyhume
79
6.5k
Balancing Empowerment & Direction
lara
1
440
What's in a price? How to price your products and services
michaelherold
246
12k
A Modern Web Designer's Workflow
chriscoyier
695
190k
Site-Speed That Sticks
csswizardry
10
700
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Faster Mobile Websites
deanohume
307
31k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Transcript
チャッドローン LLMによる画像認識を用いた 自律型ドローンシステムの開発と実験 森崎 一歩,湯村 翼 北海道情報大学
研究背景 2 • 災害、物流、エンタテインメントなどの様々な 分野でドローンが活用 • ドローンの有効活用には熟練した操縦士が必要 • 自律飛行に注目
研究背景 3 • 既存の自律飛行技術 • GNSS(GPS) → 屋内で使えない • 画像処理
→ 場所に応じた学習モデルが必要 大規模言語モデル(LLM)を用いたドローン自律飛行
関連研究 4 • 池山安杜里, 山内翔,鈴木恵二: 大規模言語モデルによるドローンの 広域景観撮影システムの提案 (2023) [1] •
自律飛行のウェイポイント(通過点)の設定にLLMを活用 • 屋内を対象としていない • Vemprala, S. H., Bonatti, R., Bucker, A. and Kapoor, A.: Chatgpt for robotics: Design principles and model abilities (2024) [2] • ロボティクス制御へのLLM適用に関する設計原則を提示 • 対話的な制御を想定
チャッドローン 5 • ドローンからLLMに画像+プロンプトを送信 • LLMからドローンに制御コマンドを送信 • これらの処理は、中継するコアプログラムが担う ドローン PC
LLM コアプログラム (Python) 撮影画像 撮影画像+プロンプト あなたには送ら れる画像を読み 取りある部屋内 を一周するのを サポートしても らいます. 以下の指示の TL 左に旋回 レスポンス 制御コマンド
チャッドローン 6 • RyzeTech社製のTelloを使用 • WebAPIで制御・画像取得が可能 • LLMにChatGPTを使用 • OpenAI
APIでアクセス • 画像認識が可能なGPT-4Vを利用 • コアプログラムをPythonで実装
プロンプト 7 • 矩形の部屋内の壁沿いを巡回するプロンプトを作成 • 以下のルールのもとでプロンプトを作成 • 冒頭に概要を記述 • 画像を読み取り,当てはまる状況を選択肢から選択して
返答する旨を記述 • 状況の選択肢を記述 • どの選択肢も当てはまらない場合の指示を記述 (Ver.2 に追加)
プロンプト 8 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。 以下の指示の内画像の状況にあてはめ、丁度当てはまるものを選び答えを出力して下さ い 指示一:右側に壁や壁のようなもの(窓やドアでも可)がある状態で前方に 二メートル以上の空間がある場合はMと出力して下さい。 指示二:右側に壁や壁のようなもの(窓やドアでも可)がある状態で前方に 二メートル以上の空間がない場合はTLと出力して下さい プロンプト
Ver.1
プロンプト 9 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。なので 以下の指示を画像の状況にあてはめ、丁度あてはあるものを選び答えを出力してください。 指示一:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に二メート ル以上の空間がある場合はMと出力してください。 指示二:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に三メート ル以上の空間がある場合はMMMと出力してください。 指示三:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に五メート ル以上の空間がある場合はMMと出力してください。
指示四:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に二メート ル以上の空間がない場合はTLと出力してください。 指示五:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に二メートル以上 の空間がある場合はMと出力してください。 指示六:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に五メートル以上 の空間がある場合はMMと出力してください。 指示七:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に二メートル以上 の空間がない場合はTLと出力してください。 また画像から判断できない場合はTLと出力してください プロンプト Ver.2
実証実験 10 • 予備実験および本実験を実施 • 本実験:大学内の小教室 • 4.7m × 10.1m
• 確認項目 1. ChatGPT が意図通りのレスポンスを作成するか 2. LLM によってドローンを自律飛行させることが可能か 3. ドローンを意図通りに動かすことが可能か 4. プロンプトの内容を変更することでふるまいがどのよう に変化するか
← 実行内容 ↑ドローンカメラ映像 11
実証実験 | 結果 12 1. ChatGPT が意図通りのレスポンスを作成するか → 2. LLM
によってドローンを自律飛行させることが可能か → 3. ドローンを意図通りに動かすことが可能か → 4. プロンプトの内容を変更することでふるまいがどのように変化 するか → 自律飛行にユーザの意図を反映
実証実験 | 結果 13 • Ver2では、より壁際を飛行するようにした • プロンプトを変えることにより、飛行の振る舞いが変化 • ユーザの意向を反映させた自律飛行が可能
課題 14 • 割り込み制御の仕組みの必要性 • 本研究では、撮影と制御コマンドを周期的に実行 • 急激な環境変化に対応できない • プロンプトの詳細化にともなう応答の遅延
• Ver.1と比べてVer.2のプロンプトでは応答時間が3倍以 上となる場合もあった • 飛行精度とのトレードオフ
おわりに 15 • LLMによるドローンの自律飛行システムチャッドローンを提案 • プロトタイプを実装し、動作を確認 • 専門知識がないユーザも、プロンプトの書き換えによって自律飛行の デザインが可能 コアプログラム
(Python) あなたには送ら れる画像を読み 取りある部屋内 を一周するのを サポートしても らいます. 以下の指示の TL 左に旋回