Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-...
Search
yumulab
March 18, 2025
Research
1
220
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
2025年3月18日(火)の情報処理学会エンタテインメントコンピューティング(EC)研究発表会 発表スライド
yumulab
March 18, 2025
Tweet
Share
More Decks by yumulab
See All by yumulab
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
200
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
280
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
97
NOVVS:北海道情報大学図書館における滞在人数可視化システムの開発と検証 / i2025-minami
yumulab
0
43
CHaserWeb:ブラウザ上で動作する対戦型プログラミング学習環境の提案と評価 / i2025-inoue
yumulab
0
77
CARMUI-NET:自動運転車遠隔監視のためのバーチャル都市プラットフォームにおける通信品質変動機能の開発と評価 / UBI85
yumulab
0
190
待機電力を削減したネットワーク更新型電子ペーパーサイネージの研究開発 / UBISympo2025
yumulab
0
76
デジタルファブリケーションの未来を北海道・札幌から考える / SIAF School 2025
yumulab
0
81
入浴時に映像が投影される一人用足湯システムの開発と運用 / ipsjhokkaido2024
yumulab
0
110
Other Decks in Research
See All in Research
地理空間情報と自然言語処理:「地球の歩き方旅行記データセット」の高付加価値化を通じて
hiroki13
1
240
小ねぎ調製位置検出のためのインスタンスセグメンテーション
takuto_andtt
0
120
DeepSeek-R1の論文から読み解く背景技術
personabb
3
580
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
630
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
320
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
130
20250502_ABEJA_論文読み会_スライド
flatton
0
130
IM2024
mamoruk
0
270
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
satai
3
430
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
620
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
3
300
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
0
580
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.3k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
The Language of Interfaces
destraynor
158
25k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Gamification - CAS2011
davidbonilla
81
5.3k
Unsuck your backbone
ammeep
671
57k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
The Cost Of JavaScript in 2023
addyosmani
49
7.8k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Building an army of robots
kneath
305
45k
Transcript
チャッドローン LLMによる画像認識を用いた 自律型ドローンシステムの開発と実験 森崎 一歩,湯村 翼 北海道情報大学
研究背景 2 • 災害、物流、エンタテインメントなどの様々な 分野でドローンが活用 • ドローンの有効活用には熟練した操縦士が必要 • 自律飛行に注目
研究背景 3 • 既存の自律飛行技術 • GNSS(GPS) → 屋内で使えない • 画像処理
→ 場所に応じた学習モデルが必要 大規模言語モデル(LLM)を用いたドローン自律飛行
関連研究 4 • 池山安杜里, 山内翔,鈴木恵二: 大規模言語モデルによるドローンの 広域景観撮影システムの提案 (2023) [1] •
自律飛行のウェイポイント(通過点)の設定にLLMを活用 • 屋内を対象としていない • Vemprala, S. H., Bonatti, R., Bucker, A. and Kapoor, A.: Chatgpt for robotics: Design principles and model abilities (2024) [2] • ロボティクス制御へのLLM適用に関する設計原則を提示 • 対話的な制御を想定
チャッドローン 5 • ドローンからLLMに画像+プロンプトを送信 • LLMからドローンに制御コマンドを送信 • これらの処理は、中継するコアプログラムが担う ドローン PC
LLM コアプログラム (Python) 撮影画像 撮影画像+プロンプト あなたには送ら れる画像を読み 取りある部屋内 を一周するのを サポートしても らいます. 以下の指示の TL 左に旋回 レスポンス 制御コマンド
チャッドローン 6 • RyzeTech社製のTelloを使用 • WebAPIで制御・画像取得が可能 • LLMにChatGPTを使用 • OpenAI
APIでアクセス • 画像認識が可能なGPT-4Vを利用 • コアプログラムをPythonで実装
プロンプト 7 • 矩形の部屋内の壁沿いを巡回するプロンプトを作成 • 以下のルールのもとでプロンプトを作成 • 冒頭に概要を記述 • 画像を読み取り,当てはまる状況を選択肢から選択して
返答する旨を記述 • 状況の選択肢を記述 • どの選択肢も当てはまらない場合の指示を記述 (Ver.2 に追加)
プロンプト 8 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。 以下の指示の内画像の状況にあてはめ、丁度当てはまるものを選び答えを出力して下さ い 指示一:右側に壁や壁のようなもの(窓やドアでも可)がある状態で前方に 二メートル以上の空間がある場合はMと出力して下さい。 指示二:右側に壁や壁のようなもの(窓やドアでも可)がある状態で前方に 二メートル以上の空間がない場合はTLと出力して下さい プロンプト
Ver.1
プロンプト 9 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。なので 以下の指示を画像の状況にあてはめ、丁度あてはあるものを選び答えを出力してください。 指示一:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に二メート ル以上の空間がある場合はMと出力してください。 指示二:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に三メート ル以上の空間がある場合はMMMと出力してください。 指示三:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に五メート ル以上の空間がある場合はMMと出力してください。
指示四:右側に壁や壁のようなもの(窓やカーテンやドアでも可)がある状態で前方に二メート ル以上の空間がない場合はTLと出力してください。 指示五:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に二メートル以上 の空間がある場合はMと出力してください。 指示六:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に五メートル以上 の空間がある場合はMMと出力してください。 指示七:左右に壁や壁のようなもの(窓やカーテンやドアでも可)がなく前方に二メートル以上 の空間がない場合はTLと出力してください。 また画像から判断できない場合はTLと出力してください プロンプト Ver.2
実証実験 10 • 予備実験および本実験を実施 • 本実験:大学内の小教室 • 4.7m × 10.1m
• 確認項目 1. ChatGPT が意図通りのレスポンスを作成するか 2. LLM によってドローンを自律飛行させることが可能か 3. ドローンを意図通りに動かすことが可能か 4. プロンプトの内容を変更することでふるまいがどのよう に変化するか
← 実行内容 ↑ドローンカメラ映像 11
実証実験 | 結果 12 1. ChatGPT が意図通りのレスポンスを作成するか → 2. LLM
によってドローンを自律飛行させることが可能か → 3. ドローンを意図通りに動かすことが可能か → 4. プロンプトの内容を変更することでふるまいがどのように変化 するか → 自律飛行にユーザの意図を反映
実証実験 | 結果 13 • Ver2では、より壁際を飛行するようにした • プロンプトを変えることにより、飛行の振る舞いが変化 • ユーザの意向を反映させた自律飛行が可能
課題 14 • 割り込み制御の仕組みの必要性 • 本研究では、撮影と制御コマンドを周期的に実行 • 急激な環境変化に対応できない • プロンプトの詳細化にともなう応答の遅延
• Ver.1と比べてVer.2のプロンプトでは応答時間が3倍以 上となる場合もあった • 飛行精度とのトレードオフ
おわりに 15 • LLMによるドローンの自律飛行システムチャッドローンを提案 • プロトタイプを実装し、動作を確認 • 専門知識がないユーザも、プロンプトの書き換えによって自律飛行の デザインが可能 コアプログラム
(Python) あなたには送ら れる画像を読み 取りある部屋内 を一周するのを サポートしても らいます. 以下の指示の TL 左に旋回