チャッドローン：LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki

チャッドローン LLMによる画像認識を用いた自律型ドローンシステムの開発と実験森崎一歩，湯村翼北海道情報大学

研究背景 2 • 災害、物流、エンタテインメントなどの様々な分野でドローンが活用 • ドローンの有効活用には熟練した操縦士が必要 • 自律飛行に注目

研究背景 3 • 既存の自律飛行技術 • GNSS（GPS） → 屋内で使えない • 画像処理
→ 場所に応じた学習モデルが必要大規模言語モデル（LLM）を用いたドローン自律飛行

関連研究 4 • 池山安杜里，山内翔，鈴木恵二: 大規模言語モデルによるドローンの広域景観撮影システムの提案 (2023) [1] •
自律飛行のウェイポイント（通過点）の設定にLLMを活用 • 屋内を対象としていない • Vemprala, S. H., Bonatti, R., Bucker, A. and Kapoor, A.: Chatgpt for robotics: Design principles and model abilities (2024) [2] • ロボティクス制御へのLLM適用に関する設計原則を提示 • 対話的な制御を想定

チャッドローン 5 • ドローンからLLMに画像+プロンプトを送信 • LLMからドローンに制御コマンドを送信 • これらの処理は、中継するコアプログラムが担うドローン PC
LLM コアプログラム (Python) 撮影画像撮影画像+プロンプトあなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます. 以下の指示の TL 左に旋回レスポンス制御コマンド

チャッドローン 6 • RyzeTech社製のTelloを使用 • WebAPIで制御・画像取得が可能 • LLMにChatGPTを使用 • OpenAI
APIでアクセス • 画像認識が可能なGPT-4Vを利用 • コアプログラムをPythonで実装

プロンプト 7 • 矩形の部屋内の壁沿いを巡回するプロンプトを作成 • 以下のルールのもとでプロンプトを作成 • 冒頭に概要を記述 • 画像を読み取り，当てはまる状況を選択肢から選択して
返答する旨を記述 • 状況の選択肢を記述 • どの選択肢も当てはまらない場合の指示を記述 (Ver.2 に追加)

プロンプト 8 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。以下の指示の内画像の状況にあてはめ、丁度当てはまるものを選び答えを出力して下さい指示一：右側に壁や壁のようなもの（窓やドアでも可）がある状態で前方に二メートル以上の空間がある場合はMと出力して下さい。指示二：右側に壁や壁のようなもの（窓やドアでも可）がある状態で前方に二メートル以上の空間がない場合はTLと出力して下さいプロンプト
Ver.1

プロンプト 9 あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます。なので以下の指示を画像の状況にあてはめ、丁度あてはあるものを選び答えを出力してください。指示一：右側に壁や壁のようなもの（窓やカーテンやドアでも可）がある状態で前方に二メートル以上の空間がある場合はMと出力してください。指示二：右側に壁や壁のようなもの（窓やカーテンやドアでも可）がある状態で前方に三メートル以上の空間がある場合はMMMと出力してください。指示三：右側に壁や壁のようなもの（窓やカーテンやドアでも可）がある状態で前方に五メートル以上の空間がある場合はMMと出力してください。
指示四：右側に壁や壁のようなもの（窓やカーテンやドアでも可）がある状態で前方に二メートル以上の空間がない場合はTLと出力してください。指示五：左右に壁や壁のようなもの（窓やカーテンやドアでも可）がなく前方に二メートル以上の空間がある場合はMと出力してください。指示六：左右に壁や壁のようなもの（窓やカーテンやドアでも可）がなく前方に五メートル以上の空間がある場合はMMと出力してください。指示七：左右に壁や壁のようなもの（窓やカーテンやドアでも可）がなく前方に二メートル以上の空間がない場合はTLと出力してください。また画像から判断できない場合はTLと出力してくださいプロンプト Ver.2

実証実験 10 • 予備実験および本実験を実施 • 本実験：大学内の小教室 • 4.7m × 10.1m
• 確認項目 1. ChatGPT が意図通りのレスポンスを作成するか 2. LLM によってドローンを自律飛行させることが可能か 3. ドローンを意図通りに動かすことが可能か 4. プロンプトの内容を変更することでふるまいがどのように変化するか

← 実行内容 ↑ドローンカメラ映像 11

実証実験 | 結果 12 1. ChatGPT が意図通りのレスポンスを作成するか → 2. LLM
によってドローンを自律飛行させることが可能か → 3. ドローンを意図通りに動かすことが可能か → 4. プロンプトの内容を変更することでふるまいがどのように変化するか → 自律飛行にユーザの意図を反映

実証実験 | 結果 13 • Ver2では、より壁際を飛行するようにした • プロンプトを変えることにより、飛行の振る舞いが変化 • ユーザの意向を反映させた自律飛行が可能

課題 14 • 割り込み制御の仕組みの必要性 • 本研究では、撮影と制御コマンドを周期的に実行 • 急激な環境変化に対応できない • プロンプトの詳細化にともなう応答の遅延
• Ver.1と比べてVer.2のプロンプトでは応答時間が3倍以上となる場合もあった • 飛行精度とのトレードオフ

おわりに 15 • LLMによるドローンの自律飛行システムチャッドローンを提案 • プロトタイプを実装し、動作を確認 • 専門知識がないユーザも、プロンプトの書き換えによって自律飛行のデザインが可能コアプログラム
(Python) あなたには送られる画像を読み取りある部屋内を一周するのをサポートしてもらいます. 以下の指示の TL 左に旋回

チャッドローン：LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-...

チャッドローン：LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki

yumulab

More Decks by yumulab

Other Decks in Research

Featured

Transcript

チャッドローン LLMによる画像認識を用いた自律型ドローンシステムの開発と実験森崎一歩，湯村翼北海道情報大学

研究背景 2 • 災害、物流、エンタテインメントなどの様々な分野でドローンが活用 • ドローンの有効活用には熟練した操縦士が必要 • 自律飛行に注目

研究背景 3 • 既存の自律飛行技術 • GNSS（GPS） → 屋内で使えない • 画像処理

関連研究 4 • 池山安杜里，山内翔，鈴木恵二: 大規模言語モデルによるドローンの広域景観撮影システムの提案 (2023) [1] •

チャッドローン 5 • ドローンからLLMに画像+プロンプトを送信 • LLMからドローンに制御コマンドを送信 • これらの処理は、中継するコアプログラムが担うドローン PC

チャッドローン 6 • RyzeTech社製のTelloを使用 • WebAPIで制御・画像取得が可能 • LLMにChatGPTを使用 • OpenAI

プロンプト 7 • 矩形の部屋内の壁沿いを巡回するプロンプトを作成 • 以下のルールのもとでプロンプトを作成 • 冒頭に概要を記述 • 画像を読み取り，当てはまる状況を選択肢から選択して

実証実験 10 • 予備実験および本実験を実施 • 本実験：大学内の小教室 • 4.7m × 10.1m

← 実行内容 ↑ドローンカメラ映像 11

実証実験 | 結果 12 1. ChatGPT が意図通りのレスポンスを作成するか → 2. LLM

実証実験 | 結果 13 • Ver2では、より壁際を飛行するようにした • プロンプトを変えることにより、飛行の振る舞いが変化 • ユーザの意向を反映させた自律飛行が可能

課題 14 • 割り込み制御の仕組みの必要性 • 本研究では、撮影と制御コマンドを周期的に実行 • 急激な環境変化に対応できない • プロンプトの詳細化にともなう応答の遅延

おわりに 15 • LLMによるドローンの自律飛行システムチャッドローンを提案 • プロトタイプを実装し、動作を確認 • 専門知識がないユーザも、プロンプトの書き換えによって自律飛行のデザインが可能コアプログラム