Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ARグラスにChatGPTを入れてみた V2.2
Search
kotauchisunsun
July 31, 2024
230
0
Share
ARグラスにChatGPTを入れてみた V2.2
【JDLA後援】関西生成AI祭り
https://josysbar.connpass.com/event/322394/
kotauchisunsun
July 31, 2024
More Decks by kotauchisunsun
See All by kotauchisunsun
AI Coding Agentの地殻変動 ~ ai-coding.info の定点観測 ~
kotauchisunsun
1
600
AI Coding Agent 2025年12月の利用動向 ~データから見る2026年の予測~
kotauchisunsun
2
890
スマートグラスの重量と価格に関する課題の整理とアプローチについて
kotauchisunsun
0
54
スマートグラスのトリレンマ
kotauchisunsun
0
96
2025年上半期のスマートグラスの概況
kotauchisunsun
0
140
どのAI Coding Agentが一番使われてる? ~ ai-coding.info にみるGithubリポジトリのAI Coding Agent利用状況 ~
kotauchisunsun
0
910
OpenHands🤲にContributeしてみた
kotauchisunsun
1
990
A-Scouterの紹介 ~AtomS3/S3Rのスカウター化キット~
kotauchisunsun
0
170
今、スマートグラスが熱い。
kotauchisunsun
0
260
Featured
See All Featured
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
170
Exploring anti-patterns in Rails
aemeredith
3
320
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
890
Site-Speed That Sticks
csswizardry
13
1.2k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
300
The Invisible Side of Design
smashingmag
303
52k
Abbi's Birthday
coloredviolet
2
7.2k
Are puppies a ranking factor?
jonoalderson
1
3.3k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
160
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Transcript
AR グラスにChatGPTを入れてみた V2.2 @kotauchisunsun
自己紹介 • こたうち さんさん • @kotauchisunsun • 株式会社STYLY 2019年入社 •
サーバーサイド責任者 • プラットフォーム部 EM
ARグラスの機能(抜粋) • 質問応答 • 画像を用いた質問応答 • FunctionCalling系 ◦ 現在時刻取得 ◦
緯度経度取得 ◦ 緯度経度→住所変換 ◦ 天気予報 ◦ Wikipedia検索 ◦ 写真撮影
ハードウェアについて
ARスマートグラスについて 製品名 INMO Air2 製造販売 INMO社 発売日 2023/4/20 OS Android
10 価格 $550(86,385円) 重さ 99g 区分 スタンドアローン型 稼働時間 2時間
入手経路 もともとはGREEN Fundingで CCCが販売(終了) 現在はアリエクでギリ買えそう?
システム構成 Whisper API 音声 画像 テキスト INMO Air2 gpt-4o-mini VoiceVoxAPI
テキスト 音声 映像
FunctionCallingとは ChatGPT 現在時刻の取得 現在地の取得 天気予報 基本的に質問に対する回答のみ 自分で実装した機能 ChatGPTに自分で実装した機能を呼び出す機能
多段FunctionCallingの問題 1時間後の天気を教えて。 現在地の取得 現在の時刻の取得 天気予報の取得 “1時間後の” →現在時刻から1時間後の “天気を教えて” →現在地の天気を教えて “天気を教えて”
FunctionCallを呼ぶたびに通信が発生 - 複数回呼び出されるたび、通信時間が蓄積し、レスポンスが悪化する - 複数回の通信のためレスポンスがネットワークに左右されやすい - 複数回FunctionCallを呼び出されるため、その分、コストがかかる
多段FunctionCallingの対策 FunctionCallingの結果をシステムのプロンプトとして入れてしまう。 →FunctionCallingを呼び出さずにプロンプトだけで解釈できるようになる。 FunctionCallingで取得するデータ量が少ない場合は出来る手法
多段FunctionCalling v.s. プロンプト埋め込み 多段FunctionCalling 応答レイテンシ増加 FunctionCalling時の利用コスト増 通常時のコストは低い プロンプト埋め込み 応答レイテンシ減少 FunctionCalling時の利用コスト減
通常時のコスト増加 割とトークン課金が安く、小規模のため、現状はプロンプト埋め込みで良いかな。という所感。
コストの話 今のところ最大1日1.5ドル=230円ぐらい(GPT-4o mini) ハードに使うと1ヵ月7,000円ぐらい・・・?
劣化音声アシスタント問題 V.S. • 既存の音声アシスタントが出来ることやってるよね? • むしろ既存のものより機能が弱いけどどうする? • 何が面白いんだっけ? • 何が便利なんだっけ?
• 何が強み何だっけ? • ChatGPTが同じ機能実装してきたらどうする? ARグラスを日常利用するために必要なものは?
まとめ • ARグラスにChatGPTで音声応答が出来るようにした • FunctionCallingでChatGPTから自作した機能を呼び出すことができる • FunctionCallingを複数使うと、レイテンシや大きく、コストがかかる ◦ 簡単な機能は、そのままプロンプトに情報を埋め込んでしまう ◦
FunctionCallingによるレイテンシを抑えることが出来る ◦ プロンプトに埋め込んでしまうと、通常時のコストがかかってしまう • ハードに使うと1か月7,000円のAPI使用料 • ChatGPTをつなぎこんだだけの音声アシスタントで競争優位性って作れるんだっ け?