20251027_findyさん_音声エージェントLT

音声エージェントのアーキテクチャ 2025/10/27 

conﬁdential ©Almondo Co.Ltd,. 2  目次 00

conﬁdential 話そうと考えていること 1. 目次 2. Voice Agentアツい 3. Voice Agentのこれまで
4. 何が課題感だったのか？ 5. Voice AgentのMulti Agent アーキテクチャ 6. 補足 7. まとめ

株式会社Almondo 松本悠秀 / Yuho Matsumoto 経歴 @YuhoMatsumoto 株式会社松尾研究所 MLエンジニア・
PM（2年）データサイエンス/基盤モデル開発/Agent(2023年)/基礎研究など様々なプロジェクトに参画東京大学松尾研究室　講師・講義設計（ 2年）国内最大のデータサイエンス講座であるGCIの講師・講義設計 42 Tokyo 2nd Circle 2023_07当時、最速で42 Tokyo Common Coreを突破バックエンド > インフラ > フロントエンド株式会社Almondo COO（2年） MLエンジニア・ソフトウェアエンジニア・PMとして参画現在は幅広いチーム（SW/ML開発・人事・営業）の管掌や参画 4 自己紹介

conﬁdential ©Almondo Co.Ltd,. 5  Voice Agentアツい 02

conﬁdential Voice Agentの今 6 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/

conﬁdential 実は前回登壇も、Voice Agentについて話しました 7 2025/05/09にてボイスエージェント入門ということで、登壇をしていましたこの5ヶ月での結論の違いなどもお届けできればと思っています前回の結論: ビジネスユースでは Chainが優勢

conﬁdential ©Almondo Co.Ltd,. 8  Voice Agentのこれまで 03

conﬁdential テキストの場合の基本的な処理 9 一番シンプルな実装例

conﬁdential 一番基本のVoice AgentはChain 10 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る

conﬁdential STSモデルが出てから、新たな方式ができるように 11 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/

conﬁdential Chainが優勢か？(2025-05時点) 12 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた方式深い思考費用速度柔軟性
実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime API そのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ◦ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime APIと比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保

conﬁdential ©Almondo Co.Ltd,. 13  何が課題感だったのか？ 04

conﬁdential 何が課題感だったのか？   14 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式深い思考費用
速度柔軟性実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime API そのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ◦ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime APIと比較して安価 × STT→LLM→ TTSで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保

conﬁdential 何が課題感だったのか？ 15 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

conﬁdential 何が課題感だったのか？ 16 役割分担だ！

conﬁdential ©Almondo Co.Ltd,. 17  Voice Agentの Multi Agent アーキテクチャ 05

conﬁdential OpenAIから新しいVoice Agentアーキテクチャが考案   18 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents

conﬁdential 何が課題感だったのか？ 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしに弱い LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

conﬁdential 何が課題感だったのか？ 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い
- あまり深くタスクを思考できない - 正確な文字起こしは最低限できる - Tool実行を待てるようになった LLM - そもそも発話できない - 話せるようなパーツをつけると遅い - Reasoning Modelなどで、深く思考が可能 - テキストでのミスは少ない

conﬁdential おさらい: テキストベースMulti Agentアーキテクチャ 21 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/

conﬁdential Chat-Supervisor Agentのアーキテクチャ 22 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.
Supervisor Agent側をより複雑にすることも可能

conﬁdential 比較図(再び)   23 多くの面でChat-Supervisor型に軍配が上がる！方式深い思考費用速度柔軟性
実装の複雑さ正確性 Realtime API 単体 △ 単発応答中心。長期的な推論は弱い △ realtime APIそのものが高コスト ◎ 速い △ 機能が増えるほど難しくなる ◦ シンプル ×~△ 日常会話などでは良いが、数字の理解や思考など困る点が多い Chain (STT→LLM→ TTS) ◎ LLMに任せられるので深い思考は可能 ◎ realtime APIと比較して安価 × STT→LLM→TT Sで遅延大 ◎ 各モジュールを入れ替え可能 △ モジュール統合の設計必要 ◯ 思考という点では良い. 文字起こしさえできれば精度も担保 (Realtime) Chat-Supervi sor 型 ◎ Supervisorが長期的推論や検索分岐を制御可能 ◯ 複雑な思考のみ LLMに任せることでコストメリットあり ◯ 深く考える際のみやや遅い ◎ Supervisorへの機能追加 △ Supervisor 設計の工数必要 ◯ Chainと同じような正確性

conﬁdential Sequential Handoﬀs型はまだ実用には至らないか   25 Realtime Agentがそれぞれのニーズに合わせて会話中に入れ替わりたち変わり担当. 一つ一つのRealtime Agentに持たせる責務を狭くしてRealtie Agentの範囲で対応するという構想
体験の再現性を担保することが難しい懸念あり

conﬁdential まとめ  27 まず ➢ Realtime Agentアツい Voice Agentの動向 ➢
gpt-realtimeの改善により、ビジネスユースもかなり視野に入るように (ただし高い ) ➢ 現在は、Chat-Supervisor型のMulti-Agentアーキテクチャが優勢その他・考え方 ➢ モデルの強みに応じて対応を変えるための、 Multi-Agentという考え方 (≠役割設計) Voice Agentサクッと触れるQR(GitHub) Twitter(X)

conﬁdential イベント宣伝 28 知り合いを繋ぐ会として『エンジニア未来談義』やってます！   今までクローズドでやっていたので公表するのは初めてですが、   興味ある方ぜひXにてお声がけください！！
  ※個人で開催しているので、遅くなったらごめんなさい...  

conﬁdential 29 Almondoでは、ご一緒できるメンバーも募集してます！ご興味ある方はぜひ！ご清聴ありがとうございました！イベントもやってます！

20251027_findyさん_音声エージェントLT

20251027_findyさん_音声エージェントLT

Almondoイベント担当

More Decks by Almondoイベント担当

Other Decks in Technology

Featured

Transcript

音声エージェントのアーキテクチャ 2025/10/27

conﬁdential ©Almondo Co.Ltd,. 2  目次 00

conﬁdential 話そうと考えていること 1. 目次 2. Voice Agentアツい 3. Voice Agentのこれまで

株式会社Almondo 松本悠秀 / Yuho Matsumoto 経歴 @YuhoMatsumoto 株式会社松尾研究所 MLエンジニア・

conﬁdential ©Almondo Co.Ltd,. 5  Voice Agentアツい 02

conﬁdential Voice Agentの今 6 2025/08/28にてgpt-realtimeが登場. これまで以上に流暢で、リアルタイムに応答可能なモデルがリリースされた docs: https://openai.com/index/introducing-gpt-realtime/

conﬁdential ©Almondo Co.Ltd,. 8  Voice Agentのこれまで 03

conﬁdential テキストの場合の基本的な処理 9 一番シンプルな実装例

conﬁdential 一番基本のVoice AgentはChain 10 STT/LLM/TTSと3つのモデルが連続して処理を行い一連の応答を行う。思考はLLMに依る

conﬁdential STSモデルが出てから、新たな方式ができるように 11 単一のモデルが聞く/考える/話すという一連の応答を行う。思考は本モデルに依る docs: https://openai.com/index/introducing-gpt-realtime/

conﬁdential Chainが優勢か？(2025-05時点) 12 ビジネスユースするのであれば、Chainが優勢だよねという話に. ただし、限界も感じた方式深い思考費用速度柔軟性

conﬁdential ©Almondo Co.Ltd,. 13  何が課題感だったのか？ 04

conﬁdential 何が課題感だったのか？   14 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... 方式深い思考費用

conﬁdential 何が課題感だったのか？ 15 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い

conﬁdential 何が課題感だったのか？ 16 役割分担だ！

conﬁdential ©Almondo Co.Ltd,. 17  Voice Agentの Multi Agent アーキテクチャ 05

conﬁdential OpenAIから新しいVoice Agentアーキテクチャが考案   18 OpenAIから、新しくVoice Agentのアーキテクチャとして、Chat-Supervisor/Sequential Handsoff が考案される。特にChat-Supervisor型に期待 https://github.com/openai/openai-realtime-agents

conﬁdential 何が課題感だったのか？ 19 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API - 返答が早い

conﬁdential 何が課題感だったのか？ 20 Realtime APIは深い思考が難しい。ビジネスユースは厳しいか. ただしChainだと遅すぎる... Realtime API(gpt-realtime) - 返答が早い

conﬁdential おさらい: テキストベースMulti Agentアーキテクチャ 21 よく引き合いに出されるMulti Agentアーキテクチャの一覧 https://langchain-ai.github.io/langgraph/concepts/multi_agent/

conﬁdential Chat-Supervisor Agentのアーキテクチャ 22 Chat-Supervisor型のMulti Agent アーキテクチャ. Supervisor Agentが裏側にいるという、テキストの Agentだとあまりない構成.

conﬁdential 比較図(再び)   23 多くの面でChat-Supervisor型に軍配が上がる！方式深い思考費用速度柔軟性

conﬁdential ©Almondo Co.Ltd,. 24  補足 06

conﬁdential ©Almondo Co.Ltd,. 26  まとめ 07

conﬁdential まとめ  27 まず ➢ Realtime Agentアツい Voice Agentの動向 ➢

conﬁdential イベント宣伝 28 知り合いを繋ぐ会として『エンジニア未来談義』やってます！   今までクローズドでやっていたので公表するのは初めてですが、   興味ある方ぜひXにてお声がけください！！

conﬁdential 29 Almondoでは、ご一緒できるメンバーも募集してます！ご興味ある方はぜひ！ご清聴ありがとうございました！イベントもやってます！