Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Core Audio tapを使ったリアルタイム音声処理のお話
Search
Sloth
July 02, 2025
Technology
0
290
Core Audio tapを使ったリアルタイム音声処理のお話
Flutter Tokyo #9の5分LTでの資料です。
Sloth
July 02, 2025
Tweet
Share
More Decks by Sloth
See All by Sloth
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
410
Other Decks in Technology
See All in Technology
"人"が頑張るAI駆動開発
yokomachi
1
130
2025-12-27 Claude CodeでPRレビュー対応を効率化する@機械学習社会実装勉強会第54回
nakamasato
0
130
障害対応訓練、その前に
coconala_engineer
0
190
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
190
AWS re:Invent 2025~初参加の成果と学び~
kubomasataka
0
180
20251218_AIを活用した開発生産性向上の全社的な取り組みの進め方について / How to proceed with company-wide initiatives to improve development productivity using AI
yayoi_dd
0
650
ハッカソンから社内プロダクトへ AIエージェント ko☆shi 開発で学んだ4つの重要要素
leveragestech
0
130
20251222_サンフランシスコサバイバル術
ponponmikankan
2
140
ESXi のAIOps だ!2025冬
unnowataru
0
350
Building Serverless AI Memory with Mastra × AWS
vvatanabe
0
500
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
230
AIBuildersDay_track_A_iidaxs
iidaxs
4
1.3k
Featured
See All Featured
Information Architects: The Missing Link in Design Systems
soysaucechin
0
710
Become a Pro
speakerdeck
PRO
31
5.7k
Making Projects Easy
brettharned
120
6.5k
Ruling the World: When Life Gets Gamed
codingconduct
0
100
Applied NLP in the Age of Generative AI
inesmontani
PRO
3
2k
A designer walks into a library…
pauljervisheath
210
24k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
88
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
49
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.7k
Building Applications with DynamoDB
mza
96
6.8k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
290
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1k
Transcript
Core Audio tapを使った リアルタイム⾳声処理のお話 ML Engineer @ Kotoba Technologies Japan
佐々木 裕多 Flutter Tokyo #9
⾃⼰紹介 名前:佐々⽊ 裕多 所属:Kotoba Technologies Japan, 東京科学⼤ (休学中) 肩書:ML Engineer 興味:対話エージェントとかマルチモーダル⾳声認識とか(研究話)
Flutter歴 :3週間くらい.... X: @Sloth65557166 GitHub: @yuta0306
会社紹介&今⽇の本題! 話すよりデモ
聴きながら話す⾳声アプリの難しさ • 外部⾳声、周辺ノイズの影響 • 出⼒⾳声のループバック • Speech-to-speech翻訳アプリを考えると... ◦ 翻訳元⾔語の⾳声ソースは? ▪
オンラインミーティングや動画の翻訳だと、マイクを使わず にPC⼀つで完結したい → とりうる選択肢は? ScreenCaptureKit or Core Audio tap 新しいAPIだし、 こっち使ってみた
Core Audio tapをざっくり • macOS 14.2+, Xcode 15.1+で使えるApple公式API • アプリ/プロセス単位で出⼒⾳声をタップして取得
• 複数のアプリやプロセスをまとめることも可能
Core Audio tapを使って広がる⾳声アプリの世界 • 単⼀/複数プロセスの⾳声に絞って録⾳できる! • 聴きながら話すアプリでも、ループバックが起きないよ! ◦ 綺麗なシステム⾳声だけが取れて、 周辺環境のノイズに影響されない!
App BridgePlugin Process Tap Recorder Audio Queue 録⾳リクエスト Process tap
起動 成功 バッファ追加 … ポーリング まとまった⾳声バッファ ⾳声バッファ … FlutterMethodChannel FlutterEventChannel
Core Audio tapで踏みがちな地雷もあって... 5分LTなので今⽇は割愛...
結びに 踏みやすい地雷は多いけど、、、 Core Audio tapで、 デスクトップ⾳声アプリケーションの幅が 広がるよ!!🚀
References 1. Core Audio taps: https://developer.apple.com/documentation/coreaudio/capturing-system-audio-with-core-audio- taps 2. MethodChannel: https://api.flutter.dev/flutter/services/MethodChannel-class.html
3. EventChannel: https://api.flutter.dev/flutter/services/EventChannel-class.html