Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Core Audio tapを使ったリアルタイム音声処理のお話
Search
Sloth
July 02, 2025
Technology
380
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Core Audio tapを使ったリアルタイム音声処理のお話
Flutter Tokyo #9の5分LTでの資料です。
Sloth
July 02, 2025
More Decks by Sloth
See All by Sloth
AVSRの世界と日本語特化モデル開発の裏側.pdf
yuta0306
1
550
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
460
Other Decks in Technology
See All in Technology
地元にいないローカルオーガナイザーの立ち回り
uvb_76
1
1.1k
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
0
320
会社紹介資料 / Sansan Company Profile
sansan33
PRO
18
420k
AI Testing Talks: Challenges of Applying AI in Software Testing: From Hype to Practical Use
exactpro
PRO
1
140
ルールやカスタム機能、どう使う?理想の出力を引き出すために今知りたいIBM Bob 5つの機能
muehara
1
360
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
130
React、まだ楽しくて草
uhyo
7
4.2k
Diagnosing performance problems without the guesswork
elenatanasoiu
0
170
あなたの AI ワークスペースに、 専門コーダーを連れてくる - Amazon Quick Desktop 最新情報
kawaji_scratch
1
110
Dynamic Workersについて
yusukebe
2
630
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
440
データ基盤をDataformで整えた話 〜 開発環境を添えて 〜
takapy
0
130
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
96
14k
The Cult of Friendly URLs
andyhume
79
6.9k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
400
Side Projects
sachag
455
43k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Designing for humans not robots
tammielis
254
26k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
We Are The Robots
honzajavorek
0
240
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
200
Transcript
Core Audio tapを使った リアルタイム⾳声処理のお話 ML Engineer @ Kotoba Technologies Japan
佐々木 裕多 Flutter Tokyo #9
⾃⼰紹介 名前:佐々⽊ 裕多 所属:Kotoba Technologies Japan, 東京科学⼤ (休学中) 肩書:ML Engineer 興味:対話エージェントとかマルチモーダル⾳声認識とか(研究話)
Flutter歴 :3週間くらい.... X: @Sloth65557166 GitHub: @yuta0306
会社紹介&今⽇の本題! 話すよりデモ
聴きながら話す⾳声アプリの難しさ • 外部⾳声、周辺ノイズの影響 • 出⼒⾳声のループバック • Speech-to-speech翻訳アプリを考えると... ◦ 翻訳元⾔語の⾳声ソースは? ▪
オンラインミーティングや動画の翻訳だと、マイクを使わず にPC⼀つで完結したい → とりうる選択肢は? ScreenCaptureKit or Core Audio tap 新しいAPIだし、 こっち使ってみた
Core Audio tapをざっくり • macOS 14.2+, Xcode 15.1+で使えるApple公式API • アプリ/プロセス単位で出⼒⾳声をタップして取得
• 複数のアプリやプロセスをまとめることも可能
Core Audio tapを使って広がる⾳声アプリの世界 • 単⼀/複数プロセスの⾳声に絞って録⾳できる! • 聴きながら話すアプリでも、ループバックが起きないよ! ◦ 綺麗なシステム⾳声だけが取れて、 周辺環境のノイズに影響されない!
App BridgePlugin Process Tap Recorder Audio Queue 録⾳リクエスト Process tap
起動 成功 バッファ追加 … ポーリング まとまった⾳声バッファ ⾳声バッファ … FlutterMethodChannel FlutterEventChannel
Core Audio tapで踏みがちな地雷もあって... 5分LTなので今⽇は割愛...
結びに 踏みやすい地雷は多いけど、、、 Core Audio tapで、 デスクトップ⾳声アプリケーションの幅が 広がるよ!!🚀
References 1. Core Audio taps: https://developer.apple.com/documentation/coreaudio/capturing-system-audio-with-core-audio- taps 2. MethodChannel: https://api.flutter.dev/flutter/services/MethodChannel-class.html
3. EventChannel: https://api.flutter.dev/flutter/services/EventChannel-class.html