Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第2回saysayオフ会LT_清水れみお
Search
Lemio
November 25, 2023
230
0
Share
第2回saysayオフ会LT_清水れみお
動画と音声の時間同期はすごい!
Lemio
November 25, 2023
More Decks by Lemio
See All by Lemio
20250520_Dify_Meetup_Tokyo__5_LT資料_アプリケーションが動かなくなったらバージョンを見よう_.pdf
lemio
1
1.1k
0からDifyを学ぶには_Dify Meetup Tokyo #4
lemio
0
2k
生成AIの社内導入やってみて_SaySyaMeetUpVol3
lemio
0
110
清水宏太_ポートフォリオ資料_2023年11月時点
lemio
0
130
開発した生成AI活用アプリ
lemio
0
200
遅刻しなAI_LT資料
lemio
0
130
Featured
See All Featured
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Music & Morning Musume
bryan
47
7.1k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
330
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.7k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
110
What's in a price? How to price your products and services
michaelherold
247
13k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Mind Mapping
helmedeiros
PRO
1
150
The Mindset for Success: Future Career Progression
greggifford
PRO
0
300
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.1k
Transcript
今まで作ったもの と すごい発見 清水れみお 2023/11/24 SaySayオフ会
自己紹介 2 清水れみお @LLM無職でした @lemilemilemio ・非エンジニア(開発歴4か月) ・元通信建設業
AIは 考える×作る×聞く×話す×見る =無限∞のアイデア そして私はアイデアマンです。
アイデアに価値はない 形にできなければそれは寝言と同じだ。 by 清水 亮 出典
5 遅刻しなAI アプリ紹介 自然言語からスケジュール登録と 移動スケジュールも同時に登録 LINE友達登録URL WEB簡易版
スケジュールURL生成 アーキテクチャ図 6 GPT-3.5-turbo-instruct スケジュール情報 Googleカレンダー 登録URL プロンプトにて 日付/時間/場所/イベント 名/イベント内容を分類
URLをZero Shotで生成 https://www.google.com/calendar/event?action=TEMPLATE&text=LLM+Application+Meetup+vol.99&dates =20231212T100000Z/20231212T120000Z&details=https://llm-app.connpass.com/event/297732/&location= 品川グランドセントラルタワー+日本マイクロソフト品川本社+31F+セミナールーム+A&trp=false <URL生成例> Olemi-llm-apprentice/Dont_be_late_AI: 遅刻しなAI (github.com)
乗換経路生成 アーキテクチャ図 7 GPT-3.5-turbo-instruct スケジュール情報 + 出発地 出発地 目的地 緯度経度
到着時刻 (日本標準時) URL合成 https://www.google.com/maps/dir/35.6896067,139.7005713/35.6267695,139.7404376/am=t/ data=!4m9!4m8!1m1!4e1!1m0!2m3!6e1!7e2!8j1702407000!3e3?entry=ttu <URL生成例>
動画→議事録化AIエージェント(11月末無料公開目標) Web会議 録画 レポート 議事録 現場打合せ 録音 様々な動画や音声データ
動画→議事録化AI アーキテクチャ図 9 GPT-3.5-turbo 動画 .mp4 音声 .mp3 文字起こし 全文
テキスト 分割 テキスト 要約 要約 テキスト 合成 合成 テキスト マークダウン 記事化 議事録化 全体要約 テキスト 分割 テキスト 分割 テキスト 分割 テキスト 要約 テキスト 要約 テキスト 要約 ffmpeg GPT-3.5-turbo Olemi-llm-apprentice/-whisper_test- (github.com)
生成例
動画に一語一語字幕(形態素解析) カラオケのように字幕が単語ごとに強調 (形態素解析したものは日本初?) 出展:https://www.youtube.com/watch?v=Gh0xzbgCIgg&pp=ygUc44K944OV44OI44OQ44Oz44KvIOWtq-ato-e-qQ%3D%3D
一語一語字幕 アーキテクチャ図 動画 .mp4 文字 起こし .json フォント 付字幕 .ass
ffmpeg WhisperX 単語から 形態素解析 .json janome 字幕付き 動画 .mp4
二つを合成して目指す最終系 M365 CopilotのTeams会議議事録機能 <機能> ・動画記録 ・議事録、タスク化 ・話者認識 ・会議内容をRAGでAI チャット ・議事録から動画の再生
場面へジャンプ ・ネガポジ発言探知
14 フレーム 画像 Base64 エンコード 動画 .mp4 Base64 文字列 説明
テキスト 読み上げ 音声 .mp3 GPT4 VISION TTS https://openai-visionapi-cookbook.streamlit.app/ OpenAI CookBookのVision&TTSのやつ 恐らく日本最速で作りました 11/7 12:02 Streamlit+GPT4-Vision+TTSで動画ナレーション 自動生成ツールをつくった(Zenn)
Vision&TTS&Whisper&Janome&FFmpeg GPT4-VISIONのプロンプト に論文のAbstructと説明 ぺージのテキストをぶっ こんでみた https://x.com/lemilemilemio/status/1724474654465929363?s=20
StereamlitでWebカメラ VisionAPI https://x.com/lemilemilemio/status/1722136792466694189?s=20
んなことは どうでもよくて
https://www.youtube.com/watch?v=JPY62bzT-rc
このお笑いを LLMに理解させる
Whisper文字起こしのみ
VisionAPIのみ
Whisper+GPT4-Vision(時間同期)
Whisper+GPT4-Vision(時間同期)
動画(画像)と音声のタイムスタンプを 同期することで すさまじい範囲のことに応用できる と 考えています
https://hu.ma.ne/aipin 常に動画と音声を録音す るデバイスが 常備されるようになった ら・・・
打合せ後議事録作成中 ・・・あの名刺切らしててもらえな かった女性の人の名前なんだっけ? →画像:女性の人との会話時間を抽出 →音声:上記会話時間の会話内容から 名前を推測
・・・2週間後 上司「そういえばあの商談で見積価格 を伝えたときの反応どうだった?」 議事録上だと「300万円かー」という コメント 実際にはだいぶ渋った顔で「300万円 かー」というコメント
音声と動作で 「ここをもっと丁寧にして」など 抽象語で指示ができるようになり、 幅広い人たちがLLMを使いやすくなる
想像もつかない もっとすごいのが 今後いっぱい出てくるはず
考える×作る×聞く×話す×見る AIで 日本の生産性を革命的に向上させる プロダクトを作りたい