Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第2回saysayオフ会LT_清水れみお
Search
Lemio
November 25, 2023
0
140
第2回saysayオフ会LT_清水れみお
動画と音声の時間同期はすごい!
Lemio
November 25, 2023
Tweet
Share
More Decks by Lemio
See All by Lemio
生成AIの社内導入やってみて_SaySyaMeetUpVol3
lemio
0
51
清水宏太_ポートフォリオ資料_2023年11月時点
lemio
0
76
開発した生成AI活用アプリ
lemio
0
130
遅刻しなAI_LT資料
lemio
0
84
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
Designing Experiences People Love
moore
138
23k
Building Adaptive Systems
keathley
38
2.3k
Code Reviewing Like a Champion
maltzj
520
39k
What's new in Ruby 2.0
geeforr
343
31k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
Transcript
今まで作ったもの と すごい発見 清水れみお 2023/11/24 SaySayオフ会
自己紹介 2 清水れみお @LLM無職でした @lemilemilemio ・非エンジニア(開発歴4か月) ・元通信建設業
AIは 考える×作る×聞く×話す×見る =無限∞のアイデア そして私はアイデアマンです。
アイデアに価値はない 形にできなければそれは寝言と同じだ。 by 清水 亮 出典
5 遅刻しなAI アプリ紹介 自然言語からスケジュール登録と 移動スケジュールも同時に登録 LINE友達登録URL WEB簡易版
スケジュールURL生成 アーキテクチャ図 6 GPT-3.5-turbo-instruct スケジュール情報 Googleカレンダー 登録URL プロンプトにて 日付/時間/場所/イベント 名/イベント内容を分類
URLをZero Shotで生成 https://www.google.com/calendar/event?action=TEMPLATE&text=LLM+Application+Meetup+vol.99&dates =20231212T100000Z/20231212T120000Z&details=https://llm-app.connpass.com/event/297732/&location= 品川グランドセントラルタワー+日本マイクロソフト品川本社+31F+セミナールーム+A&trp=false <URL生成例> Olemi-llm-apprentice/Dont_be_late_AI: 遅刻しなAI (github.com)
乗換経路生成 アーキテクチャ図 7 GPT-3.5-turbo-instruct スケジュール情報 + 出発地 出発地 目的地 緯度経度
到着時刻 (日本標準時) URL合成 https://www.google.com/maps/dir/35.6896067,139.7005713/35.6267695,139.7404376/am=t/ data=!4m9!4m8!1m1!4e1!1m0!2m3!6e1!7e2!8j1702407000!3e3?entry=ttu <URL生成例>
動画→議事録化AIエージェント(11月末無料公開目標) Web会議 録画 レポート 議事録 現場打合せ 録音 様々な動画や音声データ
動画→議事録化AI アーキテクチャ図 9 GPT-3.5-turbo 動画 .mp4 音声 .mp3 文字起こし 全文
テキスト 分割 テキスト 要約 要約 テキスト 合成 合成 テキスト マークダウン 記事化 議事録化 全体要約 テキスト 分割 テキスト 分割 テキスト 分割 テキスト 要約 テキスト 要約 テキスト 要約 ffmpeg GPT-3.5-turbo Olemi-llm-apprentice/-whisper_test- (github.com)
生成例
動画に一語一語字幕(形態素解析) カラオケのように字幕が単語ごとに強調 (形態素解析したものは日本初?) 出展:https://www.youtube.com/watch?v=Gh0xzbgCIgg&pp=ygUc44K944OV44OI44OQ44Oz44KvIOWtq-ato-e-qQ%3D%3D
一語一語字幕 アーキテクチャ図 動画 .mp4 文字 起こし .json フォント 付字幕 .ass
ffmpeg WhisperX 単語から 形態素解析 .json janome 字幕付き 動画 .mp4
二つを合成して目指す最終系 M365 CopilotのTeams会議議事録機能 <機能> ・動画記録 ・議事録、タスク化 ・話者認識 ・会議内容をRAGでAI チャット ・議事録から動画の再生
場面へジャンプ ・ネガポジ発言探知
14 フレーム 画像 Base64 エンコード 動画 .mp4 Base64 文字列 説明
テキスト 読み上げ 音声 .mp3 GPT4 VISION TTS https://openai-visionapi-cookbook.streamlit.app/ OpenAI CookBookのVision&TTSのやつ 恐らく日本最速で作りました 11/7 12:02 Streamlit+GPT4-Vision+TTSで動画ナレーション 自動生成ツールをつくった(Zenn)
Vision&TTS&Whisper&Janome&FFmpeg GPT4-VISIONのプロンプト に論文のAbstructと説明 ぺージのテキストをぶっ こんでみた https://x.com/lemilemilemio/status/1724474654465929363?s=20
StereamlitでWebカメラ VisionAPI https://x.com/lemilemilemio/status/1722136792466694189?s=20
んなことは どうでもよくて
https://www.youtube.com/watch?v=JPY62bzT-rc
このお笑いを LLMに理解させる
Whisper文字起こしのみ
VisionAPIのみ
Whisper+GPT4-Vision(時間同期)
Whisper+GPT4-Vision(時間同期)
動画(画像)と音声のタイムスタンプを 同期することで すさまじい範囲のことに応用できる と 考えています
https://hu.ma.ne/aipin 常に動画と音声を録音す るデバイスが 常備されるようになった ら・・・
打合せ後議事録作成中 ・・・あの名刺切らしててもらえな かった女性の人の名前なんだっけ? →画像:女性の人との会話時間を抽出 →音声:上記会話時間の会話内容から 名前を推測
・・・2週間後 上司「そういえばあの商談で見積価格 を伝えたときの反応どうだった?」 議事録上だと「300万円かー」という コメント 実際にはだいぶ渋った顔で「300万円 かー」というコメント
音声と動作で 「ここをもっと丁寧にして」など 抽象語で指示ができるようになり、 幅広い人たちがLLMを使いやすくなる
想像もつかない もっとすごいのが 今後いっぱい出てくるはず
考える×作る×聞く×話す×見る AIで 日本の生産性を革命的に向上させる プロダクトを作りたい