Speech to Textureで思い通りに世界を改変しよう

Speech to Textureで思い通りに世界を改変しよう土鍋 2023/10/08 Zli 大LT

自己紹介名前: 土鍋 (渡辺雄大) 学年: 学部4年(28期) 所属: A-PxL元代表、Zli、Iwaken Lab. 興味:
XR、Unity、ゲーム、CG、映像趣味: ゲーム、ゲーム開発、鉄道旅行、Vtuber Twitter(X): @donadonadonabe Blog: https://donabenabe.hatenablog.com 近況: 筑波大学大学院合格しました 2

世界を思い通りに改変したいですよね？

現在の研究空間デザインにおいて抽象的な想像を具現化するのは難易度が高い直感的な指示によって想像通りなテクスチャ変更を可能にしたい音声認識とハンドトラッキング、画像生成AIを用いて実装する

デモ

全体の構成 HandTracking

Speech to Text 1. 録音(AudioClip) 2. AudioClipからWaveへの変換 3. Whisper API
(Speech to Text) 4. レスポンスのtextが返ってくる参考: Unityで録音アプリを作成 - YKpages

AudioClipをWAVEファイルに変換録音データはUnity独自のAudioClip形式 Whisper APIは.mp3や.wavなどに対応している → 変換が必要 Wave Audio Clip ChunkSize
44 + AudioClip.samples * AudioClip.channels * BitsPerSample / 8 NumChannels AudioClip.channels SampleRate AudioClip.frequency ByteRate AudioClip.samples * AudioClip.channels * BitsPerSample / 8 BlockAlign AudioClip.channels * BitsPerSample / 8 Subchuk2Size AudioClip.samples * AudioClip.channels * BitsPerSample / 8 参考: 【Unity】AudioClipからWAVEファイルを生成する - はなちるのマイノート

ChatGPTでPrompt形式に変換 ChatGPT APIを叩いてるだけ Prompt 「送信されたテキストに基づいて、画像生成AI用のプロンプトを作成する。ただし、プロンプトのみを出力する。英語、短い単語をカンマ区切りで。」 ChatGPT APIをUnityから動かす。｜ねぎぽよし

Text to Image(Stable Diffusion) AUTOMATIC1111の「Stable Diffusion web UI API」 https://github.com/AUTOMATIC1111/stable-diffusion-webui
CloneしてローカルでAPIサーバーを立てる

リクエストセットアップ内容のJson → 今回はプロンプトのみ使用その他の値はデフォルト今後は選択したオブジェクトのテクスチャサイズに応じて、画像を生成するようにしたい

レスポンスからUnityのテクスチャを生成 imageはBase64で返ってくるのでbyte配列に変換してあげる。 byte配列をテクスチャに変換オブジェクトのMeshRendererのマテリアルのBaseMapに生成したテクスチャをセット byte[] data = Convert.FromBase64String (imageData);
Texture2D texture = new Texture2D(1, 1); texture.LoadImage(data); nowSelectGameObject .GetComponent<MeshRenderer>().materials[0] .SetTexture("_BaseMap",result);

3Dスキャン Room Plan: Apple ARKitの機能の一つ LiDARセンサーでスキャンし、部屋の家具を仮想空間に再現する

ハンドトラッキング指差したオブジェクトを選択してテクスチャを変えたい。右手 1. 人差し指だけ伸びてるか？ 2. 指からRayを発射 3. 当たったオブジェクトを取得左手
親指と人差し指をくっつけると録音開始・停止

今後の展望オブジェクトの形状に合うようにテクスチャを生成するようにしたい

参考資料 • Unityで録音アプリを作成 - YKpages • 【Unity】AudioClipからWAVEファイルを生成する - はなちるのマイノート •
【Unity × ChatGPT API × WhisperAPI】音声認識AIアシスタントを実装する • ChatGPT APIをUnityから動かす。｜ねぎぽよし • UnityのMicrophoneで正確な録音時間を取得する方法 - Qiita • stable diffusion webuiのAPIを使う方法 • UnityWebRequest で簡単 HTTP(POST)通信 | 株式会社ビヨンド • Unityでbyte配列からテクスチャ作ってスプライト化するまでやる · GitHub • Unity + Meta Quest開発メモ

ご清聴ありがとうございました

Speech to Textureで思い通りに世界を改変しよう

Speech to Textureで思い通りに世界を改変しよう

donabe

More Decks by donabe

Other Decks in Technology

Featured

Transcript