Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Search
Ryo Kanazawa
September 04, 2024
0
130
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Ryo Kanazawa
September 04, 2024
Tweet
Share
More Decks by Ryo Kanazawa
See All by Ryo Kanazawa
AIキャラクター向けLLMの開発
ryokanazawa1227
0
150
OpenUI AI Application Journey
ryokanazawa1227
0
38
Featured
See All Featured
Building an army of robots
kneath
302
43k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
The Language of Interfaces
destraynor
154
24k
Unsuck your backbone
ammeep
668
57k
GraphQLとの向き合い方2022年版
quramy
43
13k
Why Our Code Smells
bkeepers
PRO
334
57k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Designing on Purpose - Digital PM Summit 2013
jponch
115
7k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Art, The Web, and Tiny UX
lynnandtonic
297
20k
Transcript
クラスターメタバース研究所における機械学習研究 早瀬 友裕 Tomohiro HAYASE, Ph.D Weights and Biases Meetup 2024/Aug./22
clusterとは? VR スマートフォン PC VRからスマホまでどこからでも遊べる 国 内最大のメタバースプラットフォーム メタバース研究所のミッション エモーション モーション ボイス
独⾃のコミュニティ 大量の3Dデータ 「世界と⼈を計算可能に」
⼤規模3Dメタデータによる 撮影スポット探索機の学習 with Sacha Braun (Ecole Polytech), 折登 樹,柳川光理, 廣井裕⼀
PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes https://cluster-lab.github.io/panotree/ arxiv:2405.17136
4 背景:メタバースには3D顕著性データがある 3Dシーンの顕著性/Attentionを表すもの: 写真撮影 単なる視線履歴ではなく、明⽰的に⼈間がカメラ を向けて撮影した情報であり、顕著性としての価 値が⾼い PFには、写真撮影時のメタデータ(3D座標‧回 転、シーンID)が溜まっている Figure.
cluster, VRモードでのカメラUI.
5 写真撮影の例
6 研究概要 Question 未知3Dシーンにおける撮影スポットを発⾒できますか? Answer 1.顕著性の定式化&⼤規模3Dデータで価値観数の学習&汎化 2.未知シーンにおける⾼速な強化学習探索アルゴリズムの構成 性能検証は価値関数の汎化性能と探索アルゴリズムの速さで⾏う Takeaway ⾃動撮影 3Dシーンの設計,
導線管理, デザイン ⼈間を⼊れる前に, 事前推測なので, 3Dシーンの設計ができる Game AIの視覚基盤
7 評価関数の定式化 この画像はどちらに属していますか? - 0:ランダムに配置されたカメラによる画像 - 1:人が撮った画像からアバターを除いたもの
8 評価関数の学習
9 データセット Dataset 3Dシーン:約240シーン 3Dメタデータ: 合計約80万件 ランダムデータ: 合計約80万件 学習⽤画像約160万枚 Pretraining
ImageNet-21k & ImageNet-1k Model MLP-Mixer, ViT
10 価値関数の学習 *75⼈, 性別: 男性60名, ⼥性14名, ⾮解答1名, 年齢32.1(± 4.3) 歳
*シーン数10
探索アルゴリズム
12 カメラ座標のブラックボックス最適化 評価値を最⼤化したいが, レンダリング(カメラパラメータから画像を出⼒する写 像)は、⼀般には微分が提供されていないため, ブラックボックス最適化を⾏う. ブラックボックス関数がある程度連続であるとき, 連続補正付き⽊構造探索&強化学 習により, 最⼤値を探索する.
階層的ブラックボックス最適化(Hierachical Optimial Optimization) [“X-armed bandits”, S.Bubeck et.al., J. Machine Learning Research (2011)] 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
13 階層的ブラックボックス最適化 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
繰り返し 葉の展開 値更新 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf T=3 U=0.4 T=3 U=0.7 T=0 U=0.9 葉の選択
14 階層的ブラックボックス最適化 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf
T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=3 U=0.7 T=3 U=0.4 T=0 U=0.9 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
15 従来のHOOからの変更点 … X Y Z (1)空間分割方策:xyzの順に行わず、大きな 辺を優先して確率的に分割する: (2)各葉において、方向ベクトルをいくつかと り、その方向の画像の評価について最大値を葉
のスコアとする:
16 探索の様⼦
17 ⾃動撮影結果 clusterの3Dシーンで自動撮影アルゴリズムが撮ってきたスコア>0.9の写真たち
18 局所的⽅向探索:グリッドサーチ
19 wandb usecase : Augmentation探索 価値関数学習⽤ハイパラサーチ: ImageNetとfine-tuning⽤の画像群のドメ インシフトを吸収するためdata augmentationの選択をsweepで⾏う。 program:
train_world_images.py method: grid metric: goal: maximize name: eval_top1 parameters: rand-aug-n: values: - 5 rand-aug-m: values: - 8 - 9 …
20 wandb usecase : 探索の並列化 探索アルゴリズムの並列化: 強化学習⽤のシミュレーターを複数台 ⽤意し、sweepをそれぞれ実⾏。並列処理 が可能。 program:
train_agents.py method: grid metric: goal: maximize name: cumulative_max parameters: world-id: values: - 1 - 2 - 3 - 4 - 5 …
Understanding MLP-Mixer as a Wide and Sparse MLP with Ryo
Karakida (AIST) ICML2024, arxiv:2306.01470
22 MLP-Mixer: Attentionなくても性能がでる Tolstikhin, et al., 2021
23 なぜ性能がでるのか? 極めてスパースなMLPだから。ランダムにchannel/token軸いれかえてもOK。
24 wandb usecase : imagenet学習での並列化 ImageNetでバッチサイズ4096, 32インス タンスで分散学習。 ただし、wandbにログを取るのは1イン スタンスだけにすることにより負荷軽減
program: train_imagenet.py method: grid metric: goal: maximize name: eval_accuracy parameters: dim: values: - 64 - 128 - 256 - 512 seed: …
Future Work
26 Future Work Math x ML x VR メタバースのデータは 深層学習に、深層学
習はメタバースに、相 互に影響を与えること を期待 e.g. 自動撮影をサムネイ ル作成支援に応用, より広範な強化学習 , 自律 的Agent, ….