Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Search
Ryo Kanazawa
September 04, 2024
0
140
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Ryo Kanazawa
September 04, 2024
Tweet
Share
More Decks by Ryo Kanazawa
See All by Ryo Kanazawa
AIキャラクター向けLLMの開発
ryokanazawa1227
0
180
OpenUI AI Application Journey
ryokanazawa1227
0
48
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
4 Signs Your Business is Dying
shpigford
182
22k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Building Applications with DynamoDB
mza
93
6.2k
Done Done
chrislema
182
16k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
The Language of Interfaces
destraynor
156
24k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.2k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
Transcript
クラスターメタバース研究所における機械学習研究 早瀬 友裕 Tomohiro HAYASE, Ph.D Weights and Biases Meetup 2024/Aug./22
clusterとは? VR スマートフォン PC VRからスマホまでどこからでも遊べる 国 内最大のメタバースプラットフォーム メタバース研究所のミッション エモーション モーション ボイス
独⾃のコミュニティ 大量の3Dデータ 「世界と⼈を計算可能に」
⼤規模3Dメタデータによる 撮影スポット探索機の学習 with Sacha Braun (Ecole Polytech), 折登 樹,柳川光理, 廣井裕⼀
PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes https://cluster-lab.github.io/panotree/ arxiv:2405.17136
4 背景:メタバースには3D顕著性データがある 3Dシーンの顕著性/Attentionを表すもの: 写真撮影 単なる視線履歴ではなく、明⽰的に⼈間がカメラ を向けて撮影した情報であり、顕著性としての価 値が⾼い PFには、写真撮影時のメタデータ(3D座標‧回 転、シーンID)が溜まっている Figure.
cluster, VRモードでのカメラUI.
5 写真撮影の例
6 研究概要 Question 未知3Dシーンにおける撮影スポットを発⾒できますか? Answer 1.顕著性の定式化&⼤規模3Dデータで価値観数の学習&汎化 2.未知シーンにおける⾼速な強化学習探索アルゴリズムの構成 性能検証は価値関数の汎化性能と探索アルゴリズムの速さで⾏う Takeaway ⾃動撮影 3Dシーンの設計,
導線管理, デザイン ⼈間を⼊れる前に, 事前推測なので, 3Dシーンの設計ができる Game AIの視覚基盤
7 評価関数の定式化 この画像はどちらに属していますか? - 0:ランダムに配置されたカメラによる画像 - 1:人が撮った画像からアバターを除いたもの
8 評価関数の学習
9 データセット Dataset 3Dシーン:約240シーン 3Dメタデータ: 合計約80万件 ランダムデータ: 合計約80万件 学習⽤画像約160万枚 Pretraining
ImageNet-21k & ImageNet-1k Model MLP-Mixer, ViT
10 価値関数の学習 *75⼈, 性別: 男性60名, ⼥性14名, ⾮解答1名, 年齢32.1(± 4.3) 歳
*シーン数10
探索アルゴリズム
12 カメラ座標のブラックボックス最適化 評価値を最⼤化したいが, レンダリング(カメラパラメータから画像を出⼒する写 像)は、⼀般には微分が提供されていないため, ブラックボックス最適化を⾏う. ブラックボックス関数がある程度連続であるとき, 連続補正付き⽊構造探索&強化学 習により, 最⼤値を探索する.
階層的ブラックボックス最適化(Hierachical Optimial Optimization) [“X-armed bandits”, S.Bubeck et.al., J. Machine Learning Research (2011)] 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
13 階層的ブラックボックス最適化 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
繰り返し 葉の展開 値更新 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf T=3 U=0.4 T=3 U=0.7 T=0 U=0.9 葉の選択
14 階層的ブラックボックス最適化 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf
T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=3 U=0.7 T=3 U=0.4 T=0 U=0.9 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
15 従来のHOOからの変更点 … X Y Z (1)空間分割方策:xyzの順に行わず、大きな 辺を優先して確率的に分割する: (2)各葉において、方向ベクトルをいくつかと り、その方向の画像の評価について最大値を葉
のスコアとする:
16 探索の様⼦
17 ⾃動撮影結果 clusterの3Dシーンで自動撮影アルゴリズムが撮ってきたスコア>0.9の写真たち
18 局所的⽅向探索:グリッドサーチ
19 wandb usecase : Augmentation探索 価値関数学習⽤ハイパラサーチ: ImageNetとfine-tuning⽤の画像群のドメ インシフトを吸収するためdata augmentationの選択をsweepで⾏う。 program:
train_world_images.py method: grid metric: goal: maximize name: eval_top1 parameters: rand-aug-n: values: - 5 rand-aug-m: values: - 8 - 9 …
20 wandb usecase : 探索の並列化 探索アルゴリズムの並列化: 強化学習⽤のシミュレーターを複数台 ⽤意し、sweepをそれぞれ実⾏。並列処理 が可能。 program:
train_agents.py method: grid metric: goal: maximize name: cumulative_max parameters: world-id: values: - 1 - 2 - 3 - 4 - 5 …
Understanding MLP-Mixer as a Wide and Sparse MLP with Ryo
Karakida (AIST) ICML2024, arxiv:2306.01470
22 MLP-Mixer: Attentionなくても性能がでる Tolstikhin, et al., 2021
23 なぜ性能がでるのか? 極めてスパースなMLPだから。ランダムにchannel/token軸いれかえてもOK。
24 wandb usecase : imagenet学習での並列化 ImageNetでバッチサイズ4096, 32インス タンスで分散学習。 ただし、wandbにログを取るのは1イン スタンスだけにすることにより負荷軽減
program: train_imagenet.py method: grid metric: goal: maximize name: eval_accuracy parameters: dim: values: - 64 - 128 - 256 - 512 seed: …
Future Work
26 Future Work Math x ML x VR メタバースのデータは 深層学習に、深層学
習はメタバースに、相 互に影響を与えること を期待 e.g. 自動撮影をサムネイ ル作成支援に応用, より広範な強化学習 , 自律 的Agent, ….