Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Search
Ryo Kanazawa
September 04, 2024
0
130
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Ryo Kanazawa
September 04, 2024
Tweet
Share
More Decks by Ryo Kanazawa
See All by Ryo Kanazawa
AIキャラクター向けLLMの開発
ryokanazawa1227
0
170
OpenUI AI Application Journey
ryokanazawa1227
0
46
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Adopting Sorbet at Scale
ufuk
73
9.1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
How to Ace a Technical Interview
jacobian
276
23k
Embracing the Ebb and Flow
colly
84
4.5k
Designing Experiences People Love
moore
138
23k
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
Building an army of robots
kneath
302
44k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.1k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Transcript
クラスターメタバース研究所における機械学習研究 早瀬 友裕 Tomohiro HAYASE, Ph.D Weights and Biases Meetup 2024/Aug./22
clusterとは? VR スマートフォン PC VRからスマホまでどこからでも遊べる 国 内最大のメタバースプラットフォーム メタバース研究所のミッション エモーション モーション ボイス
独⾃のコミュニティ 大量の3Dデータ 「世界と⼈を計算可能に」
⼤規模3Dメタデータによる 撮影スポット探索機の学習 with Sacha Braun (Ecole Polytech), 折登 樹,柳川光理, 廣井裕⼀
PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes https://cluster-lab.github.io/panotree/ arxiv:2405.17136
4 背景:メタバースには3D顕著性データがある 3Dシーンの顕著性/Attentionを表すもの: 写真撮影 単なる視線履歴ではなく、明⽰的に⼈間がカメラ を向けて撮影した情報であり、顕著性としての価 値が⾼い PFには、写真撮影時のメタデータ(3D座標‧回 転、シーンID)が溜まっている Figure.
cluster, VRモードでのカメラUI.
5 写真撮影の例
6 研究概要 Question 未知3Dシーンにおける撮影スポットを発⾒できますか? Answer 1.顕著性の定式化&⼤規模3Dデータで価値観数の学習&汎化 2.未知シーンにおける⾼速な強化学習探索アルゴリズムの構成 性能検証は価値関数の汎化性能と探索アルゴリズムの速さで⾏う Takeaway ⾃動撮影 3Dシーンの設計,
導線管理, デザイン ⼈間を⼊れる前に, 事前推測なので, 3Dシーンの設計ができる Game AIの視覚基盤
7 評価関数の定式化 この画像はどちらに属していますか? - 0:ランダムに配置されたカメラによる画像 - 1:人が撮った画像からアバターを除いたもの
8 評価関数の学習
9 データセット Dataset 3Dシーン:約240シーン 3Dメタデータ: 合計約80万件 ランダムデータ: 合計約80万件 学習⽤画像約160万枚 Pretraining
ImageNet-21k & ImageNet-1k Model MLP-Mixer, ViT
10 価値関数の学習 *75⼈, 性別: 男性60名, ⼥性14名, ⾮解答1名, 年齢32.1(± 4.3) 歳
*シーン数10
探索アルゴリズム
12 カメラ座標のブラックボックス最適化 評価値を最⼤化したいが, レンダリング(カメラパラメータから画像を出⼒する写 像)は、⼀般には微分が提供されていないため, ブラックボックス最適化を⾏う. ブラックボックス関数がある程度連続であるとき, 連続補正付き⽊構造探索&強化学 習により, 最⼤値を探索する.
階層的ブラックボックス最適化(Hierachical Optimial Optimization) [“X-armed bandits”, S.Bubeck et.al., J. Machine Learning Research (2011)] 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
13 階層的ブラックボックス最適化 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
繰り返し 葉の展開 値更新 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf T=3 U=0.4 T=3 U=0.7 T=0 U=0.9 葉の選択
14 階層的ブラックボックス最適化 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf
T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=3 U=0.7 T=3 U=0.4 T=0 U=0.9 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
15 従来のHOOからの変更点 … X Y Z (1)空間分割方策:xyzの順に行わず、大きな 辺を優先して確率的に分割する: (2)各葉において、方向ベクトルをいくつかと り、その方向の画像の評価について最大値を葉
のスコアとする:
16 探索の様⼦
17 ⾃動撮影結果 clusterの3Dシーンで自動撮影アルゴリズムが撮ってきたスコア>0.9の写真たち
18 局所的⽅向探索:グリッドサーチ
19 wandb usecase : Augmentation探索 価値関数学習⽤ハイパラサーチ: ImageNetとfine-tuning⽤の画像群のドメ インシフトを吸収するためdata augmentationの選択をsweepで⾏う。 program:
train_world_images.py method: grid metric: goal: maximize name: eval_top1 parameters: rand-aug-n: values: - 5 rand-aug-m: values: - 8 - 9 …
20 wandb usecase : 探索の並列化 探索アルゴリズムの並列化: 強化学習⽤のシミュレーターを複数台 ⽤意し、sweepをそれぞれ実⾏。並列処理 が可能。 program:
train_agents.py method: grid metric: goal: maximize name: cumulative_max parameters: world-id: values: - 1 - 2 - 3 - 4 - 5 …
Understanding MLP-Mixer as a Wide and Sparse MLP with Ryo
Karakida (AIST) ICML2024, arxiv:2306.01470
22 MLP-Mixer: Attentionなくても性能がでる Tolstikhin, et al., 2021
23 なぜ性能がでるのか? 極めてスパースなMLPだから。ランダムにchannel/token軸いれかえてもOK。
24 wandb usecase : imagenet学習での並列化 ImageNetでバッチサイズ4096, 32インス タンスで分散学習。 ただし、wandbにログを取るのは1イン スタンスだけにすることにより負荷軽減
program: train_imagenet.py method: grid metric: goal: maximize name: eval_accuracy parameters: dim: values: - 64 - 128 - 256 - 512 seed: …
Future Work
26 Future Work Math x ML x VR メタバースのデータは 深層学習に、深層学
習はメタバースに、相 互に影響を与えること を期待 e.g. 自動撮影をサムネイ ル作成支援に応用, より広範な強化学習 , 自律 的Agent, ….