Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VRChat と cluster ワールドの違い-その1-
Search
みかん大学
January 13, 2024
Research
0
330
VRChat と cluster ワールドの違い-その1-
みかん大学
January 13, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
データウェアハウスを使ってみよう
hidetobara
0
55
VRChatのワールド情報が大量に集まっていた
hidetobara
0
140
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
140
VRChat日本語圏のワールドの特徴
hidetobara
0
210
VRChat Lab抜けの条件
hidetobara
0
2k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
59
Other Decks in Research
See All in Research
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
160
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
140
Integrating Static Optimization and Dynamic Nature in JavaScript (GPCE 2025)
tadd
0
110
Generative Models 2025
takahashihiroshi
25
14k
IMC の細かすぎる話 2025
smly
2
700
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
640
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
820
音声感情認識技術の進展と展望
nagase
0
300
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia
satai
3
290
能動適応的実験計画
masakat0
2
890
多言語カスタマーインタビューの“壁”を越える~PMと生成AIの共創~ 株式会社ジグザグ 松野 亘
watarumatsuno
0
140
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
910
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
116
20k
A better future with KSS
kneath
239
18k
Writing Fast Ruby
sferik
630
62k
Being A Developer After 40
akosma
91
590k
The Invisible Side of Design
smashingmag
302
51k
The Cult of Friendly URLs
andyhume
79
6.6k
The Language of Interfaces
destraynor
162
25k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Transcript
VRChat と cluster ワールドの違い-その1- みかん電機
おさらい VRChat や cluster のワールド情報を Crawling して BigQuery に貯めており・・ VRChat
の日本語圏と非日本語圏でのワールドの違いを調べてみた • 「ワールドタグの使用頻度」で比較 ◦ 非日本語圏と “furry”, “avatar” が多い ◦ 日本語圏だと “sleep” や “sea” が多い ◦ “rain”, “water”, “cat” などは差異は無かった
今回の目標 VRChat と cluster でワールドに違いがあるかどうか調べる 残念なことに cluster にはタグという機能はありません 「単語(token)の使用頻度」を比較 •
使用したデータ ◦ 2023年末までに API 経由で Crawling したワールド ◦ VRChat 日本語圏で約12000 ◦ cluster で約35000 • 手法 ◦ 各ワールド名に対して形態素解析 ▪ TinySegmenter ◦ 「あ」「1」などの1文字のひらがなや数字、アルファベットは無視 ◦ フィッシャーの正確確率検定で出現回数のばらつきを調べた
p値の小さい順、偶然には起こりえない順にソート p値11-20位 token VRChat cluster pvalue jp 100 10 9.26E-37
test 198 941 2.46E-33 sleep 84 9 1.38E-30 the 351 288 1.22E-29 quest 85 11 1.89E-29 試着 57 1 1.81E-26 chill 111 35 5.80E-26 迷路 6 172 6.79E-23 house 337 316 2.29E-22 ライブ 4 152 1.03E-21
p値1-10位 JUST !!!!!!! token VRChat cluster pvalue world 514 6706
0 just 263 16 2.50E-104 room 747 434 2.07E-100 home 419 152 1.78E-86 vrc 143 2 1.05E-65 中 60 716 1.56E-64 avatar 129 5 5.51E-55 集会 127 13 4.51E-46 new 43 507 8.02E-46 テスト 40 463 2.11E-41
頻度に差があるとは言えない単語の例 英語で表記するか、日本語で表記するかの問題は起こってしまった homeかホームか、roomか部屋か、 token VRChat cluster statistics pvalue club 68
154 0.8891513764 0.4333966147 会 70 128 1.101927351 0.5454710894 vr 87 189 0.926990116 0.6084395311 部屋 398 793 1.0111985 0.8523445293
まとめ • プラットフォームによって違いが出て面白い ◦ VRChat は「Just」「Avatar」「集会」「Sleep」 ◦ cluster は、テストワールドが多い。さらに「迷路」「ライブ」も •
MeCab とか使えばもう少し精度は上がる? • 単語間のつながりも見えたら面白いかも • 年度や時期の変化を調べても面白いかも