Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VRChat と cluster ワールドの違い-その1-
Search
みかん大学
January 13, 2024
Research
0
280
VRChat と cluster ワールドの違い-その1-
みかん大学
January 13, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
データウェアハウスを使ってみよう
hidetobara
0
46
VRChatのワールド情報が大量に集まっていた
hidetobara
0
97
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
130
VRChat日本語圏のワールドの特徴
hidetobara
0
180
VRChat Lab抜けの条件
hidetobara
0
1.5k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
58
Other Decks in Research
See All in Research
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.8k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.5k
Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation
herumi
0
130
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
750
NLP2025 WS Shared Task 文法誤り訂正部門 ehiMetrick
sugiyamaseiji
0
150
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
410
Vision Language Modelと完全自動運転AIの最新動向
tsubasashi
1
300
Bluesky Game Dev
trezy
0
180
研究を支える拡張性の高い ワークフローツールの提案 / Proposal of highly expandable workflow tools to support research
linyows
0
350
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
220
20241226_くまもと公共交通新時代シンポジウム
trafficbrain
0
470
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
5
1.6k
Featured
See All Featured
Side Projects
sachag
452
42k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
22
2.6k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.5k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
GraphQLとの向き合い方2022年版
quramy
45
14k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Building an army of robots
kneath
304
45k
Bash Introduction
62gerente
611
210k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Transcript
VRChat と cluster ワールドの違い-その1- みかん電機
おさらい VRChat や cluster のワールド情報を Crawling して BigQuery に貯めており・・ VRChat
の日本語圏と非日本語圏でのワールドの違いを調べてみた • 「ワールドタグの使用頻度」で比較 ◦ 非日本語圏と “furry”, “avatar” が多い ◦ 日本語圏だと “sleep” や “sea” が多い ◦ “rain”, “water”, “cat” などは差異は無かった
今回の目標 VRChat と cluster でワールドに違いがあるかどうか調べる 残念なことに cluster にはタグという機能はありません 「単語(token)の使用頻度」を比較 •
使用したデータ ◦ 2023年末までに API 経由で Crawling したワールド ◦ VRChat 日本語圏で約12000 ◦ cluster で約35000 • 手法 ◦ 各ワールド名に対して形態素解析 ▪ TinySegmenter ◦ 「あ」「1」などの1文字のひらがなや数字、アルファベットは無視 ◦ フィッシャーの正確確率検定で出現回数のばらつきを調べた
p値の小さい順、偶然には起こりえない順にソート p値11-20位 token VRChat cluster pvalue jp 100 10 9.26E-37
test 198 941 2.46E-33 sleep 84 9 1.38E-30 the 351 288 1.22E-29 quest 85 11 1.89E-29 試着 57 1 1.81E-26 chill 111 35 5.80E-26 迷路 6 172 6.79E-23 house 337 316 2.29E-22 ライブ 4 152 1.03E-21
p値1-10位 JUST !!!!!!! token VRChat cluster pvalue world 514 6706
0 just 263 16 2.50E-104 room 747 434 2.07E-100 home 419 152 1.78E-86 vrc 143 2 1.05E-65 中 60 716 1.56E-64 avatar 129 5 5.51E-55 集会 127 13 4.51E-46 new 43 507 8.02E-46 テスト 40 463 2.11E-41
頻度に差があるとは言えない単語の例 英語で表記するか、日本語で表記するかの問題は起こってしまった homeかホームか、roomか部屋か、 token VRChat cluster statistics pvalue club 68
154 0.8891513764 0.4333966147 会 70 128 1.101927351 0.5454710894 vr 87 189 0.926990116 0.6084395311 部屋 398 793 1.0111985 0.8523445293
まとめ • プラットフォームによって違いが出て面白い ◦ VRChat は「Just」「Avatar」「集会」「Sleep」 ◦ cluster は、テストワールドが多い。さらに「迷路」「ライブ」も •
MeCab とか使えばもう少し精度は上がる? • 単語間のつながりも見えたら面白いかも • 年度や時期の変化を調べても面白いかも