Upgrade to Pro — share decks privately, control downloads, hide ads and more …

移動ビッグデータに基づく地理情報の埋め込みベクトル化

Naoki Tamura
December 04, 2024

 移動ビッグデータに基づく地理情報の埋め込みベクトル化

Naoki Tamura

December 04, 2024
Tweet

Other Decks in Research

Transcript

  1. 田村直樹 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 1 • 所属

    • 名古屋大学 河口研究室 (2020 –) ← 博士課程2年生 • サイバーエージェント AI Lab (2024 - ) ← インターン・アルバイト • 株式会社オルニス役員(2024 -) ← 起業 • 研究分野 • 都市データモデリング • 人流分析 • 趣味 • サイクリング • ゲーム 学部生時代は名古屋から福岡まで自転車で帰省したり LinkedIn
  2. 本発表の内容 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 3 time visits

    time visits time visits 都市空間 エリアごとの 人の訪問 パターン 人流データ ベクトル空間 エリア 埋め込み ベクトル空間上で エリアの検索や分類
  3. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 6 移動ビッグデータ(都市人流データ) ジオテクノロジーズ人流データ (https://geot.jp/products/marketing_solution/people_movement_data/)

    ブログウォッチャー人流データ (https://www.atpress.ne.jp/news/187112) 基本的には,地理座標と時刻の系列 (35.12, 135. 23, 11:01) (35.12, 135. 23, 11:03) (35.12, 135. 23, 11:05) (grid1, 11:01) (grid2, 11:03) (grid3, 11:05)
  4. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 7 どのように収集されるか GPS測位 通信基地局測位

    特定のアプリを開いた座標と時刻を記録 モバイル端末と基地局間の通信を記録 (GPS座標の系列) (基地局座標の系列) 色々あるが,都市レベルかつ人単位のものは以下の2つがメイン データによって 時空間的な粒度, カバー率, 精度は様々
  5. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 8 どのように使われている? ブログウォッチャーエリアマーケティング事例 (https://www.blogwatcher.co.jp/ownd/DMz-5P_T)

    MAPCOM人口推移可視化 (https://www.mapcom.tokyo/mapcomworldtopics/topics83/) 人口流入・混雑の可視化 商圏分析・マーケティング 現状はシンプルかつ統計的な活用がほとんど
  6. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 9 もっといろんなことに使えるはず ≈ 都市計画

    出店戦略 公共交通最適化 ナビゲーション レコメンデーション 災害対策 観光施作 不動産戦略 行政的な活用 商業的な活用 このエリアにはどんな目的でいつ人が集まる? この人は次にどこに行く? ここに施設を建てるとどんな人が利用する? そのためには人の行動パターンの理解・モデル化が必要
  7. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 12 18:36 18:52 19:13

    19:15 19:16 移動・滞在はわかりそう けど解釈は難しい 17:21 生の移動軌跡を可視化してみる この辺に滞在? 移動? 目的地? ある日の田村の移動軌跡
  8. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 13 POIがあれば? 「大学 ->

    本山駅 -> 植田駅 -> 自宅」の帰宅? 意味付できそう! 名古屋大学 八事駅 塩釜口駅 本山駅 植田駅 POI(Point of Interest): 建物や地物の位置と名前
  9. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 17 人の行動理解のためには オフィスエリア 飲食店街

    駅周辺 道路・鉄道 それぞれのエリアがどんなエリアか 訪問先のエリアがどんなエリアなのか分かれば行動理解につながる
  10. 人の行動理解のためには Area Modeling Behavior Modeling Human Modeling 3. ユーザのモデル化・⾏動理解 2.

    移動遷移パターン(いつ・どんなエリアに 滞在したか)のモデル化 1. ⼈流を基にエリアの「使われ⽅」をモデル化 ⼈の移動理解にはまず空間分析が必須 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 18
  11. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 21 エリアの特徴 • どんな使われ方のエリアか

    • いつ人が集まるのか エリア間の類似性 • どのエリアと似ているのか • どんなグループに属するか をモデル化したい 各エリアをモデル化
  12. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 22 軌跡をエリアの系列と考えると... エリアID: 1

    エリアID: 20 エリアID: 312 エリアID: 128 点ではなく,粗いエリアの系列(遷移)として考えてみる ユーザID: 10
  13. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 23 これって文章と構造が同じ? エリアID: 1

    エリアID: 20 エリアID: 312 エリアID: 128 ユーザID: 10 “私” “は” “学生” “です” “。” 単語ID: 10 単語ID: 1 単語ID: 25 単語ID: 5 単語ID: 99 文書ID: 10 先人 < 「言語モデルが使えるのでは?」
  14. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 24 単語埋め込み手法 Word2Vec[1] 最も基本的な単語埋め込み手法の1つ

    単語のような離散的な情報をベクトル空間にマッピングすること 埋め込みとは “りんご” “みかん” “教授” ベクトル空間 “りんご”と”みかん”は使われ方が似ている “りんご”と”教授”は似てない [1] Efficient Estimation of Word Representations in Vector Space[Mikorovら, 2013]
  15. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 25 単語埋め込み手法 Word2Vec [1]

    Word2Vecのアイデア 「周辺語が似ている単語同士は似ている」 文書データセット “私” “は” “朝” “ コーヒー” “を” “飲む” “。” “私” “は” “朝” “お茶” “を” “飲む” “。” 周辺語 周辺語 意味・用途が似ている
  16. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 26 単語埋め込み手法 Word2Vec [1]

    「周辺語が似ている単語同士は似ている」 文書データセット “私” “は” “朝” “ コーヒー” “を” “飲む” “。” “私” “は” “夜” “コーヒー” “を” “飲む” “。” 周辺語 周辺語 意味・用途が似ている Word2Vecのアイデア
  17. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 27 単語埋め込み手法 Word2Vec [1]

    中心語から周辺語(の頻度)を予測したり, 周辺語から中心語(の頻度)を予測する学習 “りんご” “みかん” “教授” ベクトル空間 単語の使われ方が埋め込める 中心語 周辺語 周辺語 周辺語
  18. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 28 そのままエリアに適用すると 文章 ->

    軌跡 単語 -> エリア 周辺語 -> 前後の訪問エリア 現在エリア 現在エリア 前訪問エリア 次訪問エリア 前訪問 エリア 次訪問 エリア
  19. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 29 v2 v3 同じエリアとの遷移が多い

    エリア同士は似ている v6 v7 どんなエリア埋め込みになるか 同じエリアとの遷移が少ない エリア同士は似ていない [2]From ITDL to Place2Vec: Reasoning About Place Type Similarity and Relatedness by Learning Embeddings From Augmented Spatial Contexts.[Yanら, 2017] [3]Representing urban functions through zone embedding with human mobility patterns.[Yaoら, 2018]
  20. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 30 愛知県でやってみた結果 近くのエリアが似ているという結果に •

    エリアの遷移は近場のエリアからがほとんど • エリアの用途ではなく生活圏で分かれてしまう クラスタリング結果 エリアの使われ方のモデリングとしては あまりうまくいかない
  21. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 31 エリアの使われ方を直接的に表す情報は? エリアの滞在情報に着目してみると 720分〜

    〜30分 30分〜60分 60分〜120分 120分〜240分 240分〜360分 360分〜720分 滞在時間の長さ 0 6 12 18 24 0 6 12 18 24 0 6 12 18 24 朝夕の短時間滞在が多い(駅周辺) 昼間の長時間滞在が多い(オフィス街) 夕方滞在が多い(歓楽街) そのエリアの使われ方をより直接的に表してそう!
  22. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 32 滞在情報に基づいてエリアを埋め込む 720分〜 〜30分

    30分〜60分 60分〜120分 120分〜240分 240分〜360分 360分〜720分 滞在時間の長さ 0 6 12 18 24 0 6 12 18 24 0 6 12 18 24 朝夕の短時間滞在が多い(駅周辺) 昼間の長時間滞在が多い(オフィス街) 夕方滞在が多い(歓楽街) ベクトル空間 ベクトル空間上で滞在のパターンが似ているものは近くに,似てないものは遠くに
  23. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 33 Area2Vec: 滞在情報によるエリア埋め込みモデル[4] WE

    L×H W’ H×N 1×H 1×N 1×L 1×L 使う情報: 前後訪問エリア -> 滞在情報 エリアID そのエリアでの 滞在情報 滞在情報による埋め込み表現を UAS (Usage of Area with Stay information) と呼称 [4] 大規模ユーザの滞在情報に基づくエリアの特徴付けとCOVID-19による影響分析[庄子ら, 2021]
  24. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 34 Area2Vec: 滞在情報によるエリア埋め込みモデル 滞在カテゴリOne-hot

    [ 0, 0, 0, 1, ..., 0 ] エリアID One-hot [ 0, 0, ... , 1, ... , 0 ] W E L×H W’ H×N 1×H 1×N 1×L 1×L エリアID: 13920 予測滞在カテゴリ頻度分布 [ 0.01, 0.02, 0.13, 0.03, ..., 0.01 ] CrossEntropy Loss Stay Embedding ! 平⽇, 0:00 ‒ 1:00, 30分以下 平⽇, 0:00 ‒ 1:00, 30分 ‒ 60分 平⽇, 0:00 ‒ 1:00, 60分 ‒ 120分 平⽇, 0:00 ‒ 1:00, 120分 ‒ 240分 ... 休⽇, 23:00 ‒ 24:00. 720分以上 12回 10回 25回 30回 ... 0回 1 Softmax 滞在情報の 頻度分布
  25. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 38 OpenUAS: エリア埋め込みデータセットの公開[5] OpenUAS:

    ⽇本の主要8都市の エリア埋め込み オープンデータ 50m 50m エリアごとの 埋め込み表現(UAS) ⽇本の主要都市のGPSに基づく滞在ビッグデータ アンカリング埋め込み • 東京 • ⼤阪 • 名古屋 • 札幌 • 福岡 • 仙台 • 広島 • 京都 x x x x x x Entertainment + Restaurant Mesh Count: 159,996 Weekday Holiday Entertainment Mesh Count: 137,372 Workplace Mesh Count: 247,030 Station + Street Mesh Count: 244,826 Residential Mesh Count: 629,603 Elapsed time 主要道路 駅エリア 飲⾷店街 エンタメエリア ショッピング エンタメエリア オフィス エリア 住宅街 Weekday Elapsed time 5クラスタごとの滞在傾向 エリア利⽤ 予測解釈 平⽇ 休⽇ 滞在時間 他都市のデータ • ニューヨーク • ロンドン 本⼿法で共通の空間に埋め込み可能 Tokyo Osaka Nagoya Kyoto Fukuoka Hiroshima Sendai Sapporo [5] OpenUAS: Embeddings of Cities in Japan with Anchor Data for Cross-city Analysis of Area Usage Patterns[Tamuraら, 2024] • Data: https://zenodo.org/records/13141800 • Github: https://github.com/UCLabNU/OpenUAS/
  26. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 41 単語の意味は足し算引き算ができる 多義語の単語ベクトルは語義の埋めこみの平均[4] 例:

    “crane”は「鶴」と「クレーン(重機)」の複数の語義を持つ多義語 vking ≈ vman + vroyal “crane”ベクトル “man”ベクトル “royal”ベクトル p(鶴)は「鶴」の意味で使われる確率(割合) p(クレーン)は「クレーン」の意味で使われる確率(割合) [6] RevisitingAdditiveCompositionality:AND, OR and NOT Operations with Word Embeddings[Kiperwasser, 2021] 加法構成性:単語の意味関係の算術が単語ベクトルの算術によって捉えられるという性質 ANDの加法構成性 ORの加法構成性 複数の語義を常に持つの単語埋め込みは,語義の埋め込みの和[4] vcrane ≈ p(鶴) × v鶴 + p(クレーン) × vクレーン vking vroyal vman vcrane vクレーン v鶴
  27. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 42 エリアの意味の足し算引き算もできる[7] 駅クラスタ 飲食店街クラスタ

    平日 休日 オフィス街クラスタ 住宅街クラスタ 「住宅街」+「オフィス街」 「駅」+「飲食店街」 「駅」+「飲食店街」−「オフィス街」 平日 休日 [7]滞在ビッグデータに基づくエリア分散表現の加法構成性の分析と活用 [田村ら, 2023]
  28. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 43 エリアの意味の足し算引き算もできる 2019 名古屋駅

    金山駅 栄駅 大曽根駅 名古屋駅 金山駅 栄駅 大曽根駅 「駅」 + 「飲食店街」 「駅」 + 「飲食店街」 − 「オフィス街」 「住宅街」 + 「オフィス街」 • 2019->2020で増加 • 在宅ワークの増加を反映 • 名古屋駅,金山駅周辺に分布 • 駅前の飲食店街を反映 • 青と比較して名古屋駅東側が消滅 • 名古屋駅東側のオフィス街を除外 2020
  29. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 44 特定の変化が起こったエリアの検索が可能 “レストラン”が減ったエリア “レストラン”が増えて”オフィス”が減ったエリア

    “レストラン”が増えたエリア Open Remove Before After Before embedding After embedding Difference embedding Where are the areas of similar change? 傾向の変化がベクトルの差になる [8]Additive Compositionality in Urban Area Embeddings Based on Human Mobility Patterns[Tamuraら, 2024]
  30. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 47 人の移動軌跡 = 文章

    エリアID: 1 エリアID: 20 エリアID: 312 エリアID: 128 ユーザID: 10 “私” “は” “学生” “です” “。” 単語ID: 10 単語ID: 1 単語ID: 25 単語ID: 5 単語ID: 99 文書ID: 10 移動軌跡モデリングには文章モデリング手法が使えるはず
  31. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 48 Behav2Vec移動軌跡埋め込みモデル[9] エリア: 22

    エリアID: 3 ... エリアID: 100 UASシーケンスを 再構成 UAS遷移のパターンが 埋め込まれたベクトル [9] Unveiling Human Attributes through Life Pattern Clustering using GPS Data Only[Shojiら, 2024]
  32. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 54 過去の移動履歴 将来の移動軌跡予測 移動傾向の学習

    人の移動先予測[12, 13] Humob Challenge 2023優勝 Humob Challenge 2024優勝 [13]Time-series Stay Frequency for Multi-City Next Location Prediction using Multiple BERTs[Terashimaら, 2024] [12]Human Mobility Prediction Challenge: Next Location Prediction using Spatiotemporal BERT [Terashimaら, 2023]
  33. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 55 まとめ Area Modeling

    Behavior Modeling Human Modeling 人の行動パターンを理解したい • 属性分類・行動パターン分類 • 移動先予測・人流生成 • 都市の定量的な分析 そのためにはまず空間分析が必要 • Area2Vecによるエリア埋め込み • エリアの意味の足し算引き算 • オープンデータ化
  34. 2024/11/27 第10回 GEOGRAPHY & LANGUAGE勉強会 移動ビッグデータに基づく地理情報の埋め込みベクトル化 56 論文まとめ [1] Efficient

    Estimation of Word Representations in Vector Space[Mikorovら, 2013] [2]From ITDL to Place2Vec: Reasoning About Place Type Similarity and Relatedness by Learning Embeddings From Augmented Spatial Contexts.[Yanら, 2017] [3]Representing urban functions through zone embedding with human mobility patterns.[Yaoら, 2018] [4] 大規模ユーザの滞在情報に基づくエリアの特徴付けとCOVID-19による影響分析[庄子ら, 2021] [5] OpenUAS: Embeddings of Cities in Japan with Anchor Data for Cross-city Analysis of Area Usage Patterns[Tamuraら, 2024] [6] RevisitingAdditiveCompositionality:AND, OR and NOT Operations with Word Embeddings[Kiperwasser, 2021] [7]滞在ビッグデータに基づくエリア分散表現の加法構成性の分析と活用 [田村ら, 2023] [8]Additive Compositionality in Urban Area Embeddings Based on Human Mobility Patterns[Tamuraら, 2024] [9] Unveiling Human Attributes through Life Pattern Clustering using GPS Data Only[Shojiら, 2024] [10]DiverCityMeter:大規模移動データによる生活パターン分析を通じた都市空間の多様性算出手法[庄子ら, 2024] [11]都市を対象とした大規模移動履歴に基づく擬似人流データ生成手法 [田村ら, 2023] [12]Time-series Stay Frequency for Multi-City Next Location Prediction using Multiple BERTs[Terashimaら, 2023] [13]Human Mobility Prediction Challenge: Next Location Prediction using Spatiotemporal BERT [Terashimaら, 2024]