Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ビッグデータ生成処理の失敗と挑戦

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Fumina Chihama Fumina Chihama
March 14, 2024
700

 ビッグデータ生成処理の失敗と挑戦

Avatar for Fumina Chihama

Fumina Chihama

March 14, 2024
Tweet

More Decks by Fumina Chihama

Transcript

  1. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 1

    株式会社GEOTRA CTO 森山 拓洋 ビッグデータ生成処理の失敗と挑戦 2024.3.13 (水)
  2. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 自己紹介

    森山 拓洋(もりやま たくひろ) 株式会社GEOTRA/執行役員CTO 兼 プロダクト開発部長 九州大学大学院理学府化学専攻卒。大学では量子化学を学ぶ。人と 人をつなげるITに興味を持ち、KDDIに2014年に新卒入社。 入社後はIoT・5Gネットワーク・4K映像・画像認識など様々な技術 要素の案件を経験。 現在は技術責任者としてGEOTRAのプロダクト開発をリードし、自 らも実装に従事する傍ら、データサイエンティストとしてGEOTRA Activity Dataを活用したデータ分析を推進。日夜お客様の新しいイ ンサイトを模索している。 2
  3. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 本日のテーマ

    ビックデータ処理でデータ量に苦しめられた話 3
  4. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRAのメインサービス

    GEOTRA Activity Data 生活者ひとりひとりの導線が わかる高粒度人流データ 4
  5. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 5

    GEOTRA Activity Dataのデータフォーマット データフォーマットのイメージ GEOTRA Activity Dataは、ひとりひとりの移動がわかる「非集計トリップデータ」です。 ID 性別 年代 出発時間 到着時刻 移動目的 移動手段 始点(経度) 始点(緯度) ・・・ 034 男性 30代 7:12 8:00 通勤 車 139.11 36.44 ・・・ 111 女性 40代 7:14 8:58 通勤 鉄道 139.11 36.44 ・・・ 006 女性 60代 7:31 7:54 買い物 徒歩 139.11 36.44 ・・・ 239 男性 20代 7:33 8:33 通学 鉄道 139.11 36.44 ・・・ 099 男性 50代 8:00 8:45 出勤 鉄道 139.11 36.44 ・・・ 542 女性 20代 8:10 8:30 食事 徒歩 139.11 36.44 ・・・ 090 男性 30代 8:16 8:40 通院 車 139.11 36.44 ・・・ 034 男性 30代 8:00 8:25 食事 徒歩 139.29 34.32 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
  6. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 位置情報データのイメージ(デモ)

    6 GEOTRAは非集計データから都市を移動する人の特徴を抽出します。
  7. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRA

    Activity Dataの特徴:移動目的 Hospital 移動目的:通院 GEOTRAは到着地点からトリップの移動目的を推定します。 7 agent
  8. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 移動目的はPoint

    of Interestデータを利用 Point of Interestデータ 到着地点の情報はPoint of Interstデータを活用。日本中の様々な建物情報を利用。 Eat Work Retail Hospital 8
  9. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 処理時間は雪だるま式

    Point of Interestデータの数 移動目的を紐づける際は、トリップデータとPoint of Interestデータの掛け算でデータ処理時間に影響する Eat Work Hospital トリップデータの数 × どこが近い? 9
  10. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 課題:処理時間は雪だるま式

    街が大きくなるとトリップデータの数もPoint of Interestデータも増える。 1つの市区町村の トリップデータと Point of Interestデータ 1つの都道府県の トリップデータと Point of Interestデータ 4つの都道府県の トリップデータと Point of Interestデータ 1時間ぐらい 24時間ぐらい 2週間たっても終わらない… 処理時間 10
  11. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤1

    インスタンスを大きくしてみた→変わらない→データサイズが怪しい 11 通常インスタンス 処理時間 通常の4倍のサイズのインスタンス
  12. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤2

    トリップデータを分割して、分散処理してみた→変わらない→トリップデータだけが原因じゃない 12 通常のトリップデータ 処理時間 トリップデータを64分割
  13. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 試行錯誤3

    トリップデータとPoint of Interstデータを分割した→処理時間が現実的に! 13 トリップデータを64分割 Point of Interstデータを64分割 処理時間 トリップデータを64分割 24時間ぐらい
  14. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 真因

    Point of Interestの前処理部分がデータ容量が大きく(複数都道府県)なることを想定したつくりになって いなかった。 14 Retail Hospital Eat Work Retail エリア1 エリア2 エリア1に到着するので、 1/2の確率で病院 エリア2に到着するので、 1/3の確率で仕事 前処理:エリアごとにどの移動目的になるかの確率分布を作成 全エリアのPoint of Interestデータを一通りなめて、確率分布を作成していた 一通りなめずに、分割する処理で解決
  15. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD 本日お伝えしたいこと

    • ビックデータ処理でデータ量に苦しめられた話 • データの量を増やした場合に線形に処理時間が延びるわけではない。雪だるま式に増え ることがある。 • インスタンスサイズで何とかなる話だけじゃない。処理内容を理解し、分割・並列でき るような仕組みが大事 • 位置情報データはエリア拡大時に、人とエリアが同時に増えるので特に注意 15
  16. 19 GEOTRA Activity Dataについて 使用した位置情報データ - KDDIが保有する携帯電話から得られる、au GPSビッグデータを取得 し、GEOTRA が保有するデータ加工技術により加工した、ビッグデー

    タ(GEOTRA Activity Data)を利用した。 <au GPS ビッグデータ> - 数分に一度のサンプリングによる高精度・高粒度な人流データで、性 別、年代、居住地等の属性情報が付与されており、多角的かつ網羅的 な分析が可能である。 - さらに、利用許諾を元にデータを収集した上で個人を特定出来ない様 に秘匿化処理及び統計処理を実施しており、個人情報を保護し分析を 行うがことが可能である。 図 au GPSビッグデータ(GEOTRAへ提供されるまでの流れ) 図 GPSデータと基地局データとの違い
  17. 20 使用した位置情報データ(GEOTRA Activity Dataのデータフォーマット) 項目 値・属性等 性別 男性/女性 年代 20代/30代/40代/50代/60代以上(※10代以下はデータ無し)

    居住地 居住地の緯度経度 勤務地 勤務地の緯度経度 移動目的 帰宅/通勤/食事/買い物/アウトドア/食品・日用品購入/通院/エンターテインメント/その他 移動手段 車/鉄道/徒歩/自転車・その他 移動時間 単位:分(移動に要した時間を算出) 移動距離 単位:km(移動に要した距離を算出) 滞在時間 単位:分(滞在先での滞在時間を算出) 出発時刻 0:00-24:00 到着時刻 0:00-24:00 出発地点 出発地点の緯度経度 到着地点 到着地点の緯度経度 移動経路 OD間の経路情報(利用した道路、路線等)に関する情報 移動目的が分かる 回遊・滞留が分かる OD・経路がわかる
  18. CONFIDENTIAL ©︎ 2023 All Rights Reserved GEOTRA CO., LTD GEOTRA

    Activity Data(GAD)とパーソントリップ調査比較 千代田区のトリップ数の比較について 以下では、一例として千代田区を出発地または到着地になるトリップ数(移動する人口) の比較を行います。 • 右上図 • PT調査、GAD共に6~8、16~20時に、ピークを迎えています。通勤・通学で の移動が想定されます。 • その時間、PT調査データはGADよりも特に多い値を示しています。 要因と しては、 GADには、プライバシー保護の観点により、20歳未満のデータが 含まれていないことが考えられます。 • 右下図 • 千代田区から区や市へのトリップ数の分布を表しています。スピアマンの順 位相関係数が0.94を示しており、高い一致度が見られます。 • 外れ値が存在しますが、千代田区内のトリップ数を示しており、アンケート 調査ベースのPT調査は特に近距離の移動の場合は移動回数がGADと比べて過 少になる傾向を表しています。 千代田区 港区 トリップ数 21