Upgrade to Pro — share decks privately, control downloads, hide ads and more …

国土交通省 データコンペ参加者向け勉強会

国土交通省 データコンペ参加者向け勉強会

2024/10/30(水)開催の国土交通省 データコンペ参加者向け勉強会の資料です。
シラバスや資料・データ一式(講義動画含む)を公開していますので、以下リンクを参照ください。

■勉強会シラバス
 https://241030.peatix.com/ 
■資料・データ一式(講義動画含む)
 https://drive.google.com/drive/u/0/folders/13cGGRX_f4Duvr_mvT4gmx4-HzStcDUa3

Takehiko Hashimoto

November 04, 2024
Tweet

More Decks by Takehiko Hashimoto

Other Decks in Technology

Transcript

  1. 国土交通省 データコンペ参加者向け勉強会 1 2024.10.30 株式会社GA technologies Product Management Product Manager

    Advanced Innovation Strategy Center General Manager 橋本 武彦 国土交通省 地理空間情報データチャレンジ ~国土数値情報編~
  2. 自己紹介:橋本 武彦 6 氏名 橋本 武彦(はしもと たけひこ) 所属 GA technologies 

      Advanced Innovation Strategy Center General Manager   Product Management Product Manager 電気通信大学 客員准教授 滋賀大学データサイエンス学部 インダストリアルアドバイザー 国土交通省 不動産IDルール検討会 構成員(令和3年度) キャリア サマリ Sier(エンジニア5年/研究員2年) ⇒ 調査会社(リサーチャー3年) ⇒ ブレインパッド(シニアデータサイエンティスト9年)を経て2017 年4月から現職にてAISCの立ち上げに参画 データサイエンティスト協会(元事務局長)やデータサイエンティス ト育成の新規事業の立ち上げ 大学(電通大、滋賀大、立正大、慶應SFC、早稲田大、立教大など)や 官公庁(経産省、総務省、国交省)での講義や講演・執筆など E-Mail [email protected] Socialアカウント https://www.facebook.com/hashimoto.takehikko
  3. • 2013年創業。不動産をはじめ、様々な産業 のビジネス変革に取り組むテック企業 • IT化の遅れた業界全体のDXへの貢献を視野 *東証グロース市場で唯一DX銘柄に3年連続選定 • 2017/4にAISC設立 *不動産業界初 会社紹介

    7 設立年月日 2013年 3月 資本金 72億6247万6717円 *2023年10月末時点 代表取締役 樋口龍 事業内容 • ネット不動産投資サービスブラ ンド「RENOSY」の開発・運営 • SaaS型のBtoB PropTechプロダ クトの開発 従業員 1,350人 *2024年3月末時点、グループ会社含む
  4. Problem:問題の明確化と定量化 11 • 明確化 ◦ 問題はなにか、目的はなにか、目標はなにか ▪ (ある時点のある物件の)賃料の予測 • 定量化

    ◦ 数字で計測できるように定義 ◦ (NG:物件の人気度 / OK:物件の問合数、 新しい(築年数)、駅近(徒歩分数)、etc) ▪ 評価方法:RMSE 引用:センサス@スクール https://census.k-junshin.ac.jp/html/ppdac.html
  5. Plan:分析の設計 12 • 問題に対し素材 × 調理を描く。(筋の良い)仮説 を持つことが大切 ◦ 必要な素材を考え(=データ) ◦

    どう調理するか(=分析方針) ▪ 賃料の予測のために賃料の構造(仮説)を 考える! 引用:センサス@スクール https://census.k-junshin.ac.jp/html/ppdac.html
  6. • 賃料が高い部屋/低い部屋の特徴は? 賃料予測の分析設計 14 必要な素材(データ) 調理(分析) ❏ 新築、高層階 ❏ 広い、共有/専有の設備が良い

    ❏ 治安が良い、災害リスクが低い ❏ 保育園や学校が充実 ❏ 都会/地方 ❏ 引越しシーズン(繁忙期)、etc ❏ 比較 ❏ エリア、マンション/アパート ❏ 関係 ❏ 賃料 × 面積、駅徒歩 ❏ 面積 × 駅徒歩(× エリア) ❏ 推移 ❏ 賃料、災害発生数
  7. • 需要(入居者)と供給(物件)のバランスの元、どのような構造かを考え抜く ロジックツリーによる賃料の要因分解 15 賃料 立地 建物/ 部屋 時期 エリア

    近隣施設( ex.駅、学校) 種別、構造、築年、 etc 面積、階、設備、 etc トレンド( ex.バブル) 季節性( ex.繁忙期) × × ... ... ...
  8. Data:(必要な素材(=データ)の)収集と加工 16 • 問題に対し必要なデータが手元に揃っていること は基本ない • 必要なデータを ◦ どう収集するか ◦

    (分析しやすいよう)どう加工するか ▪ コンペ故、提供データから選定だがLIFULL 物件データで約150項目、国土数値情報は 130種類以上のデータセット! ▪ 上記を緯度経度などで連携したり、GISの 加工なども必要! 引用:センサス@スクール https://census.k-junshin.ac.jp/html/ppdac.html
  9. Analsis:Fact & Findings 17 • Fact ◦ 基本統計量や可視化から現状把握 • Findings

    ◦ 比較、関係、傾向の観点で知見を見出す 引用:センサス@スクール https://census.k-junshin.ac.jp/html/ppdac.html
  10. • データ型(量的変数/質的変数)を踏まえ、基本統計量やグラフから現状把握 ◦ 量的変数:賃料、面積、階、etc / 質的変数:ID、物件名、間取り、etc 基本統計量と集計・可視化 18 基本統計量 集計・可視化 ❏

    分布の位置 ❏ 平均値、中央値、最頻値 ❏ 分布の拡がり ❏ 範囲、分散、標準偏差 ❏ 分布の形状 ❏ 尖度、歪度 ❏ 比較 ❏ クロス集計 ❏ 棒・円グラフ ❏ ヒストグラム ❏ 関係 ❏ 散布図 ❏ 推移 ❏ 折れ線グラフ
  11. • 賃料に影響を及ぼす特徴量を探索 ◦ 特徴量同士の影響も考慮 比較/関係/傾向 19 ❏ 比較 ❏ クロス集計

    ❏ 棒・円グラフ ❏ ヒストグラム ❏ 関係 ❏ 散布図 ❏ 推移 ❏ 折れ線グラフ 集計・可視化 ❏ 大小 ❏ 類似 ❏ 相関 ❏ トレンド ❏ 季節性/周期性
  12. Conclusion:(各プロセスの)統合 20 • 統合とは ◦ PPDAを踏まえ、問題に対し結論を提示 ◦ 結論が出ない場合、必要なプロセスに戻る • 新たな問題から次のサイクルへ

    ▪ 予測結果の予実の差異の考察 ▪ 前処理 ⇒ 探索的データ分析 ⇒ 特徴量 ⇒ モデル選択/評価 ⇒ (パラメータチューニング) ⇒ (アンサンブル) 引用:センサス@スクール https://census.k-junshin.ac.jp/html/ppdac.html
  13. ハンズオン!!! *質問あれば気軽にチャットください 27 • Python & 国土数値情報(ポイント/ライン/ポリゴン or メッシュ) で不動産情報ライブ ラリと同じように可視化をしてみましょう!

    • 参考URL Pythonではじめるロケーションデータ解析 ◦ 種類(ラスタ/ベクタ)や構造(ポイント(点)/ライン(線)/ポリゴン(面)) ◦ 座標系(世界測地/日本測地)、PythonライブラリやTool ◦ 空間統計の考え方と事例
  14. (まとめ)予測モデルの精度向上に向けて 31 • まずはDataに真摯に向き合いましょう ◦ 俯瞰/各行(個票)/Web画像(物件写真や周辺) • TrainとTestの双方をみましょう ◦ 予測対象はTest。一方、バリデーションも大切

    • データ(≒前処理)と賃料構造の理解が差異化要因になります ◦ 全変数を機械的に処理してlightGBM、マシンパワー任せのチューニン グやアンサンブルなどでは壁を超えられない • GISを活用し、仮説の検証や予実の差異を考察しましょう ◦ 精度の向上や多種多様なデータセット活用のヒント
  15. Appendix.参考情報_不動産関連 32 • ビジネスモデル ◦ https://f-mikata.jp/bussiness-model/ • 賃貸の市況 ◦ http://www.reins.or.jp/library/

    ◦ https://www.smtri.jp/market/mansion/ • マンション価格指数 ◦ https://www.mlit.go.jp/totikensangyo/totikensangyo_tk5_0000 85.html ◦ https://www.homes.co.jp/cont/data/data_00095/?_ga=2.17427 8951.404533083.1729441167-548013482.1729441167
  16. Appendix.参考情報_データサイエンス基礎 33 • なるほど統計学園 - 総務省統計局 ◦ https://www.stat.go.jp/naruhodo/ • 社会人のためのデータサイエンス演習

    ◦ https://gacco.org/stat-japan2/ ◦ (書籍)https://jstat.stores.jp/items/5f4defd9223ead019da6f34b • データサイエンティスト協会 DSSJournal お役立ちリンク ◦ https://www.datascientist.or.jp/dssjournal/link/ ◦ https://mag.ga-tech.co.jp/careers/mag/12391/ • (書籍)統計学ガイダンス ◦ https://www.nippyo.co.jp/shop/book/6582.html
  17. Appendix.参考情報_コンペ関連 34 • Kaggle-ja Slack ◦ https://join.slack.com/t/kaggler-ja/shared_invite/zt-2t7w0h3tc-E3GwBbjYwe~k0hZ_E3UGfw • Kaggle-ja Wiki

    ◦ https://kaggler-ja.wiki/ • コンペ勝者のレポート ◦ https://www.slideshare.net/ShangxuanZhang/winning-data-science-competitions-presented-by-owen-zhang ◦ https://speakerdeck.com/smly/detafen-xi-kontesutofalse-sheng-zhe-jie-da-karaxue-bu?slide=69 • Signate 入賞者レポート(飯田産業 土地の販売価格の推定/マイナビ × SIGNATE Student Cup 2019: 賃貸物件の家賃予測) ◦ https://signate.jp/competitions/162/summary ◦ https://signate.jp/competitions/182/summary • (書籍)Kaggleで勝つデータ分析の技術 ◦ https://gihyo.jp/book/2019/978-4-297-10843-4
  18. Appendix.参考情報_GA technologies、JSAI、UECの不動産×AI 35 • Advanced Innovation Strategy Center HP(価格推定) ◦

    https://aisc.ga-tech.co.jp/research/data-science/home-value-estimate • Tech Lab(AISCのテクノロジーショーケース) ◦ https://prtimes.jp/main/html/rd/p/000000304.000021066.html ◦ https://www.lab.aisc.ga-tech.co.jp • AISC note(電通大、滋賀大の講義) ◦ https://note.com/takenotabi/n/n7bc11d2f21f9 ◦ https://note.com/takenotabi/n/n91fd2273ed4c • Renosy Magazine(賃料記事) ◦ https://www.renosy.com/magazine/entries/4477 • (JSAI)不動産とAI ◦ https://sites.google.com/view/realestate-ai/ • 電気通信大学データアントレプレナーフェロープログラム ◦ https://de.uec.ac.jp/