Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
Search
estie | エスティ
November 13, 2024
Technology
0
330
第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -
「第1回 国土交通省 データコンペ参加者向け勉強会③- スノーフレイク編-」
https://pcdua241113.peatix.com/view
で利用した資料です。
estie | エスティ
November 13, 2024
Tweet
Share
More Decks by estie | エスティ
See All by estie | エスティ
プレイングにマネジメントに。広がる役割と向き合う中での学び
estie
0
190
デザインと開発を変える、 生成AIとの向き合い方
estie
0
190
Snowflake ML モデルを dbt データパイプラインに組み込む
estie
0
260
ユーザー価値を最大化するための爆速開発
estie
0
140
10年PMをやって気付いた4つのPMタイプ
estie
0
330
自動と手動の両輪で開発するデータクレンジング
estie
2
360
PMとデザイナーが協働してプロダクトを最速で立ち上げるための一つのメソッド
estie
0
170
GraphQLでいい感じの検索APIを作りたい
estie
0
540
GraphQLにおけるページネーションベストプラクティス
estie
0
1.4k
Other Decks in Technology
See All in Technology
Delta airlines Customer®️ USA Contact Numbers: Complete 2025 Support Guide
deltahelp
0
350
Operating Operator
shhnjk
1
520
FOSS4G 2025 KANSAI QGISで点群データをいろいろしてみた
kou_kita
0
390
SmartNewsにおける 1000+ノード規模 K8s基盤 でのコスト最適化 – Spot・Gravitonの大規模導入への挑戦
vsanna2
0
120
プライベートクラウドでの効率的な証明書配布戦略 / Efficient Certificate Distribution Strategy in Private Cloud
lycorptech_jp
PRO
0
110
整頓のジレンマとの戦い〜Tidy First?で振り返る事業とキャリアの歩み〜/Fighting the tidiness dilemma〜Business and Career Milestones Reflected on in Tidy First?〜
bitkey
2
15k
2025-07-06 QGIS初級ハンズオン「はじめてのQGIS」
kou_kita
0
160
AI専用のリンターを作る #yumemi_patch
bengo4com
5
4.1k
敢えて生成AIを使わないマネジメント業務
kzkmaeda
2
390
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
0
100
AIの全社活用を推進するための安全なレールを敷いた話
shoheimitani
2
450
OPENLOGI Company Profile
hr01
0
67k
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
730
What's in a price? How to price your products and services
michaelherold
246
12k
Code Reviewing Like a Champion
maltzj
524
40k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Visualization
eitanlees
146
16k
Building Applications with DynamoDB
mza
95
6.5k
Faster Mobile Websites
deanohume
307
31k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
950
The Art of Programming - Codeland 2020
erikaheidi
54
13k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
53k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Transcript
© 2024 estie Inc. 2024.11.13 第1回 国土交通省 データコンペ参 加者向け勉強会③ -
Snowflake x estie編 - 0
© 2024 estie Inc. 登壇者紹介 1 青木 信 株式会社estie 執行役員
データマネジメント事業本部 事業責任者 • 東京大学数理科学研究科修士課程修了 • アクセンチュアにて、データエンジニア(+データサイエン ティスト) • 官公庁関連のデータ基盤刷新/小売業界のCRM基盤構 築/通信業界のグループ会社全体への機械学習プロ ジェクト/etc • 2019年11月、estieに参画 • 2024年2月にデータマネジメント事業本部 事業責任者、 同年6月より執行役員に就任
© 2024 estie Inc. • 事業概要のご紹介 • Snowflakeで地理/不動産データを扱うメリット • Snowflakeでのコンペ参加用のスターター
2
© 2024 estie Inc. 事業概要のご紹介 3
© 2024 estie Inc. 会社概要 4 会社名 株式会社estie(エスティ) 所在地 東京都港区赤坂9丁目7-2
東京ミッドタウン・イースト 4F 設立 2018年12月 代表取締役 平井 瑛 株主 経営陣 東京大学エッジキャピタルパートナーズ(UTEC) グロービス・キャピタル・パートナーズ(GCP) グローバルブレイン 日本政策投資銀行 Vertex Growth 技術顧問 渡辺 努(東京大学大学院経済学研究科教授)
© 2024 estie Inc. 自社ビル等 estieの事業領域 経済的な価値創造の場である「商業用不動産」領域でデジタルインフラを展開 資産 タイプ Office
オフィス Retail 商業施設・アウトレット等 Industrial 物流施設・データセンター等 Hotel ホテル Residential 住宅 投資 目的資産 自己使用 目的資産 商業用不動産市場(資産: 約275兆円 / 収益: 約16兆円) 賃貸住宅市場 分譲住宅市場 分譲オフィスビジネス等も存在はするが、業としてではなく単純に古くからある自社ビルや工場の所有と言った形態が一般的 5
© 2024 estie Inc. データで見るメンバー構成 6 不動産のプロフェッショナルとソフトウェア開発のエキスパートからなるチーム プロダクト開発人員が多いのが特徴的 2024.10 現在
96 名
© 2024 estie Inc. プロダクト展開 7 DaaS (データ) SaaS (業務支援)
アセット オフィス レジ 物流 ホテル 商業 土地(その他) マーケットリサーチツール 開発予定 開発予定 開発予定 アセットごと のデータを 調査 ソリューション支援ツール 非公開 Data Platform 領域横断 で業務を 支援 領域深く 業務を 支援 Middleware(分析・API・認証・権限等)+独自のデータ基盤 開発予定 非公開 バーティカルSaaSとして業界に深く入り込む複数プロダクトを開発・提供を加速 非公開 非公開
© 2024 estie Inc. Snowflakeベースのデータ加工基盤 複数のデータパートナーと提携し、様々な形式のデータを取得 それらのデータを組み合わせ正規化することで単一のデータアセットを構築 8 データパートナー 各サービスDB
© 2024 estie Inc. 9 国土数値情報のサービスへの活用 利用例: 売買案件に、「公示地価」「用途地域」情報を重ねて検討 国土数値情報項目を選択し、 オーバーレイすることが可能
各サービスで国土数値情報から取得したデータをオーバーレイ表示可能。 不動産事業者の意思決定に必要な情報をワンストップで支援している
© 2024 estie Inc. 地理/不動産データを Snowflakeで扱うメリット 10
© 2024 estie Inc. 不動産データを扱う上で欠かせないGISデータをGEOGRAPHY型を 用いて効果的に格納・活用が可能 ➢ 地理空間データ(地図上の位置や形状)を表現できるデータ 型 •
位置情報(緯度と経度)やエリア(国、都市、公園など の形状)を扱うことができる ➢ GEOGRAPHY型向けの便利な関数も用意されている • オブジェクト間の距離計算( ST_DISTANCE ) • ポリゴン内の面積計算( ST_AREA ) • オブジェクト間の交叉判定( ST_INTERSECTS ) • etc メリット①: 地理空間データ型でGISデータを簡単に表現 11 https://www.snowflake.com/en/blog/getting-started-geography-data/
© 2024 estie Inc. 利用例として、住所の指す範囲をGEOGRAPHY型で保持。 建物が住所と整合しているかを確認するのに利用している メリット①: 地理空間データ型でGISデータを簡単に表現 12
© 2024 estie Inc. Pythonベースで簡単なWebアプリケーションを構築出来る Streamlitがネイティブ統合されている メリット②: Streamlit in Snowflakeでインタラクティブな分析
13 ➢ Streamlitは、Pythonでインタラクティブなデータアプリ ケーションを簡単に作成できるOpensource Framework ➢ SnowflakeにStreamlitがネイティブ統合されており、 Snowflakeに格納されたデータを直接参照することが出来 る ➢ GISデータの可視化なども簡単に実現可能 用途地域の可視化例: 高さは容積率
© 2024 estie Inc. Snowflake Notebookを用いて、 SQL/Pythonでの探索的なデータ分析/処理が可能 メリット③: ワークシート/Notebook環境で手軽に分析 14
SQLでデータを取得→Pythonで可視化といった作業をシームレスに実現 Pythonセルでは前述のStreamlit in Snowflakeも呼び出せる
© 2024 estie Inc. Snowflakeで始める 国土交通省データコンペ 15
© 2024 estie Inc. 提供されているtrain/testデータをSnowflakeに取り込む GUI経由でカラム型の自動推論を活用しながらテーブルに格納 学習・テストデータのロードは Snowsight の GUI
から可能 • 配布されている .zip は認識せず .csv では サイズ制限に引っかかるが、.gz に再圧縮 すると通る • カラムの型は自動推論だけではエラーが起 きることもあるので要調整 Step1-1: 学習・テストデータのロード 16
© 2024 estie Inc. コンペで利用が必須となっている国土数値情報を取り込む。 Marketplaceに公開されているデータを利用することも可能 国土数値情報を取り込むには主に 2 通り •
Snowflake Marketplace に公開されている国土 数値情報の加工データをインポートする o Prepper Open Data Bank がシンプルで簡単 • 自前で国土数値情報ダウンロードサイトのデータを取り込む o Python worksheet で数十行で取り込み可能 o 弊社ブログもご参照ください ▪ Snowflake で GIS データを取り込む Step1-2: 国土数値情報のロード 17
© 2024 estie Inc. 前述のワークシートやNotebook機能を用いてデータを確認する Worksheet や Notebook でクエリの実行・可視化が可能 •
例えば右の例では次の 2 つを行っている o 賃料の高い 100 件について、座標と 2050 年人口推計メッ シュを join する o それを Streamlit を用いて地図上にプロットする Step2: データの確認 18
© 2024 estie Inc. Notebook環境でモデル構築し、 Snowparkモデルレジストリに登録する Notebook でモデルを構築するのが簡単 • SQL
cell で学習データをクエリ • Python cell で Pandas DataFrame に変換し、学習 • 学習結果を Snowparkモデルレジストリに保存 Step3-1: モデル構築・保存 19
© 2024 estie Inc. モデルの改善余地をStreamlit in Snowflakeで可視化し検討する Notebook の Python
cell では Streamlit in Snowflake も動くので学習結果を可視化しての分 析も簡単 Step3-2: SiS可視化 20
© 2024 estie Inc. 改善完了したモデルを元にtestデータに対して推論し、 Snowflakeからデータをダウンロードする • Snowparkモデルレジストリに保存したモデルは SQL から呼び出すことができる
• SQL worksheet の実行結果からは CSV をダウンロード可能 • ヘッダを取り除けばそのまま提出に使える o ただし例は特徴量がnull のデータを除外している o 提出時には対応が必要なので注意 Step4: 推定・提出 21
© 2024 estie Inc. これでコンペに集中出来ます! みなさんで楽しみましょう〜! 22