Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
Search
estie | エスティ
November 13, 2024
Technology
0
360
第1回 国土交通省 データコンペ参加者向け勉強会③ - Snowflake x estie編 -
「第1回 国土交通省 データコンペ参加者向け勉強会③- スノーフレイク編-」
https://pcdua241113.peatix.com/view
で利用した資料です。
estie | エスティ
November 13, 2024
Tweet
Share
More Decks by estie | エスティ
See All by estie | エスティ
Platformに“ちょうどいい”責務ってどこ? 関心の熱さにあわせて考える、責務分担のプラクティス
estie
2
560
事業価値を作る「攻めるPM、守るPM」
estie
0
110
プレイングにマネジメントに。広がる役割と向き合う中での学び
estie
0
270
デザインと開発を変える、 生成AIとの向き合い方
estie
0
420
Snowflake ML モデルを dbt データパイプラインに組み込む
estie
0
340
ユーザー価値を最大化するための爆速開発
estie
0
180
10年PMをやって気付いた4つのPMタイプ
estie
0
450
自動と手動の両輪で開発するデータクレンジング
estie
2
400
PMとデザイナーが協働してプロダクトを最速で立ち上げるための一つのメソッド
estie
0
210
Other Decks in Technology
See All in Technology
能登半島地震で見えた災害対応の課題と組織変革の重要性
ditccsugii
0
660
神回のメカニズムと再現方法/Mechanisms and Playbook for Kamikai scrumat2025
moriyuya
4
730
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
11
80k
SwiftUIのGeometryReaderとScrollViewを基礎から応用まで学び直す:設計と活用事例
fumiyasac0921
0
160
社内お問い合わせBotの仕組みと学び
nish01
1
580
ガバメントクラウド(AWS)へのデータ移行戦略の立て方【虎の巻】 / 20251011 Mitsutosi Matsuo
shift_evolve
PRO
2
190
BI ツールはもういらない?Amazon RedShift & MCP Server で試みる新しいデータ分析アプローチ
cdataj
0
110
Modern_Data_Stack最新動向クイズ_買収_AI_激動の2025年_.pdf
sagara
0
240
Shirankedo NOCで見えてきたeduroam/OpenRoaming運用ノウハウと課題 - BAKUCHIKU BANBAN #2
marokiki
0
190
Vibe Coding Year in Review. From Karpathy to Real-World Agents by Niels Rolland, CEO Paatch
vcoisne
0
130
【Kaigi on Rails 事後勉強会LT】MeはどうしてGirlsに? 私とRubyを繋いだRail(s)
joyfrommasara
0
230
20251007: What happens when multi-agent systems become larger? (CyberAgent, Inc)
ornew
1
240
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Building Applications with DynamoDB
mza
96
6.7k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
How to Think Like a Performance Engineer
csswizardry
27
2k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
189
55k
Rails Girls Zürich Keynote
gr2m
95
14k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
61k
It's Worth the Effort
3n
187
28k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Transcript
© 2024 estie Inc. 2024.11.13 第1回 国土交通省 データコンペ参 加者向け勉強会③ -
Snowflake x estie編 - 0
© 2024 estie Inc. 登壇者紹介 1 青木 信 株式会社estie 執行役員
データマネジメント事業本部 事業責任者 • 東京大学数理科学研究科修士課程修了 • アクセンチュアにて、データエンジニア(+データサイエン ティスト) • 官公庁関連のデータ基盤刷新/小売業界のCRM基盤構 築/通信業界のグループ会社全体への機械学習プロ ジェクト/etc • 2019年11月、estieに参画 • 2024年2月にデータマネジメント事業本部 事業責任者、 同年6月より執行役員に就任
© 2024 estie Inc. • 事業概要のご紹介 • Snowflakeで地理/不動産データを扱うメリット • Snowflakeでのコンペ参加用のスターター
2
© 2024 estie Inc. 事業概要のご紹介 3
© 2024 estie Inc. 会社概要 4 会社名 株式会社estie(エスティ) 所在地 東京都港区赤坂9丁目7-2
東京ミッドタウン・イースト 4F 設立 2018年12月 代表取締役 平井 瑛 株主 経営陣 東京大学エッジキャピタルパートナーズ(UTEC) グロービス・キャピタル・パートナーズ(GCP) グローバルブレイン 日本政策投資銀行 Vertex Growth 技術顧問 渡辺 努(東京大学大学院経済学研究科教授)
© 2024 estie Inc. 自社ビル等 estieの事業領域 経済的な価値創造の場である「商業用不動産」領域でデジタルインフラを展開 資産 タイプ Office
オフィス Retail 商業施設・アウトレット等 Industrial 物流施設・データセンター等 Hotel ホテル Residential 住宅 投資 目的資産 自己使用 目的資産 商業用不動産市場(資産: 約275兆円 / 収益: 約16兆円) 賃貸住宅市場 分譲住宅市場 分譲オフィスビジネス等も存在はするが、業としてではなく単純に古くからある自社ビルや工場の所有と言った形態が一般的 5
© 2024 estie Inc. データで見るメンバー構成 6 不動産のプロフェッショナルとソフトウェア開発のエキスパートからなるチーム プロダクト開発人員が多いのが特徴的 2024.10 現在
96 名
© 2024 estie Inc. プロダクト展開 7 DaaS (データ) SaaS (業務支援)
アセット オフィス レジ 物流 ホテル 商業 土地(その他) マーケットリサーチツール 開発予定 開発予定 開発予定 アセットごと のデータを 調査 ソリューション支援ツール 非公開 Data Platform 領域横断 で業務を 支援 領域深く 業務を 支援 Middleware(分析・API・認証・権限等)+独自のデータ基盤 開発予定 非公開 バーティカルSaaSとして業界に深く入り込む複数プロダクトを開発・提供を加速 非公開 非公開
© 2024 estie Inc. Snowflakeベースのデータ加工基盤 複数のデータパートナーと提携し、様々な形式のデータを取得 それらのデータを組み合わせ正規化することで単一のデータアセットを構築 8 データパートナー 各サービスDB
© 2024 estie Inc. 9 国土数値情報のサービスへの活用 利用例: 売買案件に、「公示地価」「用途地域」情報を重ねて検討 国土数値情報項目を選択し、 オーバーレイすることが可能
各サービスで国土数値情報から取得したデータをオーバーレイ表示可能。 不動産事業者の意思決定に必要な情報をワンストップで支援している
© 2024 estie Inc. 地理/不動産データを Snowflakeで扱うメリット 10
© 2024 estie Inc. 不動産データを扱う上で欠かせないGISデータをGEOGRAPHY型を 用いて効果的に格納・活用が可能 ➢ 地理空間データ(地図上の位置や形状)を表現できるデータ 型 •
位置情報(緯度と経度)やエリア(国、都市、公園など の形状)を扱うことができる ➢ GEOGRAPHY型向けの便利な関数も用意されている • オブジェクト間の距離計算( ST_DISTANCE ) • ポリゴン内の面積計算( ST_AREA ) • オブジェクト間の交叉判定( ST_INTERSECTS ) • etc メリット①: 地理空間データ型でGISデータを簡単に表現 11 https://www.snowflake.com/en/blog/getting-started-geography-data/
© 2024 estie Inc. 利用例として、住所の指す範囲をGEOGRAPHY型で保持。 建物が住所と整合しているかを確認するのに利用している メリット①: 地理空間データ型でGISデータを簡単に表現 12
© 2024 estie Inc. Pythonベースで簡単なWebアプリケーションを構築出来る Streamlitがネイティブ統合されている メリット②: Streamlit in Snowflakeでインタラクティブな分析
13 ➢ Streamlitは、Pythonでインタラクティブなデータアプリ ケーションを簡単に作成できるOpensource Framework ➢ SnowflakeにStreamlitがネイティブ統合されており、 Snowflakeに格納されたデータを直接参照することが出来 る ➢ GISデータの可視化なども簡単に実現可能 用途地域の可視化例: 高さは容積率
© 2024 estie Inc. Snowflake Notebookを用いて、 SQL/Pythonでの探索的なデータ分析/処理が可能 メリット③: ワークシート/Notebook環境で手軽に分析 14
SQLでデータを取得→Pythonで可視化といった作業をシームレスに実現 Pythonセルでは前述のStreamlit in Snowflakeも呼び出せる
© 2024 estie Inc. Snowflakeで始める 国土交通省データコンペ 15
© 2024 estie Inc. 提供されているtrain/testデータをSnowflakeに取り込む GUI経由でカラム型の自動推論を活用しながらテーブルに格納 学習・テストデータのロードは Snowsight の GUI
から可能 • 配布されている .zip は認識せず .csv では サイズ制限に引っかかるが、.gz に再圧縮 すると通る • カラムの型は自動推論だけではエラーが起 きることもあるので要調整 Step1-1: 学習・テストデータのロード 16
© 2024 estie Inc. コンペで利用が必須となっている国土数値情報を取り込む。 Marketplaceに公開されているデータを利用することも可能 国土数値情報を取り込むには主に 2 通り •
Snowflake Marketplace に公開されている国土 数値情報の加工データをインポートする o Prepper Open Data Bank がシンプルで簡単 • 自前で国土数値情報ダウンロードサイトのデータを取り込む o Python worksheet で数十行で取り込み可能 o 弊社ブログもご参照ください ▪ Snowflake で GIS データを取り込む Step1-2: 国土数値情報のロード 17
© 2024 estie Inc. 前述のワークシートやNotebook機能を用いてデータを確認する Worksheet や Notebook でクエリの実行・可視化が可能 •
例えば右の例では次の 2 つを行っている o 賃料の高い 100 件について、座標と 2050 年人口推計メッ シュを join する o それを Streamlit を用いて地図上にプロットする Step2: データの確認 18
© 2024 estie Inc. Notebook環境でモデル構築し、 Snowparkモデルレジストリに登録する Notebook でモデルを構築するのが簡単 • SQL
cell で学習データをクエリ • Python cell で Pandas DataFrame に変換し、学習 • 学習結果を Snowparkモデルレジストリに保存 Step3-1: モデル構築・保存 19
© 2024 estie Inc. モデルの改善余地をStreamlit in Snowflakeで可視化し検討する Notebook の Python
cell では Streamlit in Snowflake も動くので学習結果を可視化しての分 析も簡単 Step3-2: SiS可視化 20
© 2024 estie Inc. 改善完了したモデルを元にtestデータに対して推論し、 Snowflakeからデータをダウンロードする • Snowparkモデルレジストリに保存したモデルは SQL から呼び出すことができる
• SQL worksheet の実行結果からは CSV をダウンロード可能 • ヘッダを取り除けばそのまま提出に使える o ただし例は特徴量がnull のデータを除外している o 提出時には対応が必要なので注意 Step4: 推定・提出 21
© 2024 estie Inc. これでコンペに集中出来ます! みなさんで楽しみましょう〜! 22