Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コラボレーション大航海時代で生き残るデータリテラシーを身につけよう! #未来のデータサイエンス...

コラボレーション大航海時代で生き残るデータリテラシーを身につけよう! #未来のデータサイエンスコンテスト

Snowflakeが主催する7社のデータと2社のBIツール使い放題の前代未聞の豪華企画「未来のデータサイエンスコンテスト」で一体どのように分析をスタートしていけばいいのか、SnowVillageの梶谷さん、島田さん、山中さんがじっくり解説してくれたこちらのセッションの資料を大公開!!
https://youtube.com/live/tU5yIIbsVkU?feature=share

コンテストに参加して、ぜひたくさん新しいデータ分析の手法を試してみてください!
https://www.snowflake.com/snowflake-japan-contest/

SnowVillage

April 19, 2023
Tweet

Other Decks in Technology

Transcript

  1. © 2023 Snowflake Inc. All Rights Reserved 1 参加すればあなたも最先端の データサイエンティストになれるかも!?

    コラボレーション大航海時代で生き残る データリテラシーを身につけよう!! やってみた #未来のデータサイエンスコンテスト #SnowVillage
  2. © 2023 Snowflake Inc. All Rights Reserved Today’s Speakers! 島田

    崇史 unerry株式会社 プロダクトマネージャー 山中 雄生 ノバセル株式会社 システム開発部 エンジニア 梶谷 美帆 DATUM STUDIO株式会社 データエンジニア 2 #SnowVillage
  3. © 2023 Snowflake Inc. All Rights Reserved お品書き How to

    外部データコラボレーション? Snowpark入門! アフタートーク 3 #SnowVillage
  4. © 2023 Snowflake Inc. All Rights Reserved How to 外部データ

    コラボレーション? 島田 崇史 & 山中 雄生 #SnowVillage
  5. © 2023 Snowflake Inc. All Rights Reserved 5 データコラボレーションに必要なこと •

    コラボレーションする前の下準備 • オリジナルの視点を出すには? • 使えるPythonライブラリの紹介 #SnowVillage
  6. © 2023 Snowflake Inc. All Rights Reserved 6 その解釈で大丈夫? 店舗名

    場所 性別 商品 日時 購入点数 A店 東京都 港区 男性 アイス 2022/6/1 2000 A店 東京都 港区 男性 傘 2022/6/1 1 B店 福岡県 福岡市 男性 アイス 2022/6/1 10 B店 福岡県 福岡市 男性 傘 2022/6/1 2000 ︙ ︙ ︙ ︙ ︙ IDPOSデータ 港区の男性はアイスが大好き!! →その示唆、本当なの? #SnowVillage
  7. © 2023 Snowflake Inc. All Rights Reserved 7 データコラボレーションして正しく解釈したい! 店舗名

    場所 性別 商品 日時 購入点数 A店 東京都 港区 男性 アイス 2022/6/1 2000 A店 東京都 港区 男性 傘 2022/6/1 1 B店 福岡県 福岡市 男性 アイス 2022/6/1 10 B店 福岡県 福岡市 男性 傘 2022/6/1 2000 ︙ ︙ ︙ ︙ ︙ IDPOSデータ 天気データ 天気 気温 緯度 経度 地点 日時 晴れ 30℃ 35.64163 139.575 683 東京都 港区 2022/6/1 大雨 22℃ 35. 64165 139.575 685 福岡県 福岡市 2022/6/1 ︙ ︙ ︙ ︙ ︙ 港区の男性はアイスが大好き!! →その示唆、本当なの? あれ?福岡市は大雨だったから 傘が売れたのかな? ってことは?あれ? #SnowVillage
  8. © 2023 Snowflake Inc. All Rights Reserved 天気 気温 緯度

    経度 地点 日時 晴れ 30℃ 35.64163 139.575 683 東京都 港区 2022/6/1 大雨 22℃ 35. 64165 139.575 685 福岡県 福岡市 2022/6/1 ︙ ︙ ︙ ︙ ︙ 8 データ同士の接着剤でインサイトの幅が広がる! 店舗名 場所 性別 商品 日時 購入点数 A店 東京都 港区 男性 アイス 2022/6/1 2000 A店 東京都 港区 男性 傘 2022/6/1 1 B店 福岡県 福岡市 男性 アイス 2022/6/1 10 B店 福岡県 福岡市 男性 傘 2022/6/1 2000 ︙ ︙ ︙ ︙ ︙ POSデータ 天気データ 天候によって買いたい商品が変わる!? #SnowVillage
  9. © 2023 Snowflake Inc. All Rights Reserved 9 でもちょっとまって!2,000個のアイスの種類は!! #SnowVillage

    参加企業:(メーカー名順不同) 赤城乳業(株)/江崎グリコ(株)/森永乳業(株)/森永製菓(株)/(株)明治/(株)ロッテ/ハーゲンダッ ツジャパン(株)/オハヨー乳業(株)/井村屋(株)/クラシエフーズ販売(株)/丸永製菓(株)/フタバ食品(株)/協同乳業(株) 参照 :https://www.sankei.com/pressrelease/prtimes/Y53JRZHOUNN6JJ7TIDZ753R73Q/
  10. © 2023 Snowflake Inc. All Rights Reserved 10 テレビ番組の影響は大きい #SnowVillage

    関東地方だけで放送されたテレビ番組で ガリガリ君特集がされて東京エリアだけで 異常にガリガリ君が売れただけかもしれない!!!
  11. © 2023 Snowflake Inc. All Rights Reserved オリジナリティを出していこう! 手法 例

    示唆 時系列トレンド分析年間の天気データのトレンド分析 都市や地域における天気傾向や変化パターンにインサイトがないか確認します。例え ば、最高気温が過去数年で上昇しているか、降水量が過去数年で減少しているかなど、 時系列トレンドを利用した示唆を得ることができるかもしれません。 比較分析 地域間の天気データの比較 +地域間の売上 地域間の天気データを比較することで、地域間の類似点や差異点を特定することができ ます。例えば、2つの地域の最高気温が同じ時期に増加しているか、片方の地域の最高気 温が他方よりも高いかなど。同じ軸で、データ内容を変えて発見があるかを探るとなに か発見できる可能性が広がります。 統計分析 年間の天気データの統計的分析 年間の天気データを数学的に分析することで、平均気温、標準偏差などの統計量を求め ることができます。例えば、全体の平均気温がどの程度であるか、最高気温と最低気温 との差がどの程度あるかなど。 数理モデリング 天気データとPOSデータからの 売上予測 天気データとPOSデータを使って数学的なモデルを作成することで、将来の売上予測を することができます。例えば、過去の天気データとPOSデータから将来1週間のセールス 予測をすることができます。 データマイニング 天気データの分析 天気データを使って有用な情報を抽出することができます。例えば、天気によってセー ルスに影響を与えることを発見することができます。また、天気とセールスの関係性を モデル化することもできます。 クラスタリング 天気データのクラスタリング 天気データを使って似たような天気パターンを持つグループに分類することができま す。例えば、晴れの日、曇りの日、雨の日などをグループ分けすることができます。各 グループの特徴を特定することができます。 分類 天気データに基づくセールスの カテゴリ分類 天気データを使ってセールスを複数のカテゴリーに分類することができます。例えば、 天気が晴れの日にはセールスが高くなるか、天気が曇りの日にはセールスが低いかな ど。 回帰分析 天気データとセールスの関連性分析 天気データとセールスデータを使って、天気とセールスの関連性を分析することができ ます。例えば、天気が晴れの日にセールスが最も高くなるか、天気とセールスの関連性 がどの程度であるかなど。 #SnowVillage
  12. © 2023 Snowflake Inc. All Rights Reserved データの使用例 あくまで一例です 手法 使用データ

    時系列トレンド分析 天気(ウェザーニューズ)、POS売上(インテージ)、株価(QUICK)、TVCMの放映内容(エム・データ)、フード デリバリー(マインディア)、診療内容(MDV) 比較分析 天気と売上の変動(ウェザーニューズ✖インテージORマインディア)、業界別の株価推移の変動 (QUICK✖truestar)、天気と病気の相関(ウェザーニューズ✖MDV)、売上とTVCMの相関(インテージORマイン ディア✖エム・データ) 統計分析 天気(ウェザーニューズ)、株価(QUICK) 数理モデリング 天気とPOSデータからの売上予測(ウェザーニューズ✖インテージ)、天気とフードデリバリーからの売上予測(ウェ ザーニューズ✖マインディア)、TVCMとPOSデータからの売上予測(エム・データ✖インテージ)、TVCMとフードデ リバリーからの売上予測(エム・データ✖マインディア)、病気とPOSデータからの売上予測(MDV✖インテージ) データマイニング 要因:天気(ウェザーニューズ)、病気(MDV)、TVCM(エム・データ) 結果:POS売上(インテージ)、フードデリバリー(マインディア)、株価(QUICK) クラスタリング 天気データのクラスタリング(ウェザーニューズ)、TVCMデータのクラスタリング(エム・データ) 分類 天気データに基づく売上のカテゴリ分類(ウェザーニューズ✖インテージORマインディア) 回帰分析 天気データとセールスの関連性分析(ウェザーニューズ✖インテージORマインディア)、病気データとセールスの関連 性分析(MDV✖インテージORマインディア)、TVCMデータとセールスの関連性分析(エム・データ✖インテージORマ インディア) ※個別に記載していませんが、truestarさんのデータはカレンダー、駅、医療機関、地図など基準値に当たるデータなのですべての分析のベー スラインとして使えそう。 ※株価(QUICK)✖法人(truestar)、患者診療情報(MDV)✖医療機関(truestar)などは鉄板 #SnowVillage
  13. © 2023 Snowflake Inc. All Rights Reserved 使えるPythonライブラリの紹介 時系列分析 Scikit-learn,

    prophet, statsmodels など 比較分析 (仮説検定) scipy.stats, PyMC など 統計分析・回帰分析 Scikit-learn, statsmodels など 数理モデリング・データマ イニング・クラスタリング ・分類 Scikit-learn など どんな分析モデルが良いか迷った場合:Scikit-learnの「Choosing the right estimator」を参考 ぱっとデータの中身の傾向をみたい場合:「ydata-profiling」が便利 #SnowVillage
  14. © 2023 Snowflake Inc. All Rights Reserved Snowpark入門! Snowpark ことはじめ

    ~データコラボレーションデモを添えて 梶谷 美帆 #SnowVillage
  15. © 2023 Snowflake Inc. All Rights Reserved Contents • Snowpark

    ことはじめ ◦ Snowpark とは ◦ 主なコンポーネント ◦ 他の方式との比較 ◦ Snowpark を使うには • Snowpark デモ ◦ Snowpark の基本 ◦ 機械学習 ◦ 提供データを触ってみよう #SnowVillage
  16. © 2023 Snowflake Inc. All Rights Reserved 17 概要 •

    Snowpark は、データを Snowflake から出さずに処理することができる機能 • データ処理に Snowflake のコンピューティングリソースを利用可能 ◦ 大規模なデータも取り扱える • Python、Scala、Java で提供されている ◦ 分析者・開発者は、使い慣れた言語でデータを操作することができる これまで • 2021年6月、Snowflake Summit でパブリックプレビューが公開され、Scala と Java で利用可能に • Python サポートは2021年11月の Snowday で PrPr 開始、2022年6月の Snowflake Summit で PuPr になり、2022年11月に一般公開🎉 Snowpark とは #SnowVillage
  17. © 2023 Snowflake Inc. All Rights Reserved 18 Snowpark とは

    主なコンポーネント • クライアント API ◦ DataFrameの操作など ◦ API は Pandas よりも Spark に近 い(と思う) ▪ こちらの記事が参考になります Pandasのよく使われる処理を Snowparkにマッピングしてみた • UDF • ストアドプロシージャ #SnowVillage
  18. © 2023 Snowflake Inc. All Rights Reserved 他の方式との比較 Snowpark 以外にもデータにアクセスする方法はあります。Snowpark

    の良いところって? コネクタ ※ストリーミングデータは扱わな いのでKafkaは割愛 ドライバ BIツール ※接続はODBC・JDBC 言 語 ODBC、JDBC、 Python、Go、etc. ノーコード、 ローコード デ ー タ の 場 所 SQL は Snowflake 内部 DF化などで外部に 例えば、to_pandas() で Dataframe 化すると、プログラム を実行している環境にデータが出て しまう。 実行環境のセキュリティに注意。 基本は Snowflake 内部 操作によっては外部に 抽出接続などで集計結果を保存す ると Snowflake の外にデータが出 るので、BIツールの実行環境は堅 牢にしましょう。 機 能 拡 張 性 Snowpark Python、 Scala、Java Snowflake 内部 toPandas() しなければ、 実行環境に出ることはな い。 コンピューティングも Snowflake ウェアハウス を使う 言語で使えるパッケー ジやライブラリを追加 可能 Python、R などを使っ ていればパッケージ追 加可能 Tabpy(Tableau)などを準備する 必要あり Python では Anaconda が提 供するパッケー ジを利用可能 その他は持ち込みが必要 SQL Snowsight、 SnowSQL SQL Snowflake 内部 get コマンドなどでダウ ンロードしなければ、流 出することはない。 コンピューティングも Snowflake ウェアハウス を使う パッケージ等の 拡張はなし UDF・ストアドで、 Python や Snowflake Script(ストアドのみ) を使うことは可能 Spark (Python、Scala) 基本は Snowflake 内部 場合によっては Spark クラスタ Snowflake のSQLに変換可能な操 作なら、Snowflake 内で処理され るが、対応していない操作は Spark クラスタ内で行われる。 セキュリティ考慮必須。 言語で使えるパッケー ジやライブラリを追加 可能 #SnowVillage
  19. © 2023 Snowflake Inc. All Rights Reserved 主な方法 • お手持ちのPCで使う

    ◦ PythonとcondaをインストールすればOK ▪ 公式ドキュメントを参考に ◦ またはIcetireなどのDocker imageを利用す る手もあり • オンライン Python 実行環境で使う ◦ Google Collaboratory、Amazon SageMaker Studio Lab など • Snowsight の Python ワークシートで使う ◦ Python環境を準備する必要なし ◦ 2023年3月にパブリックプレビュー公開🎉 Snowpark を使うには みんな待ってた Python ワークシート #SnowVillage
  20. © 2023 Snowflake Inc. All Rights Reserved Snowpark デモ おしながき

    • Snowpark の基本 ◦ 接続設定 ◦ DataFrameの操作 ◦ UDFとストアドプロシージャ • 機械学習 ◦ 学習とモデルの保存 ◦ 推論 • 提供データを Snowpark で触ってみよう #SnowVillage