Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Prepの集計機能についておさらいしてみる

 Prepの集計機能についておさらいしてみる

holywater044

May 25, 2023
Tweet

More Decks by holywater044

Other Decks in Technology

Transcript

  1. 自己紹介 名前: Akihiro Horikawa 所属: 東邦ガス株式会社 (東海地方の総合エネルギー企業) ※ 本発表は登壇者個人の見解であり、所属企業の公式見解ではありません 役割:

    社内データ分析チームリーダー、データ関連の技術調査・教育、ほか Tableau歴: 約3年半。 DATASaber Apprentice挑戦中(5/1~) Twitter: ほーりー @holywater044 コミュニティ: 中部Tableauユーザー会(幹事)、 SnowVillage(村人)、 ほか 2 TECHPLAY 中部Tableauユーザー会 https://techplay.jp/co mmunity/tableau- chubu YOUTUBE SnowVillage みんなのSQL講座 https://www.youtube. com/watch?v=NFKjC WzlS7o
  2. はじめに 私見ですが、こんなときが Prepくん の出番と考えています。 11 • クリーニングや整形しないと使えないデータの「下拵え」 ▪ そのデータを使う誰もがやらないといけないなら、先にすましておく方が効率的 ▪

    Desktopから切り離してPrepに置く方が、中身がわかり易く、人に伝え易い • Desktopでパフォーマンス出ないのをなんとかする ▪ ある程度規模の大きいデータの話になりますが、複雑な計算や集計を、先にやって おくと、Desktopが軽くなります • 目的の粒度のデータに、あらかじめ集計しておく ▪ Desktopで粒度の異なるデータを同時に扱うと、慣れないと事故るのが怖いです ▪ 分析目的にもよりますが、あらかじめ粒度の揃ったデータにしておけると安心です
  3. はじめに 私見ですが、こんなときが Prepくん の出番と考えています。 12 • クリーニングや整形しないと使えないデータの「下拵え」 ▪ そのデータを使う誰もがやらないといけないなら、先にすましておく方が効率的 ▪

    Desktopから切り離してPrepに置く方が、中身がわかり易く、人に伝え易い • Desktopでパフォーマンス出ないのをなんとかする ▪ ある程度規模の大きいデータの話になりますが、複雑な計算や集計を、先にやって おくと、Desktopが軽くなります • 目的の粒度のデータに、あらかじめ集計しておく ▪ Desktopで粒度の異なるデータを同時に扱うと、慣れないと事故るのが怖いです ▪ 分析目的にもよりますが、あらかじめ粒度の揃ったデータにしておけると安心です 大雑把なイメージ 生データ 整備済データ (分析用データ) DesktopのViz (≒GetData) (≒Choose VisualMapping)
  4. 分類? 集計方法 数値 日時・日付 文字列 件数系 カウント 〇 〇 〇

    個別カウント △1 △1 〇 最頻値 △1 △1 〇 統計系 合計 〇 - - 平均 〇 △2 - 標準偏差/母標準偏差 〇 △2 - 分散/母分散 〇 △2 - 順位系 最小値 〇 〇 △3 最大値 〇 〇 △3 中央値 〇 △2 △3 百分位 〇 △2 △3 分類? 集計方法 数値 日時・日付 文字列 件数系 カウント 〇 〇 〇 個別カウント △1 △1 〇 最頻値 △1 △1 〇 統計系 合計 〇 - - 平均 〇 △2 - 標準偏差/母標準偏差 〇 △2 - 分散/母分散 〇 △2 - 順位系 最小値 〇 〇 △3 最大値 〇 〇 △3 中央値 〇 △2 △3 百分位 〇 △2 △3 • 使える集計方法は、データ型によって制約があります データ型と集計方法 20 黄色がPrepで 使えるもの △3:値に順序関係があれば、 一応可能(優良可など) Prepでは文字列昇順に なるので、頭に数字つける などが必要 △1:とりうる値の種類が少ない、 またはビンにすれば一応可能 △2:基準日からの日数とかに 変換すれば一応可能だが、 あまりやらない認識
  5. ①追加フィールド • ここから使うカラムを選択する 26 あまり気にしていないかもですが、カラムが自動で 「グループ」と「SUM」に分類されています。 • データ型が文字列・日時・日付なら、「グループ」 ⇒ 粒度に使うことをガイド

    してくれてる カラムをダブルクリックすると、自動的に②に入る (集計にも使いますが) • データ型が数値なら、「SUM」 ⇒ 集計に使うことをガイドしてくれてる カラムをダブルクリックすると、自動的に③に入る
  6. 注意点: 平均や比率の、平均 • 平均や比率を表すカラムを、集計するとき注意が必要 ▪ テストの平均点、商品の割引率など • 例) テストの平均点 34

    平均点の平均値 (58+60+53)÷3=57 学年全体の総得点と総人数を集計して、 平均点を計算しなおす 単純平均 荷重平均