Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Exploratoryを使ったゆとりあるワークフロー管理

Ikuya Murasato
November 12, 2021

 Exploratoryを使ったゆとりあるワークフロー管理

2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社サイズ様のご登壇資料です。

Ikuya Murasato

November 12, 2021
Tweet

More Decks by Ikuya Murasato

Other Decks in Business

Transcript

  1. 会社紹介 2 株式会社サイズ • 設 立 :2003年4月 • 事 業

    所:営業本部 渋谷区道玄坂1-18-1 • 研究開発センター 名古屋市中村区名駅3-20-21 • 社 員 数:16名 (営業 7名 エンジニア 9名)
  2. 会社紹介 3 株式会社サイズ • 事業内容 :アンケートシステムORCAの開発 ※1 システム開発/システムコンサルティング (調査画面作成、ORCA周りの受託開発、調査のシステム運用等 調査業務知識は数名保有、データ分析業務は現状2名)

    • 主取引先 :市場調査会社(ビデオリサーチ社、楽天インサイト社 イプソス社、アスマーク社、東京商工リサーチ社等) ※1.ORCA(Online Research Control system Architecture) 本気でリサーチ(調査)をしたいというお客様の要望に応えるオンラインアンケートシステム
  3. 自己紹介 名前:相澤 健(あいざわ たけし) 2016年にサイズに入社 業務内容:データの加工・集計・分析を行っています。 扱う対象はアンケートデータ・ログデータ 使用ツール:Excel、Excel VBA、Access、SQL、Tableau、R、 Exploratory(New)

    ※ゴリゴリの文系なので専門用語の誤用などあるかもしれませんが温もり目線で見守ってください 4 本日はそんな私がExploratoryと出会う前、出会ってからのお話です
  4. 2H 5H 10H 5H 3H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型

    分析の実施 検証 グラフ作成 試行錯誤の 繰り返し プロローグ 8 分析の実施 検証 データの 加工・成型 グラフ作成 ぼく「ざっくりプロセスと時間配分はこんな感じかな」 Total 30H? データ抽出 データ傾向の確認 (外れ値・欠損値)
  5. 登場ツール紹介 9 ツール名 特徴 Excel ぼくの幼馴染。幅広くいろんなことが出来る。表やグラフでは頼りになる。でも最近の進化につ いていけずに疎遠に… R 3年前に知り合う。統計解析に優れたツール。コードを書けばたいていのことは出来る。ぼく は独学のためggplotや%>%を使ったモダンな書き方は苦手。

    SQL 2年前に知り合う。DWHからデータ抽出のための必須ツール。独学のためwithを多用して 長めのコードになりがち。 Tableau 4年前に知り合う。大規模なデータでもグラフ化が得意。ダッシュボードではフィルタを使った 探索的な使い方が出来て便利。 シリコンバレーからやって きた謎のツール その正体はまだ不明 ※発表者個人の見解であり、所属する団体の公式な見解ではありません
  6. 試行錯誤の 繰り返し 分析の実施 検証 データの 加工・成型 グラフ作成 データ抽出 データ傾向の確認 (外れ値・欠損値)

    2H 5H 10H 5H 3H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型 分析の実施 検証 グラフ作成 15 Total 30H? それはどのツールでやるべきか→何が起きていたのか SQL Tableau R Excel 学習コスト が含まれ ている 学習コスト が含まれ ている ツールの 切り替えが必要 ツールの 切り替えが必要 ツールの 切り替えが必要 CSVファイルが 必要
  7. ぼく「ログデータで縦になっているものをID毎にカラムにドメインが来るように加工したいんだけど」 19 ID URL 111 https://example.com/aaa 111 https://example.com/bbb 111 https://example.com/ccc

    222 https://example.com/aaa 222 https://example.com/ccc ID https://example.com/aaa https://example.com/bbb https://example.com/ccc 111 1 1 1 222 1 0 1 「ロング型からワイド型へ(Gather)」を選ぶことで 数クリックで加工出来ますが、何か?
  8. ぼく「ログデータで縦になっているものをID毎にカラムにドメインが来るように加工したいんだけど」 20 ID URL 111 https://example.com/aaa 111 https://example.com/bbb 111 https://example.com/ccc

    222 https://example.com/aaa 222 https://example.com/ccc ID https://example.com/aaa https://example.com/bbb https://example.com/ccc 111 1 1 1 222 1 0 1 「ロング型からワイド型へ(Gather)」を選ぶことで 数クリックで加工出来ますが、何か?
  9. 2H 5H 5H 2H 3H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型

    分析の実施 検証 グラフ作成 22 Total 22H? それはどのツールでやるべきか→何が起きていたのか ※個人の感想であり、効果・効能を保証するものではありません 試行錯誤の 繰り返し 分析の実施 検証 データの 加工・成型 グラフ作成 データ抽出 データ傾向の確認 (外れ値・欠損値) ツールの切り替え無しですべてExploratoryで出来ますが、何か? ※データソースを「データベースデータ」にした場合はSQLを記述する必要があります やりたいことは、学習コストなしで クリックメニューで出来ますが、何か?
  10. 2H 5H 10H 5H 3H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型

    分析の実施 検証 グラフ作成 28 Total 30H? SQL Tableau R Excel 複数ツー ルで再処 理が必要 それはどのツールがやったのか→何が起きていたのか 試行錯誤の 繰り返し 分析の実施 検証 データの 加工・成型 グラフ作成 データ抽出 データ傾向の確認 (外れ値・欠損値) 細かい集 計・検証 が必要 複数ツー ルで再処 理が必要 細かい集 計・検証 が必要
  11. 2H 1H 2H 2H 1H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型

    分析の実施 検証 グラフ作成 34 それはどのツールがやったのか→何が起きていたのか Total 13H? ※個人の感想であり、効果・効能を保証するものではありません 試行錯誤の 繰り返し 分析の実施 検証 データの 加工・成型 グラフ作成 データ抽出 データ傾向の確認 (外れ値・欠損値) STEP毎にサマリービューで集計結果が可視化されますが、何か? ※しかもデータの型(Numeric/date等)によって適切に集計されます 処理は付箋の感覚で追加・入れ替えが簡単ですが、何か? ※しかも変更が発生すると自動で再処理されます
  12. 2H 5H 10H 5H 3H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型

    分析の実施 検証 グラフ作成 37 Exploratory導入後 2H 1H 2H 2H 1H 5H データ抽出 データ傾向の確認 (外れ値・Null) データの加工・成型 分析の実施 検証 グラフ作成 Total 13H? Total 30H? ツールの切り替え無しですべてExploratoryで出来ますが、何か? ※データソースを「データベースデータ」にした場合はSQLを記述する必要があります STEP毎にサマリービューで集計結果が可視化されますが、何か? ※しかもデータの型(Numeric/date等)によって適切に集計されます 処理は付箋の感覚で追加・入れ替えが簡単ですが、何か? ※しかも変更が発生すると自動で再処理されます やりたいことは、右クリックメニューで出来ますが、何か? ※個人の感想であり、効果・効能を保証するものではありません
  13. 42 ※個人の感想であり、効果・効能を保証するものではありません ワークフロー管理 →何が起きていたのか 試行錯誤の 繰り返し 分析の実施 検証 データの 加工・成型

    グラフ作成 データ抽出 データ傾向の確認 (外れ値・欠損値) もちろん試行で使ったSTEPは 違うデータフレームへ複製できるので、 本流の分析への反映も簡単だぞ 試行は複製して行えるので、気軽に実行出来るぞ
  14. Exploratoryまとめ • ツールの一本化ができるので、すべてのフローを集約できる • 高度な分析でも学習コスト不要(分からないことがあっても、サイト内での事例 掲載やセミナー・動画、チャットでの質問等、フォローが充実) • STEP毎にサマリービューで集計結果を確認できるのでミス(処理条件の過不 足)に気が付きやすい •

    STEP自体がワークフロー(管理している意識なし) • ブランチで処理の分岐が出来るので、一つのデータフレームから複数の形式へ 加工と保持ができる • 試したいことはデータフレームの複製やSTEPの無効化・有効化で実施 45