Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PolarsとPanderaで実現する高速でロバストなデータ処理

chimuichimu
March 28, 2024
2.4k

 PolarsとPanderaで実現する高速でロバストなデータ処理

chimuichimu

March 28, 2024
Tweet

More Decks by chimuichimu

Transcript

  1. 自己紹介 市村千晃 • 経歴 ◦ SE, PM, DS@SIer(2017/4 ~ 2024/2)

    ◦ DS@ウォンテッドリー株式会社(2024/3~) • 興味 ◦ データ分析・機械学習 ◦ 推薦システム © 2024 Wantedly, Inc. @chimuichimu1
  2. Panderaを使うメリット © 2024 Wantedly, Inc. 不正な値が入力されると エラーが発生 データ品質の担保 SchemaError: Column

    'price' failed validator number 0: <Check in_range: in_range(5, 20)> failure cases: shape: (1, 1) 想定外のデータや 意図しない処理に気づける🙆
  3. データ処理における課題 まとめ © 2024 Wantedly, Inc. 実行時間 データ品質 可読性 Polarsによる

    データ処理 高速かつロバストなデータ処理を実現 Panderaによる スキーマ定義とバリデーション