Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Polarsを使った爆速データ分析 / Blazing-Fast Data Analysis ...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

Polarsを使った爆速データ分析 / Blazing-Fast Data Analysis with Polars

2026年2月21日のPyCon mini Shizuoka 2026で発表した「Polarsを使った爆速データ分析」の講演資料です。
講演詳細についてはこちらを御覧ください(https://shizuoka.pycon.jp/2026/

Avatar for NTT docomo Business

NTT docomo Business

March 02, 2026
Tweet

More Decks by NTT docomo Business

Other Decks in Programming

Transcript

  1. 自己紹介 更科 明
 2017
 2021
 2022
 現在 京都大学 理学研究科 数学・数理解析専攻 博士後期課程
 学振特別研究員(DC2) (2018~2020) 


    数学(数論幾何学)の研究を行う 経歴
 NTTデータの関連会社で機械学習系のPoCに従事 NTTドコモビジネスで時系列データの分析や
 ノーコード時系列データ分析ツール Node-AI を使った分析支援に従事
 趣味:筋トレ、ボルダリング

  2. データ分析の標準プロセス (CRISP-DM) データ分析の標準的なプロセスとして CRISP-DM (CRoss-Industry Standard Process for Data Mining)

    が広く知られています。 CRISP-DMでは以下の6つのフェーズを繰り返しながらデータ分析を進めます。 1. ビジネス理解 2. データ理解 3. データ準備 4. モデル作成 5. 評価 6. 共有・展開 最初に仮説を立てる必要がありますが、多くの場合にビジネスに詳しい人はデータ分析に詳しくなく、データ分析 に詳しい人はビジネスに詳しくないです。そのため、最初から最適な仮説を立てるのは難しく、仮説と検証を繰り返 しながら仮説自体をブラッシュアップしていく事になります。 [画像の引用元: Money Forward Developers Blog、CRISP-DMに沿ってデータ分析する (https://moneyforward-dev.jp/entry/2022/03/15/crisp-dm/)] ① ② ③ ④ ⑤ ⑥
  3. データ分析では処理速度が重要 CRISP-DM の原論文(The CRISP-DM Model: The New Blueprint for Data

    Mining)によると、各 フェーズに必要な時間や労力の比重は一般的に以下のようになっています。 データの前処理を含む「データ準備」がボトルネックになっており、ここを高速化することでプロジェクト全 体の効率が大きく変わってきます。
  4. それでもpandasを使う理由②(連携) pandas を使うもう一つの理由は、統計関連(機械学習含む)の多くのパッケージ ( scikit-learn や LightGBM など)が pandas の

    DataFrame (テーブルデータを保持するクラス)をそのまま入力として受け 付ける事です。 データ分析における仮説の検証には統計学を用いるため、統計関連パッケージと手軽に連携できる事は大 きなメリットになります。(主に CRISP-DM における「4. モデル作成」) テーブルデータ( CSV, xlslなど) ・・・ ・・・
  5. 現時点でのベストプラクティス データの処理は Polars 、可視化や他パッケージとの連携は pandas という形で両者を併用する事が 現時点でのベストプラクティスだと思います。 pandas から Polars

    への変換は .pipe(pl.from_pandas) で、Polars から pandasへの変換は .to_pandas() で可能であるため、メソッドチェーンの中に両者のメソッドを共存させる事ができます。 pandasとPolarsを併用するコードの例
  6. デモ 残りの時間で簡単なデモをお見せしたいと思います。 Polars はハードウェアの性能を最大限引き出せるように設計されているため、コンピュータの性能が 高いほど pandas との差が大きくなります。( CPU のコア数など) 最初は無料版

    Google Colab でデモを作成しようと思ったのですが、無料版 Google Colab では2コ アで実行されるらしく、思ったよりも差が出なかったため、ローカル PC (14コア) でデモをお見せしたい と思います。 vs.