メソッドチェーンを使ってDataFrameの可読性と保守性を向上させよう

メソッドチェーンを使って DataFrameの可読性と保守性を向上させようみんなのPython勉強会#106 2024/07/18

自己紹介 NTT コミュニケーションズ株式会社に2019年新卒入社 WebRTCプラットフォーム SkyWayでWebRTCエンジニア副業 DataScientist@出版系 / MLOps@医療系趣味はラーメン
🍜とコーヒー ☕️ WebRTCエンジニア / DataScientist 内田裕貴 x: @yuki_wtz

話したいこと1 こういうコード良く書きますよね？

話したいこと1 こういうコード良く書きますよね？ df = pd.read_csv("hoge.csv") df = df[df["userId"] == 1]
df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB")

話したいこと1 dfという変数に対してひたすら操作を加えていくこういうコード良く書きますよね？ df = pd.read_csv("hoge.csv") df = df[df["userId"]
== 1] df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB")

話したいこと1 この書き方の好ましくない点1 df = pd.read_csv("hoge.csv") df = df[df["userId"] == 1]
df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB")

df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB") 「dfという変数、今どうなってる？」

df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB") 「dfという変数、今どうなってる？」 jupyter notebookなどの場合、複数セルにわたって同じ変数を操作することが多い

df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB") 「dfという変数、今どうなってる？」 jupyter notebookなどの場合、複数セルにわたって同じ変数を操作することが多い処理に順序性がある(この処理を実行していないと後続の処理がバグる)場合、とりあえず最初のセルから再実行する・・・

df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB") 「dfという変数、今どうなってる？」 jupyter notebookなどの場合、複数セルにわたって同じ変数を操作することが多い処理に順序性がある(この処理を実行していないと後続の処理がバグる)場合、とりあえず最初のセルから再実行する・・・ごちゃごちゃ操作していくうちに、最初のセルから実行しても動かなくなったりする

話したいこと1 この書き方の好ましくない点2 df = pd.read_csv("hoge.csv") df_1 = df[df["pattern"] == 1]
df_1["GB"] = df_1["MB"] * 1000 df_1["TB"] = df_1["GB"] * 1000 df_1_1 = df_1.drop("MB") df_1_2 = df_1_1.drop("GB")

話したいこと1 この書き方の好ましくない点2 df = pd.read_csv("hoge.csv") df_1 = df[df["pattern"] == 1]
df_1["GB"] = df_1["MB"] * 1000 df_1["TB"] = df_1["GB"] * 1000 df_1_1 = df_1.drop("MB") df_1_2 = df_1_1.drop("GB") DataFrameを作りまくってメモリを圧迫

話したいこと1 この書き方の好ましくない点2 df = pd.read_csv("hoge.csv") df_1 = df[df["userId"] == 1].copy()
df_1["GB"] = df_1["MB"] * 1000 df_1["TB"] = df_1["GB"] * 1000 df_1_1 = df_1.drop("MB") df_1_2 = df_1_1.drop("GB") DataFrameを作りまくってメモリを圧迫

話したいこと1 この書き方の好ましくない点2 df = pd.read_csv("hoge.csv") df_1 = df[df["userId"] == 1].copy()
df_1["GB"] = df_1["MB"] * 1000 df_1["TB"] = df_1["GB"] * 1000 df_1_1 = df_1.drop("MB") df_1_2 = df_1_1.drop("GB") DataFrameを作りまくってメモリを圧迫軽量のデータであれば問題ないが、GB級のデータを扱うようになると、この無駄なメモリ使用に苦しむことになる

話したいこと2 メソッドチェーンを使ってみよう df = pd.read_csv("hoge.csv") df_1 = df[df["pattern"] == 1]
df_1["GB"] = df_1["MB"] * 1000 df_1["TB"] = df_1["GB"] * 1000 df_1_1 = df_1.drop("MB") df_1_2 = df_1_1.drop("GB")

話したいこと2 メソッドチェーンを使ってみよう df = ( pd.read_csv("hoge.csv") .query("pattern == 1") .assign(GB=lambda
x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) ) df = pd.read_csv("hoge.csv") df = df[df["userId"] == 1] df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB")

話したいこと2 メソッドチェーンを使ってみよう df = ( pd.read_csv("hoge.csv") .query("userId == 1") .assign(GB=lambda
x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) ) df = pd.read_csv("hoge.csv") df = df[df["userId"] == 1] df["GB"] = df["MB"] * 1000 df["TB"] = df["GB"] * 1000 df = df.drop("MB") df = df.drop("GB")

話したいこと2 メソッドチェーンの利点 df = ( pd.read_csv("hoge.csv") .query("userId == 1") .assign(GB=lambda
x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) )

x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) ) dfという変数の状態を考える必要がなくなる

x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) ) dfという変数の状態を考える必要がなくなるプログラミング全般に言えるが、変化する値は少ければ少ないほどバグが起きづらい

x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) ) dfという変数の状態を考える必要がなくなる dfに関わる操作が一塊になり、変更が容易になる

x: x["MB"] * 1000) .assign(TB=lambda x: x["GB"] * 1000) .drop(columns=["MB", "GB"]) ) dfという変数の状態を考える必要がなくなる dfに関わる操作が一塊になり、変更が容易になる無駄なdataframeが作られない

話したいこと3 メソッドチェーンの弱点基本的にはメソッドチェーンを使って書けるなら書いた方が良いと思っているが、弱点もある

話したいこと3 メソッドチェーンの弱点基本的にはメソッドチェーンを使って書けるなら書いた方が良いと思っているが、弱点もあるデバッグに慣れが必要途中経過の確認のために.pipeを繋げて中でprint文を打ったりする

話したいこと3 メソッドチェーンの弱点基本的にはメソッドチェーンを使って書けるなら書いた方が良いと思っているが、弱点もあるデバッグに慣れが必要途中経過の確認のために.pipeを繋げて中でprint文を打ったりするデータ抽出の速度が遅い(かも) df[df[”hoge”] == 1]
よりも df.query(“hoge == 1”)の方が5倍くらい遅いこともあった

話したいこと3 メソッドチェーンの弱点基本的にはメソッドチェーンを使って書けるなら書いた方が良いと思っているが、弱点もあるデバッグに慣れが必要途中経過の確認のために.pipeを繋げて中でprint文を打ったりするデータ抽出の速度が遅い(かも) df[df[”hoge”] == 1]
よりも df.query(“hoge == 1”)の方が5倍くらい遅いこともあった Pythonの関数に頼って抽出する場合にちょっと無駄が多い df[”user”].str.contains(“test”) df.query(“user.str.contains(test)”, engine=”python”)

X: @yuki_wtz Follow Me!

メソッドチェーンを使ってDataFrameの可読性と保守性を向上させよう

メソッドチェーンを使ってDataFrameの可読性と保守性を向上させよう

yuki_uchida

More Decks by yuki_uchida

Featured

Transcript