『改訂新版前処理大全』の話と Apache Parquet の話 #TokyoR

『改訂新版前処理大全』の話と Apache Parquet の話 Tokyo.R #113 2024/06/08 @bob3bob3

『改訂新版前処理大全』 • 2018年に発売されてデータ分析界隈で大きな話題となった『前処理大全』のアップデート版。  • データサイエンスに取り組む上で欠かせない前処理の効率的な処理方法を網羅的に習得できる構成。  •
サンプルデータがApache Parquet形式で提供されているのも特徴。  • 旧版ではR、Python、SQLを用いた実装方法を紹介していたが、改訂新版では BigQuery準拠のSQL、最新バージョンの Pandas、Rの代わりに高速なPolarsに変更しました。 

『改訂新版前処理大全』 Rの代わりに高速なPolarsに変更しました。 

というわけで、Rで『改訂新版前処理大全』のサンプルコードを書いています。

例1）ビジネスホテルかつ宿泊人数が1名の予約履歴の抽出 reservation（200万件、11列） hotel（5千件、39列）

例1）ビジネスホテルかつ宿泊人数が1名の予約履歴の抽出 # Not Awesome reservation |> inner_join(hotel, by = "hotel_id")
|> dplyr::filter(hotel_type == "ビジネスホテル" & people_num == 1) # Awesome reservation |> dplyr::filter(people_num == 1) |> inner_join( hotel |> dplyr::filter(hotel_type == "ビジネスホテル") |> select(hotel_id), by = "hotel_id" )

例1）ビジネスホテルかつ宿泊人数が1名の予約履歴の抽出 # Not Awesome reservation |> inner_join(hotel, by = "hotel_id")
|> dplyr::filter(hotel_type == "ビジネスホテル" & people_num == 1) reservationとhotelをすべて結合してから条件指定によってデータの抽出を行っている。また必要な列に絞らずhotelマスターのすべての列を出力している。

例1）ビジネスホテルかつ宿泊人数が1名の予約履歴の抽出 # Awesome reservation |> dplyr::filter(people_num == 1) |> inner_join(
hotel |> dplyr::filter(hotel_type == "ビジネスホテル") |> select(hotel_id), by = "hotel_id" ) reservationとhotelそれぞれを必要な行と列に絞ってからjoinしている。

例1）ビジネスホテルかつ宿泊人数が1名の予約履歴の抽出 Awesomeなコードの方が中央値で6倍ぐらい速い。 joinする前にそれぞれのデータをできる限り小さくしておくこと！

Apache Parquet による前処理の高速化

Apache Parquet による前処理の高速化 • Apache Parquet はオープンソースの列指向データファイルフォーマットで、効率的なデータの保存と検索のために設計されています。 • 複雑なデータを一括処理するための高性能な圧縮とエンコード方式を提供し、多く
のプログラミング言語と分析ツールでサポートされています。 • Rではarrowパッケージで Apache Parquet を扱うことができます。

Apache Parquet による前処理の高速化 # データフレームとして reservation_df <- read_parquet( "https://github.com/ghmagazine/awesomebook_v2/raw/main/data/reservation.parquet" )
# Arrow Table として reservation_at <- read_parquet( "https://github.com/ghmagazine/awesomebook_v2/raw/main/data/reservation.parquet", as_data_frame = FALSE ) parquet形式のデータをarrowパッケージのread_parquet()関数で読み込む。デフォルトではデータフレームとして読み込まれるが、引数に as_data_frame = FALSE を付けるとArrow Tableとして読み込まれる。

Apache Parquet による前処理の高速化 # データフレームの処理 reservation_df |> dplyr::filter(status != "canceled")
|> summarise(reservation_cnt = n(), .by = c(hotel_id, customer_id)) # Arrow Table の処理 reservation_at |> dplyr::filter(status != "canceled") |> summarise(reservation_cnt = n(), .by = c(hotel_id, customer_id)) |> collect() #この処理が加わっただけホテルごと顧客ごとの予約数の集計処理。 Arrow Table も tidyverse で処理できるが、最後に collect()を実行することで結果が得られる。

Apache Parquet による前処理の高速化中央値で約35倍の速さ！ Tidyverseのすべての機能が ApacheParquetで使えるわけではないようですが、積極的に使っていきましょう！ eitsupiさんの以前の発表やuriboさんの資料もご参考に。

Apache Parquet の資料 @eitsupi さん @uribo さん https://eitsupi.github.io/tokyorslide/tokyor_97 https://uribo.quarto.pub/hello-r-arrow/

例2）予約履歴データに対象キャンペーン情報を付与 reservation（200万件、11列） campaign（30件、3列）

例2）予約履歴データに対象キャンペーン情報を付与 # Not Awesome reservation |> cross_join(campaign) |> dplyr::filter(reserved_at >=
starts_at & reserved_at <= ends_at) |> select(!c(starts_at, ends_at)) # Awesome campaign_expanded <- campaign |> rowwise() |> mutate(reserve_date = list(seq(date(starts_at), date(ends_at), by="day"))) |> unnest(reserve_date) reservation |> mutate(reserve_date = date(reserved_at)) |> left_join(campaign_expanded, by = "reserve_date",relationship = "many-to-many") |> select(!reserve_date)

# Not Awesome reservation |> cross_join(campaign) |> dplyr::filter(reserved_at >= starts_at
& reserved_at <= ends_at) |> select(!c(starts_at, ends_at)) 例2）予約履歴データに対象キャンペーン情報を付与予約履歴にキャンペーンマスターをクロス結合、その後キャンペーン期間の行のみを抽出。最後に不要な列を削除。

# Awesome campaign_expanded <- campaign |> rowwise() |> mutate(reserve_date =
list(seq(date(starts_at), date(ends_at), by="day"))) |> unnest(reserve_date) reservation |> mutate(reserve_date = date(reserved_at)) |> left_join(campaign_expanded, by = "reserve_date",relationship = "many-to-many") |> select(!reserve_date) 例2）予約履歴データに対象キャンペーン情報を付与キャンペーンマスターにキャンペーン期間のすべての日付の列を追加。日付をキーに予約履歴にキャンペーンマスターを結合。

例2）予約履歴データに対象キャンペーン情報を付与 Awesomeなコードの方がおよそ6倍速い！

全編はこちらで順次公開予定 https://morimotoosamu.github.io/awesomebook_v2/

Enjoy!

『改訂新版前処理大全』の話と Apache Parquet の話 #TokyoR

『改訂新版前処理大全』の話と Apache Parquet の話 #TokyoR

bob3bob3

More Decks by bob3bob3

Other Decks in Programming

Featured

Transcript