Apache Arrow東京ミートアップ2019の発表スライドです。
[参考リンク]
Apache Arrow
https://arrow.apache.org/
sparklyrの高速化について
https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/
ParquetやFeatherの読み書きの速度比較について
https://ursalabs.org/blog/2019-10-columnar-perf/
dplyrバックエンドの実装はこのへん
https://github.com/apache/arrow/blob/master/r/R/dplyr.R (dplyrの各種メソッドの実装)
https://github.com/apache/arrow/blob/master/r/R/dataset.R (Dataset APIへのバインディング)