Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Apache Spark 徹底入門のご紹介

Apache Spark 徹底入門のご紹介

こちらのイベントなどで用いたスライドです。

インフラエンジニアBooks#44 - 30分でわかる「Apache Spark 徹底入門」 - YouTube https://www.youtube.com/watch?v=XpsohzjuK_Q

Takaaki Yayoi

May 13, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  2. ©2024 Databricks Inc. — All rights reserved Apache Spark徹底入門 4/12発売!

    Learning Spark 2nd Editionの翻訳 + αの内容となっています! 本書は、ビッグデータを主な対象としたデータ分析フ レームワークであるApache Spark、MLflow、Delta Lakeの中級入門書です。 「動かしてみる」だけではなく、どのような 仕組みになっているのか、どうすれば効率的な実装 が行えるかまで踏み込みつつ、データAIの実装者が Apache Spark、MLflow、および Delta Lakeを使いこなすための解説を行います。
  3. ©2024 Databricks Inc. — All rights reserved Learning Spark 2nd

    Editionとは 2020/8にオライリーから出版されました 改訂版ではSpark 3.0を含めており、2nd Editionで は、データエンジニアとデータサイエンティストにとっ てSparkにおける構造化と統合が意味を持つのかを 説明します。特に、本書では シンプルなデータ分析、複雑なデータ分析や 機械学習アルゴリズムの適用をどのように行うのか を説明しています。
  4. ©2024 Databricks Inc. — All rights reserved どう言った経緯で? 発起人 有志

    有志 2年前の2022年6月ごろ... Learning Spark 2nd Editonは今でも通用 する内容だから翻訳し ない? 有志 「Sparkは難しい」とい う声を結構聞くし日本 語の本あるといいよな あと、出版社から 本を出してみたい
  5. ©2024 Databricks Inc. — All rights reserved どう言った経緯で? チーム組成 オリジナル

    コンテンツ選定 原著者/出版社との調整 2022/6 2023/5 翻訳・オリジナル コンテンツ執筆 2023/11 校閲 2024/2に表紙が できてテンション ↑ 2024/3/25 校了! 足掛け2年のプロジェクトでした 夜鍋、週末を溶かす日々
  6. ©2024 Databricks Inc. — All rights reserved ハイライト Learning Spark

    2nd Editionの翻訳 + αの内容となっています! Apache Sparkとは何か? • Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 • Sparkの操作とSQLエンジンの理解 • Spark構成とSpark UIを使用したSpark操作の検査、調整、デバッグ • JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続 • 構造化ストリーミングを使用したバッチデータとストリーミングデータの分析の実施 Delta Lake • オープンソースのDelta LakeとSparkを使用した信頼性の高いデータパイプラインの構築 MLlib / MLflow • MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの管理、本番化 オリジナルコンテンツ • pandasデータフレーム、sparkデータフレームに関する各種データフレームの使い分け • LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、 LLMの実践
  7. ©2024 Databricks Inc. — All rights reserved ハイライト:章立て Learning Spark

    2nd Editionの翻訳 + αの内容となっています! 第1章: Apache Spark入門 第2章: Apache Sparkのダウンロードと入門 第3章: Apache Sparkの構造化API 第4章: Spark SQLとDataFrame: 組み込みデータソースの紹介 第5章: Spark SQLとDataFrame: 外部データソースとのインタラクション 第6章: Spark SQLと Dataset 第7章: Sparkアプリケーションの最適化およびチューニング 第8章: 構造化Streaming 第9章: Apache Sparkを用いた信頼性の高いデータレイクの構築 第10章: MLlibによる機械学習 第11章: Apache Sparkによる機械学習パイプラインの管理、デプロイおよびスケール 第12章: エピローグ:Apache Spark 3.x
  8. ©2024 Databricks Inc. — All rights reserved ハイライト: オリジナルコンテンツ English

    SDK for Apache Spark • 英語(日本語)でSparkを操作 Pandas vs. Spark / English SDK for Apache Spark / Spark Connect / MLOps + LLMOpsなどをカバーしています
  9. ©2024 Databricks Inc. — All rights reserved 苦労したポイント 初の翻訳作業ということもあり、試行錯誤の日々でした 初回翻訳では生成AI(LLM)の力を借りましたが...

    • 翻訳結果の確認は人手で行う必要があるので、ひたすらアウトプットを確認しました。 • propertyが「不動産」だったりしてました。 どこまで翻訳するのか問題 • Driver、Worker、Executor、DataFrameのようにSpark固有の用語は原文のままとしました • Structured Streamingは構造化Streamingとしました。 長文入れるのか問題 • 宗教問題になりそうですが、クエリ、パラメータなどに統一しています。
  10. ©2024 Databricks Inc. — All rights reserved Apache Spark徹底入門 4/12発売!

    Learning Spark 2nd Editionの翻訳 + αの内容となっています!是非ご一読ください!