Learning Spark: Lightning-Fast Data Analytics 2nd Edition

Spark 3.0に対応したLearning Sparkの2nd Edition、しばらく前にDatabricks社のWebサイトから無料でダウンロードできるものを入手していたのですが、最近ようやく一通り目を通すことができました。

Sparkの基礎からStructured Streamingによるストリーム処理、パフォーマンスチューニング、MLlibによる機械学習、さらにMLflowによる機械学習パイプライン、Delta Lakeによるデータレイクなど最新のトピックまでカバーされ、サンプルコードも基本的にScalaPythonの両方で同一のコードが記述されているという網羅度の高いSparkの入門書です。

個人的にはややわかりづらいStructured Streamingの挙動について図も多用して説明されていたのが好印象でした。また、Sparkは開発が非常に活発であるということもあり、APIにも複数の種類やレイヤーがあるのも入門者にはわかりづらい部分なのではないかと思うのですが、そのあたりも歴史を追いつつ説明されており、Sparkを使い始めるのであればとりあえずこれを読んでおけば間違いないという内容になっていると思います。構築・運用に関する部分は弱いかなと思うのものの、環境依存なところもありますし、マネージドなクラウドサービスを使うという選択肢もあるので妥当なところではないでしょうか。

Spark 3.0での新機能については最後の章にまとめられているのですが、各章でも該当箇所で個別に触れられています。1st Editionは読んだことがないので比較はできないのですが、単にSpark 3.0の章を付け足しただけというわけではなく、全編丁寧にアップデートされている印象です。

なお、冒頭でも触れたとおり、この書籍はDatabricks社のWebサイトから無料でダウンロードすることができます(メールアドレスの登録が必要)。

databricks.com

以前紹介したPresto: The Definitive Guideもそうでしたが、オライリーでは最近こういうパターンが増えていますね。ノベルティなどでオライリー製作の小冊子が配布されているのもよく見かけます。技術書の出版はグローバルで見ても難しい商売だとは思うのですが、オープンソースプロダクトを支援している企業としては広告宣伝活動の一環としてコストを投下できますし、読者としても無料でまとまった書籍の形で情報を得ることができる、オライリーのブランドを活かした興味深い取り組みだと思います。