2021-05-03

NetflixがOSS化したScala/Spark用ノートブックPolynoteを試してみる

Scala Spark

もう1年以上前の話になりますが、NetflixがSpark対応のScala用ノートブックPolynoteをOSS化したという話がありました。

既存のノートブックではScalaを使っていてもコード補完などがあまり効かないものが多く、まとまったコードを書くときは結局IDEを使うという感じになりがちなのですが、PolynoteはScalaを第一言語としてサポートする珍しいノートブックで、コード補完などの機能も充実しているようなので遅ればせながら試してみました。

インストール

Sparkを使う場合、まずは先にSparkをインストールしておく必要があります。とりあえずローカルモードで動かすだけであればSparkのリリースディストリビューションをダウンロードして適当なディレクトリに展開しておくだけでOKですが、Polynoteは内部的にspark-submitコマンドを実行するので、最低限の設定としてSPARK_HOME/binディレクトリを環境変数PATHに追加しておく必要があります。

続いてPolynoteのリリースページからpolynote-dist.tar.gzをダウンロードして適当なディレクトリに展開します。

github.com

必要なPythonライブラリをインストールしてからpolynote.pyを実行するとhttp://localhost:8192/でノートブックが起動します。

$ pip install -r requirements.txt
$ ./polynote.py

Sparkを使うにはノートブックの設定でspark.masterを設定しておく必要があります（設定の変更後は「Save」もしくは「Save & Restart」をクリックして設定を反映する必要があります）。

f:id:takezoe:20210503133722p:plain

使ってみる

ノートブックのセルにはMonaco Editorが使われており、確かにScalaのコード補完もばりばり効きますし、変数のインスペクションができたりと、Scala向けに作られているだけのことはあります。SparkのDataFrameだけでなくScalaのコレクションをプロットすることもできます。

f:id:takezoe:20210503134157p:plain

f:id:takezoe:20210503133802p:plain

これはSparkを使わなくてもちょっとしたScalaコードを動かしたりするのにいいかも…と思ったのですが、少し使っているとかなり編集がもっさりしてきてカーソルを動かすだけでも一瞬間が開いてしまう感じになってしまいました。

ローカルで動かしていたのでマシンスペックの問題もあるのかもしれませんが、ちょっとしたScalaコードを1セル内で編集しているだけでこのもっさり感だとちょっとPolynote上でScalaコードを編集するのは厳しいかもしれないという気がしました。機能的にはよさげなだけに勿体ないなぁという気持ちです。

Polynoteの実装について

PolynoteはScalaで書かれているようなので軽くコードも読んでみました。

Polynote、コード補完に必要なインデックスはClassGraphというライブラリを使って自前で集めているっぽい。あとはScala コンパイラを使ってパースしたツリーの情報と組み合わせて補完候補を抽出している感じ。https://t.co/L14jlThxmT
— Naoki Takezoe (@takezoen) May 3, 2021

まだ正確に把握できてないけどSparkとの連携はPolynoteのLocalKernelをSpark上で動かすプログラムをspark-submitで送りつけてPolynote側で動いているRemoteKernelと通信するという感じっぽい。https://t.co/EMhlrQux7Y
— Naoki Takezoe (@takezoen) May 3, 2021

PolynoteのScalaコードは全部ZIOで書かれておりZLayerも使われている。HTTPサーバもjava.nioを使ったZIOベースのものをスクラッチしているというエクストリームっぷり。フロントエンドはTypeScriptだけどフレームワークは使わずにDOMで頑張っている。https://t.co/XFhyAD7GhL
— Naoki Takezoe (@takezoen) May 3, 2021

ちょっと変わったところだとSparkのScalaのバージョンにあわせてspark-submitする際のクラスパスを変更する処理があったりする。SparkのScalaのバージョンの取得方法が面白い。原始的だけどなるほどーという感じ。https://t.co/ZQxgUTckDE
— Naoki Takezoe (@takezoen) May 3, 2021

まとめ

Polynote、もうちょっとサクサク動くようになってほしい！

2021-04-24

Apache Spark用のスタンドアロンJDBCドライバ

Spark

SparkにJDBCでアクセスするにはThriftserverを入れたりHive Metastoreが必要だったりで色々面倒なのですが、単体で利用可能な方法はないのかなと思って探してみたところ、以下のものを見つけたので試してみました。

github.com

このJDBCドライバは以下のようなURLでJDBC経由でSparkSQLを使うことができます。

com.zensolution.jdbc.spark:/Users/foobar/temp/console?format=csv&csv.header=true&csv.delimiter=;

SQL内でアクセスされているテーブルはクエリの実行前にテンポラリビューとして自動的に登録されます。たとえば以下のようなSQLを実行したとします。

SELECT * FROM people

このJDBCドライバはまずクエリをパースし、このクエリの実行にpeopleテーブルが必要であることを認識します。そして/Users/foobar/temp/console/peopleディレクトリ配下に保存されているCSVファイルを参照するDataFrameを作成し、SparkSQLからアクセスできるようにテンポラリビューとして登録します。前述の通りこのプロセスはクエリの実行前に自動的に行われます。

このJDBCドライバには動作するのですが、2つの不満点がありました。1つはSparkのローカルモードでの実行しかサポートしていないこと、もう1つはJDBC URLで単一のデータソースしか指定できないことです。そこでこれらの不満点を改善すべく、フォークして変更を加えてみました。

github.com

まずはリポジトリをクローンしてJDBCドライバのjarファイルをビルドします。以下のコマンドでbuild/libs/spark-jdbc-all.jarが生成されるので、このファイルをクラスパスに追加します。

./gradlew clean shadowJar

次に以下のような設定ファイルを作成します。

{
  "tables": [
    {
      "name": "people",
      "path": "examples/src/main/resources/people.csv",
      "format": "csv",
      "options": {
        "header": "true",
        "inferSchema": "true",
        "delimiter": ";"
      }
    },
    {
      "name": "users",
      "path": "examples/src/main/resources/users.orc",
      "format": "orc"
    }
  ]
}

以下のようなURLで任意のスタンドアロンSparkクラスタ（もしくはローカルモード）へのJDBC接続が可能です。

ローカルモード

jdbc:spark:local?config=<path_to_file>
スタンドアロンクラスタ

jdbc:spark://localhost:7077?config=<path_to_file>

実用的かどうかはさておき、一応動くものができたので個人的には満足ですw

2021-04-24

Spark in Action, Second Edition: Covers Apache Spark 3 with Examples in Java, Python, and Scala

書籍

こちらもManningの元旦全品半額セールで購入して積んでおいたものです。

Spark in Action, Second Edition: Covers Apache Spark 3 with Examples in Java, Python, and Scala

作者:Perrin, Jean-Georges
発売日: 2020/06/02
メディア: ペーパーバック

かなりページ数はあるものの、あまり効果的とは言えないような図が多用されていたり、丁寧というよりは冗長な記述が多かったりと、ページ数の割に肝心の内容は薄い印象です。コードの説明もまず実行結果を示してからコードの説明をするという流れで、自分の好みの問題もあるかもしれませんが読みにくいことこの上なかったです。もちろん英語だからということもあるとは思いますが、個人的には読み進めるのが苦痛な感じでした。

また、サブタイトルに「Examples in Java, Python, and Scala」とありますが、書籍内のサンプルはすべてJavaで書かれているのも意表を突かれる感じです。正直Spark3対応のSpark入門書であればオライリーのLearning Sparkの方がおすすめです。

takezoe.hatenablog.com

ただ、独自データソースの作り方などカスタマイズ部分にも触れられているのは本書のアドバンテージと言えるかもしれません。また、JavaからSparkを使いたいという場合も本書のサンプルコードが参考になるのではないかと思います。

全体的にはかなり初心者向けのSpark入門書で、内容の薄さやサンプルコードがJavaで書かれているという特殊性もあり、わざわざ英語でこの本を読まなくてもいいかなという感想です。改訂版も出ているということはFirst Editionもそれなりに売れたのではないかと思うのですが、Manningにしては若干期待外れの一冊でした。

2021-04-05

presto-client-rubyのメンテナになりました

Ruby Presto Trino

トレジャーデータでOSSとしてPrestoのRubyクライアントを公開しているのですが、最近諸事情によりこちらをいじる機会が出てきたのでメンテナにしてもらいました。

github.com

rubygems.org

これまでにHTTPのリダイレクト対応やgzip圧縮のサポートなどを追加したのですが、Trinoに対応させてtrino-client-rubyに転生させる作業なども進めていこうと思います。

なお、まだそんなに難しいことはしてないのもあるのですが、Rubyはまるでわからないのでこのライブラリを使っている社内のアプリケーションを含め、Rubyコードはほぼ勘とコピペで書いています。エコシステムもまだいまいちよくわかっていないのですが、とりあえずRubyGemsはMavenと違って気軽にpublishできるのはいいですね…。

2021-04-04

-WconfオプションでScalaコンパイラの警告を抑制する

Scala

Scala 2.13.2で-Wconfというオプションが追加されており、コンパイラが出力する警告を細かくカスタマイズすることができるようになっています。このオプションはScala 2.12系にもバックポートされており、Scala 2.12.13で利用可能です。

www.scala-lang.org

たとえばScala コンパイラは-deprecationオプションを指定すると非推奨のAPIの使用に対して警告を出力しますが、build.sbtに以下のような設定を追加することで、自動生成されたコードに対しては警告を出力しないようにできます。

scalacOptions := Seq(
  "-deprecation",
  "-Wconf:cat=deprecation&src=src_managed/.*:s"
)

指定方法は-Wconf:<filters>:<action>,<filters>:<action>,...という感じで、フィルタ部分で対象の警告を指定、アクションでその警告をどう扱うかを指定します。

フィルタでは対象の警告を以下のような条件で指定可能です。条件は&区切りで複数指定可能です。また、deprecationの警告に関してはoriginとsinceというオプションを使用してさらに細かく対象を絞り込むこともできます。

any すべての警告
cat=deprecation 警告のカテゴリを指定
msg=regex メッセージを正規表現で指定
site=my\.package\..* 対象クラスを正規表現で指定
src=src_managed/.* 対象ソースファイルを正規表現で指定

アクションではその警告をどう扱うかを指定します。warningとinfoはwarning-summary / ws もしくは info-summary / is と指定することでまとめて表示することもできます。

error / e エラーとして報告
warning / w 警告として報告（デフォルト）
info / i 警告としてはカウントせずに報告
silent / s 警告として報告しない

GitBucketで未使用のインポートに警告を出すようにしてみたところ、Twirlが自動的にインポートするクラスとSlickのモデルクラスで必要なインポートが警告になってしまうので以下のような感じの設定を追加してみました。

scalacOptions := Seq(
  "-Wunused:imports",
  "-Wconf:cat=unused&src=twirl/.*:s,cat=unused&src=scala/gitbucket/core/model/[^/]+\\.scala:s"
)

また、-Wconfオプションだけでなく、コード中で @nowarn アノテーションを付与することで警告を抑制することもできるようです。

これまで自動生成コードなどで警告が出すぎてしまうのでコンパイラのlintオプションを有効にするのを躊躇っていた部分もあるのですが、このオプションで不要な警告を抑制できるのでコンパイラによるチェックを積極的に活用できるようになりそうです。

2021-04-03

アーセン・ヴェンゲル自伝赤と白、わが人生

書籍

以前読んだベンゲル監督の自伝の日本語版が出版されました。原著も読んでいたのですが、お布施と思ってこちらも購入してみました。

アーセン・ヴェンゲル自伝赤と白、わが人生 (ヨシモトブックス)

作者:アーセン・ヴェンゲル
発売日: 2021/03/16
メディア: 単行本（ソフトカバー）

さすがに日本の出版社から出た書籍なので、ペーパーバッグクオリティだった原著と比べると装丁は非常に丁寧で紙質や印刷も段違いです。英語版の方が数は出ると思われるのですが、原著のペーパーバッグ版とさほど変わらない値段でこのクオリティの本が作れるのは一体どういうことなのだろう？と思ってしまいました。一度読んでいるので内容については特に言うことはないです。以下の原著のレビューを参考にしていただければと思います。

takezoe.hatenablog.com

ただ、残念なことに原著では巻末に結構なページ数を割いて掲載されていたスタッツが日本語版ではまるっと省略されています。日本語版ではきちんと印刷用にレイアウトされたスタッツが掲載されているのでは…と期待していただけに非常に残念です。

確かにこの部分を掲載するとページ数が結構増えてしまいそうですし、そもそも原著を読んでいなければこの部分が存在したことはわからないはずではあるのですが、ベンゲル監督の自伝自体ファンアイテムの一種と思われるので、こういった部分もファンにとっては大事な要素なのではないかと思うのですが、翻訳版としてこれはどうなのか…。

まあ、そんなわけで、本書は原著の完全な翻訳版というわけではなく省略されている部分があるのでお買い上げの際はご注意ください！ということを書きたかったのでした。

2021-02-23

Classic Computer Science Problems in Java

書籍

Classic Computer Science Problems in Java

作者:Kopec, David
Manning Publications

Amazon

正月にManningが全品半額セールをやっていたのでなんとなく購入しておいたものですが、読んでみたら思いの外面白かったです。

シンプルな検索アルゴリズムから後半はクラスタリングやニューラルネットワークなどまで、シンプルなJavaプログラムで解説されています。まずはジェネリックなフレームワークを作成し、そのフレームワークを使用して具体的な問題を解く、という流れになっており、サンプルコードのシンプルさや、各章の最後にあるエクササイズのほどよい難易度（難しすぎない）もあって、自分で実際に手を動かしてみようという気にさせてくれます。ノリ的には「作って学ぶアルゴリズム」とでもいうような感じです。また、Javaのデータ構造や普段あまり使わない数学関係のライブラリについて復習することができたのも予想外のメリットでした。

一方で、扱っているのはプリミティブなデータ構造やアルゴリズムではなく比較的抽象度の高いもので「Classic Computer Science Problems in Java」というタイトルから想像される内容とは若干異なるイメージを持たれる方もいらっしゃるかもしれません。数学的な知識が必要な箇所もあるのですが、この書籍の範囲外ということで説明は必要最小限に留められています。アルゴリズムの理解そのものについては支障はないとは思うのですが、そのような部分を求めてこの本を読むと肩透かしを食らったような感じになってしまうかもしれません。

なお、このClassic Computer Science ProblemsシリーズはJava版以外にもPython版となぜかSwift版がすでに出ているようです。目次を見る限り扱っているアルゴリズムは同じようなので、これらの言語をお使いの方はそちらを読まれるのが良いかもしれません。