Apache PredictionIOのインストール方法（バイナリディストリビューション版）

Apache PredictionIOのハウツーについては以前以下の記事でインストール方法からテンプレートを使ったレコメンドAPIのデプロイまでを紹介しました。

takezoe.hatenablog.com

当時のPredictionIOはインストールするにはソースからビルドするべしというかなりスパルタンなインストール方法だったのですが、最新のPredictionIO 0.12.0-incubatingではバイナリディストリビューションもリリースされるようになっていますので、こちらを使用したインストール方法について補足したいと思います。

まだ公式サイトのインストールガイドにはリンクがありませんが、以下からバイナリディストリビューションをダウンロードできます。

http://ftp.meisei-u.ac.jp/mirror/apache/dist/incubator/predictionio/0.12.0-incubating/apache-predictionio-0.12.0-incubating-bin.tar.gz

展開するとPredictionIO-0.12.0-incubatingというディレクトリが出てきます。

$ tar xvzf apache-predictionio-0.12.0-incubating-bin.tar.gz

展開後のディレクトリにSparkをインストールします。PredictionIOはSpark 1.6、2.0、2.1に対応していますが、バイナリディストリビューションはSpark 2.1向けにビルドされています。

$ wget https://archive.apache.org/dist/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.6.tgz
$ mkdir PredictionIO-0.12.0-incubating/vendors
$ tar zxvfC spark-2.1.1-bin-hadoop2.6.tgz PredictionIO-0.12.0-incubating/vendors

ストレージにPostgreSQLを使う場合はPostgreSQLのJDBCドライバも必要です。

$ cd PredictionIO-0.12.0-incubating/lib
$ wget https://jdbc.postgresql.org/download/postgresql-42.0.0.jar

以上でインストール完了です。

バイナリディストリビューションといってもSparkやJDBCドライバを追加インストールする必要があったり、テンプレートのコンパイルにsbtをインストールしておく必要があったりするのは相変わらずですが、ソースからビルドする必要がないので少しだけ楽になっているんじゃないかと思いますw

なお、公式のものではないのですが、コミュニティで作られているDockerイメージもいくつかあるので、こちらを利用することもできます。