機械学習

TransmogrifAIを使ってPredictionIO用のAutoMLテンプレートを作ってみた

Apache PredictionIOは、SalesforceによってApache Software Foundationに寄贈されたオープンソースの機械学習プラットフォームです。 PredictionIOは機械学習ワークフローの全プロセスをカバーし、エンジンテンプレートという雛形をベースにすることで機械…

Java/Scala用機械学習ライブラリ「Smile」を使ってみる

手軽に使える機械学習ライブラリというとPythonのscikit-learnが有名ですが、Java/ScalaでもSmileというライブラリがあったので軽く試してみました。 github.com まずはリリースページからzipファイルをダウンロードして適当な場所に展開します。bin/smileで…

SalesforceのScala製AutoMLライブラリ「TransmogrifAI」を触ってみた

AutoMLはこれまで専門のエンジニアを必要としていたような機械学習の処理を自動化し、誰でも機械学習を利用できるようにするという分野です。PythonだとTPOTなどのライブラリが存在しますが、先日Salefsforce社からScala + SparkベースのAutoMLライブラリが…

GoogleのMachine Learning Crash Courseをやってみた

少し前にGoogleが社内教育用のコンテンツとして使用しているというMachine Learning Crash Courseが公開されていました。PredictionIOのコミッタをやっていながら機械学習はほぼ素人というのもどうかと思っていたこともあり、社内で毎日1時間ずつこの講座を…

Apache PredictionIOとApache Zeppelinを組み合わせてみる

Apache PredictionIOとApache ZeppelinはどちらもApache Software Foundationのプロジェクトです。PredictionIOはSparkML / MLlibベースの機械学習アプリケーションを開発・運用するためのプラットフォームを提供するもので、ZeppelinはSpark / SparkSQLを使…

AWSの機械学習プラットフォームSageMakerを使ってみた

AWSの新サービスである機械学習プラットフォーム SageMakerを触ってみました。ざっくり言うとデータ処理、学習、作成したモデルをコンテナとしてデプロイするという一連の作業をAWS上で提供されるJupyter Notebookから行うことができるというものです。 aws.…

Apache PredictionIOのインストール方法(バイナリディストリビューション版)

Apache PredictionIOのハウツーについては以前以下の記事でインストール方法からテンプレートを使ったレコメンドAPIのデプロイまでを紹介しました。 takezoe.hatenablog.com 当時のPredictionIOはインストールするにはソースからビルドするべしというかなり…

オープンソースの機械学習プラットフォームまとめ

PredictionIOは機械学習を使用したアプリケーションを開発・運用するためのプラットフォームを提供するためのOSSですが、世の中には他にも同じ領域のOSSが存在します。PredictionIO含めて各プロダクトの特徴をまとめてみました(PredictionIO以外はドキュメ…

PredictionIOがApache Software Foundationのトップレベルプロジェクトになりました!

弊社のメンバーもコミッタとして開発に参加しているApache PredictionIOですが、このたびめでたくIncubatorプロジェクトを卒業してトップレベルプロジェクトに昇格することができました。ASFからのリリースには弊社のチーフサイエンティストである@shinsuke_…

PredictionIO Meetup #2 に参加してきました

先日弊社のオフィスでPredictionIO Meetup #2が開催されるとのことだったので見物に行ってきました。 d-cube.connpass.com コミッタの菅谷さんの発表資料が公開されていたので貼っておきます。 PythonはPySparkとPy4Jがとにかくつらいという話でした。今検討…

PredictionIOで使用するSpark等のバージョンを変更する

PredictionIOはデフォルトでは以下のバージョンを使用します。 Scala 2.10.6 Spark 1.6.3 Hadoop 2.6.5 Elasticsearch 1.7.6 Scalaのバージョンはともかく、Spark(ストレージにElasticsearchを使用する場合はElasticsearchも)のバージョンがかなり古いのが…

Scala製の機械学習サーバApache PredictionIOを使ってみよう

PredictionIOはSparkを中心としたJVMベースの機械学習アプリケーションを開発・運用するために必要なミドルウェアやフレームワークなどを統合的に提供するもので、開発者はPredictionIOのフレームワークに従ってエンジンを作成することで、機械学習を使用し…

Apache PredictionIOのコミッタになりました

Apache PredictionIOはSpark MLlibを中心に、学習データやモデルデータを格納するためのストレージ、機械学習を利用したアプリケーションを定型的に開発するためのフレームワーク、作成したアプリケーションをWebサービスとしてデプロイする機能などを提供す…

IPython Notebookを使ってみる

scikit-learnによる機械学習ですが、チュートリアルを程度であればPython標準のインタラクティブシェルでもよいのですが、データセットやパラメータを変えながらいろいろ試したいという場合があります。そこでIPython Notebookというものを試してみます。こ…

scikit-learnによる機械学習入門

最近社内でscikit-learnを使った機械学習の勉強会が開催されています。scikit-learnというのはPythonで実装された機械学習ライブラリで、MahoutやMLlibなどと比べると非常に手軽に試すことができるのが特長です。実装されているアルゴリズムも豊富で、プロト…