わかった風のことを書くBLOG

仕事(IT)のはなしや、地元(沖縄)の話などなど記載してきます〜

Hadoop/hive でお手軽機械学習ライブラリhivemall使ってみた

f:id:parasan:20131230042249p:plain

技術の話全然していないので、たまには書きます(汗;

2013年もぼちぼち終わりますので、今年間違いなく世間を騒がせていた(気がする)
BIGDATA, 統計等のお話でも。

今年は、これから最もセクシーな職業はデータサイエンティストだ!、統計だ!分析だ!機械学習だ、云々カンヌン。。。と。

私のようなオールドタイプエンジニアにもさけて通れないような波が押し寄せていますが、RやらMohoutなどを使わなくてもHadoop+Hiveのみで機械学習が出来るオシャレライブラリをmyuiさんという方がGITで公開してくれた!という噂をきいたので使ってみたメモ。

Hadoop+HiveでSQLライクな分散処理基盤でなんとか飢えを凌ぎつつ、統計本や他の機械学習などの技術書を片手に習得がつらい><。とヘタレている私には朗報です!!

なにがオサレって、ファンクション追加(UDTF)するだけでまんまHiveQLだけで使えちゃうって訳ですよ。
RDB脳でもなんとかなるぜ!と食いつく訳です。

インストール方法(本家説明ページより引用)

$ hive

add jar /tmp/hivemall.jar;
source /tmp/define-all.hive;

That's all :-)

本家ページ
から、hivemall.jar, define-all.hiveをサーバ上にアップして(/tmp)、

1行目でadd jar して
2行目でfunctionを生成してるだけです。
That's all!!です。

めちゃ簡単だし、説明もイケてる!
特に刺さることなく入りました。

使い方

hiveQLで実行するだけ。

SELECT
feature,
CAST(avg(weight) as FLOAT) as weight
FROM
(SELECT logress(features,label) as (feature,weight) FROM training_features) t
GROUP BY feature;

logress()でロジスティック回帰
(# logistic regression の意味かな?)

ここにチュートリアルや、サンプルデータ作成方法も載ってるので技術書片手にためしてみますー。

ライセンス

GNU Lesser General Public License 2.1
自由に使ってよいという太っ腹です。

作者のmyuiさんは以下のように色々と面白いことされてます。

広告データの分析に活用したりしている事例もあるのでWEB系の人は参考に出来るかも
実際にお会いしたこともありますが、噛み砕いて色々と教えて頂き、大変素敵な人でした。

[参考:引用]

GIT   :https://github.com/myui/hivemall
紹介記事:http://www.mm-lab.jp/article/1219/