2016-10-18

scikit-learn 0.20からクロスバリデーションの使い方が変更される模様

機械学習

機械学習をやるときに結構良く使うところだなと思っていた、クロスバリデーションのスプリッター系モジュールのインターフェースが変わることに気づいたのでメモ。

scikit-learnの従来のクロスバリデーション関係のモジュール(sklearn.cross_vlidation)は、scikit-learn 0.18で既にDeprecationWarningが表示されるようになっており、ver0.20で完全に廃止されると宣言されています。

詳しくはこちら↓

Release history — scikit-learn 0.18 documentation

2016-09-28

Kaggle KernelでRegularized Greedy Forestがサポートされました

機械学習

以前

【機械学習】Regularized Greedy Forest(RGF)で多クラス分類を試してみました - verilog書く人

の記事で紹介させていただいたRegularized Greedy Forest及びそのwrapperであるrgf_pythonがKaggle Kernel (旧Kaggle Scripts)でサポートされました。

Kaggle Kernel上ではインストール作業などなしで、importすれば使うことが出来ます。

試しに作成してみたKaggle Kernelはコチラ↓

https://www.kaggle.com/fukatani/d/uciml/iris/classification-by-regularized-greedy-forest

動いてます。安定のiris。

というわけでぜひぜひお試しあれ。

P.S.

Kaggleのサポートチームにちょっと「RGFどうですか？」と頼んだら、気前よくスピーディにサポートしてくださいました。感謝。

2016-08-28

Microsoft Azureでサインアップしてからkaggleデータで機械学習するまでのメモ

機械学習

kaggleの本番コンペはデータが大きくて、AzureやAWSなどのクラウドサービスで、メモリ数十GBのモンスターマシンの力を借りたくなることがあります。

この前参加したデータ分析ハッカソンなどで、Azureの使い方をおぼえて来たのでメモ。

Azureは本家のチュートリアルがかなり分かりやすくできていますので、主にリンク集です。

※基本的に無料試用版で試したので、自分から無料制限をはずさない限りここで書いてある内容はお金をかけずに試せるはずですが、課金に関する最新の正確な情報は本家サイトでよくお確かめください。

2016-08-21

Travis CIでscipyを使うときの四苦八苦

Travis CIでscipyをインストールして使うとき、pipでもapt-getでもインストールできなくて、Travis CIのログがエラーだらけになったのでメモ。

調べてみると、

(1)minicondaを使う
(2)addons.apt.packagesを使う

の二つの選択肢がありそうでした。

2016-08-14

scikit-learnモデルのVotingとキャッシング

機械学習

先月末まで、Shelter Animal Outcomes | Kaggleに参加していました。

同僚の力も借りつつ、なんとかTOP2%に入り込む結果になりました。

トップはほぼパーフェクトに近いスコアの方もいたり、leak多すぎて実態がよくわからん、という印象。

データの前処理はフォーラムを見つつテキトーに、
最終的にモデルはXGB、Random Forest、Extreme randomized treesの三つのモデルのVoting ensembleを行いました。

2016-07-03

chainerにコミットして学んだこと、学ばなきゃいけないと感じたこと

機械学習

先日大型OSSへのコミットという自分の中での一つの目標を達成することができました。

といってもまだまだ変更は小規模ですが、小さなコミットでも考えさせられる事があって収穫は大きく楽しいので習慣にしたいと思ってます。

コードレビューも丁寧にやっていただけるし。
でも、レビューで指摘を受けずに一発マージを目指したいんよ～。

以下にOSSにスムーズにコミットするうえで押さえるべきポイント(と私が勝手に思っているもの)をまとめておきます。

2016-06-12

【機械学習】Regularized Greedy Forest(RGF)で多クラス分類を試してみました

機械学習

RGFとは
中身
インストール
- 実行ファイルの入手
- Perlのインストール
- Wrapperのインストール
- 多クラス分類に使ってみた
手早くチューニングしたいとき

RGFとは

RGFはランダムフォレストや勾配ブースティングのように多数の決定木(Forest)を使った分類/回帰のための学習器です。

原著論文では多くのテストデータで勾配ブースティングを超えるとされています(ただし、xgboostではなくRのgbmパッケージが比較対象です)。実際、著者のチームはRGFでBond Trade Price Challengeなど複数コンペで優勝するなど華々しい成績を収めています。