verilog書く人

自称ASIC設計者です。どなたかkaggle一緒に出ましょう。

Microsoft Azureでサインアップしてからkaggleデータで機械学習するまでのメモ

kaggleの本番コンペはデータが大きくて、AzureやAWSなどのクラウドサービスで、メモリ数十GBのモンスターマシンの力を借りたくなることがあります。

この前参加したデータ分析ハッカソンなどで、Azureの使い方をおぼえて来たのでメモ。

 

Azureは本家のチュートリアルがかなり分かりやすくできていますので、主にリンク集です。

 

※基本的に無料試用版で試したので、自分から無料制限をはずさない限りここで書いてある内容はお金をかけずに試せるはずですが、課金に関する最新の正確な情報は本家サイトでよくお確かめください。

 

続きを読む

scikit-learnモデルのVotingとキャッシング

先月末まで、Shelter Animal Outcomes | Kaggleに参加していました。

 

同僚の力も借りつつ、なんとかTOP2%に入り込む結果になりました。

トップはほぼパーフェクトに近いスコアの方もいたり、leak多すぎて実態がよくわからん、という印象。

 

データの前処理はフォーラムを見つつテキトーに、
最終的にモデルはXGB、Random Forest、Extreme randomized treesの三つのモデルのVoting ensembleを行いました。

 

続きを読む

chainerにコミットして学んだこと、学ばなきゃいけないと感じたこと

先日大型OSSへのコミットという自分の中での一つの目標を達成することができました。

 

といってもまだまだ変更は小規模ですが、小さなコミットでも考えさせられる事があって収穫は大きく楽しいので習慣にしたいと思ってます。

コードレビューも丁寧にやっていただけるし。
でも、レビューで指摘を受けずに一発マージを目指したいんよ~。

以下にOSSにスムーズにコミットするうえで押さえるべきポイント(と私が勝手に思っているもの)をまとめておきます。

 

 

続きを読む

【機械学習】Regularized Greedy Forest(RGF)で多クラス分類を試してみました

  • RGFとは
  • 中身
  • インストール
    • 実行ファイルの入手
    • Perlのインストール
    • Wrapperのインストール
    • 多クラス分類に使ってみた
  • 手早くチューニングしたいとき

RGFとは

RGFはランダムフォレストや勾配ブースティングのように多数の決定木(Forest)を使った分類/回帰のための学習器です。

原著論文では多くのテストデータで勾配ブースティングを超えるとされています(ただし、xgboostではなくRのgbmパッケージが比較対象です)。実際、著者のチームはRGFでBond Trade Price Challengeなど複数コンペで優勝するなど華々しい成績を収めています。

 

続きを読む

【機械学習】スタッキングのキホンを勉強したのでそのメモ

そもそもスタッキングとは

 機械学習において、単一の学習器をそのまま使うのではなく、複数の学習器を組み合わせることで、予測エラーを小さくする手法をアンサンブル学習といいます。

アンサンブル(混合学習手法の)には複数の学習器の平均や多数決を取るvoting、構成済の学習器の誤りを反映して次段の弱学習器を形成するboosting、そして初段の学習器の出力結果を次段の入力結果とするstacking(以下スタッキング)とよばれるものがあり、Kaggleなどのデータ分析コンペでは良く使われます。

今回はスタッキングについて勉強したので、それをまとめてみました。

おもにKaggle Ensembling Guide | MLWaveを参照しています。

 

続きを読む