verilog書く人

自称ASIC設計者です。どなたかkaggle一緒に出ましょう。

chainerにコミットして学んだこと、学ばなきゃいけないと感じたこと

機械学習

先日大型OSSへのコミットという自分の中での一つの目標を達成することができました。

といってもまだまだ変更は小規模ですが、小さなコミットでも考えさせられる事があって収穫は大きく楽しいので習慣にしたいと思ってます。

コードレビューも丁寧にやっていただけるし。
でも、レビューで指摘を受けずに一発マージを目指したいんよ～。

以下にOSSにスムーズにコミットするうえで押さえるべきポイント(と私が勝手に思っているもの)をまとめておきます。

続きを読む

【機械学習】Regularized Greedy Forest(RGF)で多クラス分類を試してみました

機械学習

RGFとは
中身
インストール
- 実行ファイルの入手
- Perlのインストール
- Wrapperのインストール
- 多クラス分類に使ってみた
手早くチューニングしたいとき

RGFとは

RGFはランダムフォレストや勾配ブースティングのように多数の決定木(Forest)を使った分類/回帰のための学習器です。

原著論文では多くのテストデータで勾配ブースティングを超えるとされています(ただし、xgboostではなくRのgbmパッケージが比較対象です)。実際、著者のチームはRGFでBond Trade Price Challengeなど複数コンペで優勝するなど華々しい成績を収めています。

続きを読む

スタッキングのキホン、実践編

機械学習

【機械学習】スタッキングのキホンを勉強したのでそのメモ - verilog書く人の続きです。

実践、モデルのバリデーションなどについてです。

続きを読む

【機械学習】スタッキングのキホンを勉強したのでそのメモ

機械学習

そもそもスタッキングとは

機械学習において、単一の学習器をそのまま使うのではなく、複数の学習器を組み合わせることで、予測エラーを小さくする手法をアンサンブル学習といいます。

アンサンブル(混合学習手法の)には複数の学習器の平均や多数決を取るvoting、構成済の学習器の誤りを反映して次段の弱学習器を形成するboosting、そして初段の学習器の出力結果を次段の入力結果とするstacking(以下スタッキング)とよばれるものがあり、Kaggleなどのデータ分析コンペでは良く使われます。

今回はスタッキングについて勉強したので、それをまとめてみました。

おもにKaggle Ensembling Guide | MLWaveを参照しています。

続きを読む

Windows 7 32bitにXGBOOSTをインストール

機械学習

環境：Windows 7 32bit

Visual Studio 2010 Express

いろいろとショボい環境にてKaggle界のロトの剣ことXGboostを漸くインストールできましたのでメモ。

64bitの方がらくだと思います。

また、XGBOOSTはWindows 32bit環境では正式サポートはされていません。Linuxに移る、OSを64bitにする、といったより賢明な選択肢もあります。今ならWindows 10にすれば無料で64bitに移れます。その点をご理解の上で以下はお読みください。

続きを読む

PreTrainingChainをscikit-learnのGridSearchに対応しました

機械学習

以前作ったChainerのラッパーであるPreTrainingChain

chainerで気軽にスケールできる事前学習器付きニューラルネット生成 - verilog書く人

をscikit-learnの学習器ライクに使えるようにしたのとGridSearchに対応しました。

続きを読む

SOINNで手書き数字MNISTをクラスタリングしてみた

機械学習

最近ちょいちょいニュースで見かけるようになったSOINN株式会社の機械学習アルゴリズムSOINNを試しました。

コードはこちらのtrain_mnist.pyです

SOINNとはSelf-Organizing Incremental Neural Network（自己増殖型ニューラルネットワーク)の略で、クラスタリング(データ群の中から、近しいもののグルーピングを行う)などに使われる機械学習アルゴリズムです。

続きを読む