scikit-learnモデルのVotingとキャッシング
先月末まで、Shelter Animal Outcomes | Kaggleに参加していました。
同僚の力も借りつつ、なんとかTOP2%に入り込む結果になりました。
トップはほぼパーフェクトに近いスコアの方もいたり、leak多すぎて実態がよくわからん、という印象。
データの前処理はフォーラムを見つつテキトーに、
最終的にモデルはXGB、Random Forest、Extreme randomized treesの三つのモデルのVoting ensembleを行いました。
続きを読む
【機械学習】スタッキングのキホンを勉強したのでそのメモ
そもそもスタッキングとは
機械学習において、単一の学習器をそのまま使うのではなく、複数の学習器を組み合わせることで、予測エラーを小さくする手法をアンサンブル学習といいます。
アンサンブル(混合学習手法の)には複数の学習器の平均や多数決を取るvoting、構成済の学習器の誤りを反映して次段の弱学習器を形成するboosting、そして初段の学習器の出力結果を次段の入力結果とするstacking(以下スタッキング)とよばれるものがあり、Kaggleなどのデータ分析コンペでは良く使われます。
今回はスタッキングについて勉強したので、それをまとめてみました。
おもにKaggle Ensembling Guide | MLWaveを参照しています。
続きを読む