概要
- 予測コンテスト
- レーティングは非連続に存在
- Novice, Contributor, Expert, Master, and Grandmaster.
- 実質Expertからが勝負
- Kaggleのすすめ
レーティング分布
| Grandmasters | 88 |
| Masters | 826 |
| Experts | 2,220 |
| Contributors | 44,776 |
| Novices | 7,384 |
アルゴリズム
LightGBM
正しい得点遷移
The WRONG way to significantly improve your models:
• Different architecture • Hyperparameter tuning • Bigger ensemble
The RIGHT way:
• Thorough EDA • Meticulous error analysis • Robust model evaluation
Spend your time on the 100%+ gains, not the 1% gains.
kaggle弱い人あるあるで草
理想的なスコアの推移って 10→20→30→40→41→42→43→44→44.5→.. みたいな感じなんだけど、
データを見る力がないとハイパラとアーキテクチャtuningぐらいしか出来ないから、 10→11→12→13→14→14.5→... みたいな推移になる、という問題が良く指摘されてる
現実的な話をすると
× 10→20→30→40 〇 10→10→20→20→20→30→30→30→30→30→40
なんだけど、まあ何であれ10→11とかは最後までやらずに残しておいた方が良い
ただ、金メダル圏の一番下位と銀メダル圏の一番上位は競争が激しくて
「あかん、どんな手段を取ってでも43→44をやらないと負けてまう😡😡😡」
みたいな感じになりがちなので、チューニング/アンサンブルをガチる必要は当然ある。(一方、1~3位は40→50を発見してたりする。)