*概要 [#c43ddad8] -予測コンテスト -[[レーティングは非連続に存在>https://www.kaggle.com/progression]] --Novice, Contributor, Expert, Master, and Grandmaster. --実質Expertからが勝負 -Kaggleのすすめ --https://www.rco.recruit.co.jp/career/engineer/blog/kaggle-bosch/ *レーティング分布 [#kcda5b70] |Grandmasters|88| |Masters|826| |Experts|2,220| |Contributors|44,776| |Novices|7,384| *アルゴリズム [#ma83e5e6] LightGBM *正しい得点遷移 [#d2d2791a] The WRONG way to significantly improve your models: • Different architecture • Hyperparameter tuning • Bigger ensemble The RIGHT way: • Thorough EDA • Meticulous error analysis • Robust model evaluation Spend your time on the 100%+ gains, not the 1% gains. kaggle弱い人あるあるで草 理想的なスコアの推移って 10→20→30→40→41→42→43→44→44.5→.. みたいな感じなんだけど、 データを見る力がないとハイパラとアーキテクチャtuningぐらいしか出来ないから、 10→11→12→13→14→14.5→... みたいな推移になる、という問題が良く指摘されてる 現実的な話をすると × 10→20→30→40 〇 10→10→20→20→20→30→30→30→30→30→40 なんだけど、まあ何であれ10→11とかは最後までやらずに残しておいた方が良い ただ、金メダル圏の一番下位と銀メダル圏の一番上位は競争が激しくて 「あかん、どんな手段を取ってでも43→44をやらないと負けてまう😡😡😡」 みたいな感じになりがちなので、チューニング/アンサンブルをガチる必要は当然ある。(一方、1~3位は40→50を発見してたりする。) |