kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」③モデル作成
前回はkaggleコンペの「メルカリにおける値段推定」の1位の解析手法を話しました。内容が長いなので、3つの記事に分けました。今回は「Home Credit Default Risk 債務不履行の予測」のモデル作成について書きます。 目次 1. Home Credit Default Riskのコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 1位の特徴量エンジニアリング ___2.1 特徴量生成 ___2.2 カテゴリカル特徴量の処理 ___2.3 特徴量選択 3. 1位のモデル作成 ___3.1 3.1 Base Models ___3.2 アンサンブル学習(Ensemble learning) ___3.3 その他 3.1位のモデル作成 3.1 Base Models モデル評価はStratifiedKFold, with 5-folds交差検証(Cross Validation)を利用しました。Stratified 普通のk-foldとも比較したが今回は大きな差はありません。 交差検証 (Cross Validation) 交差検定では、用意したデータをK個に分割して、1回目はそのうちの一つをテストデータ、それ以外を学習データとして、学習・評価します。2回目は1回目と異なる別のデータをテストデータとして使い、3回目は1,2回目と異なるデータで評価をします。そして、各回で測定した精度の平均を取ります。 交差検証の説明はこちらです。 ・LightGBM, XGBoost, FastRGF, FFM を使ったがCVは良くなかった。 …
kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」③モデル作成 Read More »