債務不履行

kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」③モデル作成

前回はkaggleコンペの「メルカリにおける値段推定」の1位の解析手法を話しました。内容が長いなので、3つの記事に分けました。今回は「Home Credit Default Risk 債務不履行の予測」のモデル作成について書きます。 目次 1.  Home Credit Default Riskのコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2.  1位の特徴量エンジニアリング ___2.1 特徴量生成 ___2.2 カテゴリカル特徴量の処理 ___2.3 特徴量選択 3.  1位のモデル作成 ___3.1 3.1 Base Models ___3.2 アンサンブル学習(Ensemble learning) ___3.3 その他 3.1位のモデル作成 3.1 Base Models モデル評価はStratifiedKFold, with 5-folds交差検証(Cross Validation)を利用しました。Stratified 普通のk-foldとも比較したが今回は大きな差はありません。 交差検証 (Cross Validation) 交差検定では、用意したデータをK個に分割して、1回目はそのうちの一つをテストデータ、それ以外を学習データとして、学習・評価します。2回目は1回目と異なる別のデータをテストデータとして使い、3回目は1,2回目と異なるデータで評価をします。そして、各回で測定した精度の平均を取ります。 交差検証の説明はこちらです。 ・LightGBM, XGBoost, FastRGF, FFM を使ったがCVは良くなかった。 …

kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」③モデル作成 Read More »

kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」②特徴量エンジニアリング

前回はkaggleコンペの「メルカリにおける値段推定」の1位の解析手法を話しました。内容が長いなので、3つの記事に分けました。今回は「Home Credit Default Risk 債務不履行の予測」の特徴量エンジニアリングについて書きます。 目次 1.  Home Credit Default Riskのコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2.  1位の特徴量エンジニアリング ___2.1 特徴量生成 ___2.2 カテゴリカル特徴量の処理 ___2.3 特徴量選択 3.  1位のモデル作成 ___3.1 3.1 Base Models ___3.2 アンサンブル学習(Ensemble learning) ___3.3 その他 2.  1位の特徴量エンジニアリング 1位のコメントにより、特徴量設計をまとめます。 https://www.kaggle.com/c/home-credit-default-risk/discussion/64821 この競争に適したモデルを構築するには、次の2つのことが重要です。 1. 賢くて正しい特徴量セット。 2.多様なアルゴリズムベース 2.1 特徴量生成 ・データが異質であり、異なる期間のデータや多くのデータソースなので、かなりの前処理が必要です。 ・様々な特徴量はManyToOneの結構で集計しての表を作成しました。約700の特徴量になりました。 ・複数の特徴量を試しまして、EXT_SOURCE_3でapplicationを割ったのは効果がありました。 ・Previous_application.csvの最後の 3, 5番目の特徴量と最初の2, 4番目の特徴量のapplicationsについてそれぞれ集計は一番良いスコアになりました。 ・Installment_payments.csvの集計は、最後の2,3,5のpayments、NUM_INSTALMENT_NUMBER が …

kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」②特徴量エンジニアリング Read More »

kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」①データ理解

前回はkaggleコンペの「メルカリにおける値段推定」の1位の解析手法を話しました。内容が長いなので、3つの記事に分けました。今回は「Home Credit Default Risk 債務不履行の予測」のデータ理解について書きます。 目次 1.  Home Credit Default Riskのコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2.  1位の特徴量エンジニアリング ___2.1 特徴量生成 ___2.2 カテゴリカル特徴量の処理 ___2.3 特徴量選択 3.  1位のモデル作成 ___3.1 3.1 Base Models ___3.2 アンサンブル学習(Ensemble learning) ___3.3 その他 1. Home Credit Default Riskのコンペの概要 1.1 コンペの概要 http://www.homecredit.net/ Home CreditがKaggleでHome Credit Default Risk(債務不履行の予測)コンペを主催しました。 Home Credit社は、アジアの9か国で信用の積み重ねが足りずに融資を受けることができない顧客にも融資を行う会社です。 目的:個人のクレジットの情報や以前の応募情報などから、各データが債務不履行になるかどうかを予測する問題です。 賞金: 1位35,000米ドル、2位25,000米ドル、3位10,000米ドル 期間: 2018/05/18 ~ …

kaggle1位の解析手法 「Home Credit Default Risk 債務不履行の予測」①データ理解 Read More »