kaggle – S-Analysis

kaggle1位の解析手法：BirdCLEF 2021 – Birdcall Identification

目次 1. 解析手法の概要 2. 1位のパイプライン 3. データセット作成 4. モデル作成 5. 後処理関連記事： kaggle1位の解析手法：BirdCLEF 2021 – Birdcall Identification 概要 librosa-Pythonで音声処理, 音楽解析 1. 解析手法の概要この記事は、kaggle1位の解析手法：Help Protect the Great Barrier Reef 【2版】のシリーズの第2番です。第1番は下記はリングです。 kaggle1位の解析手法：Help Protect the Great Barrier Reef 【1 第2版】 BirdCLEF 2021 ：1位～5位の解析手法は下記のパスです。 Rank Team Score Explain Code Framework 1st Dr.北村の愉快な仲間たち 0.6932 Short Full GitHub Infer Pytorch 2nd …

kaggle1位の解析手法：BirdCLEF 2021 – Birdcall Identification Read More »

kaggle1位の解析手法：BirdCLEF 2021 – Birdcall Identification 概要

kaggle

Kaggle新型コロナウイルスの感染人数を予測するコンペ（COVID19 Global Forecasting）

kaggle, 機械学習

関連記事： kaggleの記事　昨年末から始まった新型コロナウイルス感染症（COVID-19）感染者拡大の影響は、いまや世界中に広がっています。世界中のさまざまな業界の組織はCOVID-19の対策を支援しています。やはりデータサイエンティストや機械学習エンジニアもCOVID-19）の感染対策や治療方針の策定を支援しています。今回の記事は世界中のデータサイエンティストの競い合うプラットフォームKaggleからの「COVID19 Global Forecasting」について紹介したいと思います。目次 1.　 COVID19 Global Forecastingの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 2. モデル作成 ___2.1 データの理解 ___2.2 モデル 1. ASHRAE 消費エネルギー予測のコンペの概要 1.1 コンペの概要概要 Kaggleでは今回の一連のコンペを通じて、感染者数の推移の予測によって世界保健機関（WHO)と全米科学・工学・医学アカデミー（NASEM）が抱える新型コロナウイルスに関連する疑問にも答えることです。今回のKaggleのコンペでは、米ホワイトハウスらを通じて集められた感染者数などの各種関連データを使って、１ヶ月後の感染者数を予測するモデルを構築することになります。賞金：　- 期間：　2020/3/19 ~ 第１週目のの評価：RMSLE nは観測の総数です piは予測値です aiは実測値です log（x）はxの自然対数です最終スコアは、すべての列のRMSLEの平均です詳細：RMSLE を用いた評価指標第5週目の評価：Weighted Scaled Pinball Loss (WSPL) y は実測値です。 y^ は予測値です。 τ は分位予測です。　例 [0.05, 0.50, 0.95] Nf …

Kaggle新型コロナウイルスの感染人数を予測するコンペ（COVID19 Global Forecasting） Read More »

kaggle1位の解析手法　「ASHRAE 消費エネルギー予測」2. 1位の解析手法

kaggle, 機械学習

目次 1. ASHRAE 消費エネルギー予測のコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 1位の解析手法 ___2.1 前処理 ___2.2 フィギュア・エンジニアリング ___2.3 モデル 2. 1位の解析手法 Isamu & Mattのチームのコメントを解説します。 https://www.kaggle.com/c/ashrae-energy-prediction/discussion/124709 2.1 前処理 2.1.1 異常値削除（Remove anomalies）このコンペでは、データのクリーンアップが非常に重要でした。想定されているのは、データに予測不可能な、したがって学習不可能な異常があり、トレーニングされた場合、予測の品質が低下するということです。 3種類の異常を特定して除外しました。１．長い定数値 2．大きな正/負のスパイク３．目視検査によって決定された追加の異常これらの異常のいくつかは、サイトの複数の建物にわたって一貫していることがわかりました。サイト内のすべての建物を使用して潜在的な異常を検証しました。複数の建物で同時に異常が発生した場合、これが実際に真の異常であると合理的に確信できます。これにより、必ずしも一定値の長いストリークや大きなスパイクの一部ではない異常を取り除くことができました。 2.1.2 温度のデータを欠損値代入法Impute Missing Temperature Values 温度メタデータに多くの欠損値がありました。線形補間を使用して欠落データを補完することがわかりました。 2.1.3 タイムゾーンの加工（Local Time Zone Correlation）トレイン/テストデータのタイムゾーンは、気象メタデータのタイムゾーンとは異なりましたので、タイムゾーンのデータを加工しました。 2.1.4 ラベルの加工（Target Transformations）最初はlog1p(meter_reading)を予測しました。site 0のkBTUをkWhに変換します。最後はlog1p(meter_reading/square_feet)の標準化にしました。（スコアが0.002上がった） …

kaggle1位の解析手法　「ASHRAE 消費エネルギー予測」2. 1位の解析手法 Read More »

kaggle1位の解析手法　「ASHRAE 消費エネルギー予測」1.コンペの概要

1 Comment / kaggle, 機械学習

前回はkaggleコンペの「Home Credit Default Risk 債務不履行の予測」の1位の解析手法を話しました。今回は「ASHRAE 消費エネルギー予測」の1位の解析手法をまとめたいと思います。内容が長いなので、2つの記事に分けました。関連記事：「メルカリにおける値段推定」「Cdiscount 画像分類」「Home Credit Default Risk 債務不履行の予測」目次 1. ASHRAE 消費エネルギー予測のコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 1位の解析手法 ___2.1 前処理 ___2.2 フィギュア・エンジニアリング ___2.3 モデル 1. ASHRAE 消費エネルギー予測のコンペの概要 1.1 コンペの概要ビルでの省エネの施策を実施した場合の効果を見積もるために、冷水、電気、温水、蒸気などのセンサーデータに基づいて、エネルギー使用量を予測するコンペでした。賞金：　1位 10,000米ドル、2位7,000米ドル、3位5,000米ドル、4位2,000米ドル、5位1,000米ドル期間：　2019/10/16 ~ 2019/12/20 参加チーム数：7,190 評価：評価指標はRMSLE（Root Mean Squared Logarithmic Error） RMSEとか平均平方二乗誤差といいます。すべての誤差の平方根の平均です。連続値の値でどれぐらい離れているかを平均を取り、平方根で評価します。詳細：　RMSLE を用いた評価指標 1.2 データセットの概要 train.csv 学習データで、各センサーの時間、量数のデータ（ビルのデータに紐付ける） building_meta.csv 各ビル、活動の分類、建物の面積、築年、建物の階数のデータ（天気のデータとセンサーのデータに紐付ける） …

kaggle1位の解析手法　「ASHRAE 消費エネルギー予測」1.コンペの概要 Read More »

kaggle1位の解析手法　「Cdiscountの画像分類チャレンジ」3 モデルの解説

2 Comments / kaggle, 全て, 機械学習

前回記事の過去のkaggleコンペの「Cdiscountの画像分類チャレンジ」のデータ概要と環境準備を話しました。今回の記事はCdiscountの1位の解析モデル作成と解説します。目次 1.　「Cdiscountの画像分類チャレンジ」のコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 　1位の解説の環境準備とデータ処理 ___2.1 特徴量生成 ___2.2 解析方法のサマリー ___2.3 大きなデータセットの準備 3.　 1位のモデルの解説 ___3.1 学習済みモデルの調整 ___3.2複数枚の画像データセットを利用 ___3.3 OCRデータの追加 ___3.4そのたの方法 ___3.5 restnetモデルのコード 3.1 学習済みモデルの調整 Resnet34で実験を開始しました。実験の結果： 1.ほとんどすべての学習済みモデルのネットワーク構造は、1000ラベルのイメージネット用ですが、今回のコンペは5270ラベルがあります。それを直接使用すると、ネットワークのボトルネックが発生します。 2. SGD(Stochastic Gradient Descent)よりADAM Optimizerはエポックの学習が速いと変わりました。 restnet34に1×1カーネルコンボリューションレイヤーを追加しました。チャネルが512から5270になり、FC(完全接続)が5270 * 5270になります。 Adamを追加ました。エポックを増やしたから、Learning rateを小さいくなります。 lr = 0.0003 if epoch > 7: lr = 0.0001 if epoch …

kaggle1位の解析手法　「Cdiscountの画像分類チャレンジ」3 モデルの解説 Read More »

kaggle1位の解析手法　「Cdiscountの画像分類チャレンジ」2 解説の環境準備とデータ処理

2 Comments / kaggle, 全て, 機械学習

前回記事の過去のkaggleコンペの「Cdiscountの画像分類チャレンジ」のデータ概要を話しました。今回の記事はCdiscountの1位のやり方について解説していきます。目次 1.　「Cdiscountの画像分類チャレンジ」のコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 　1位の解説の環境準備とデータ処理 ___2.1 特徴量生成 ___2.2 解析方法のサマリー ___2.3 大きなデータセットの準備 3.　 1位のモデルの解説 ___3.1 学習済みモデルの調整 ___3.2複数枚の画像データセットを利用 ___3.3 OCRデータの追加 ___3.4そのたの方法 ___3.5 restnetモデルのコード public leaderboardの１位はbestfittingさんです。 2020/02時点でbestfittingはKaggle Rankingsに一位になっています。3年前初めて参加しましたが、26個の金メダルを獲得しています。 1位のコメントにより、特徴量設計をまとめます。 https://www.kaggle.com/c/cdiscount-image-classification-challenge/discussion/45863 問題点としては、以下になります。 1.1500万以上の画像と5000以上のカテゴリを持つ大規模なデータセット。 2.一部の製品と1-4枚の画像 3.CD/BOOKは分類が非常に困難 4.全体の精度も最高で0.8になると推定しました。多くの方法を選択でき、改善する余地が大きいため、勝つのは非常に困難解析方法のサマリー全体の解析方法は下記になります。 1.大きなデータセットの準備 2.学習済みモデルの微調整（0.759 / 0.757、inception-resnet-v2,0.757 / 0.756 resnet50） 3.。複数枚の画像データセットを利用（0.772 / 0.771 inception-resnet-v2および0.769 / 0.768 …

kaggle1位の解析手法　「Cdiscountの画像分類チャレンジ」2 解説の環境準備とデータ処理 Read More »

kaggle1位の解析手法　「Cdiscountの画像分類チャレンジ」１コンペの概要

kaggle, 全て, 機械学習

今回のkaggle1位の解析手法のシリーズはKaggleでよく行われる画像分類コンペについて話したいと思います。過去のコンペの「Cdiscountの画像分類チャレンジ」の解析方法を解説します。最初の記事はCdiscountのコンペ概要とデータ理解を紹介します。目次 1.　「Cdiscountの画像分類チャレンジ」のコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 　1位の解説の環境準備とデータ処理 ___2.1 特徴量生成 ___2.2 解析方法のサマリー ___2.3 大きなデータセットの準備 3.　 1位のモデルの解説 ___3.1 学習済みモデルの調整 ___3.2複数枚の画像データセットを利用 ___3.3 OCRデータの追加 ___3.4そのたの方法 ___3.5 restnetモデルのコード 1.　「Cdiscountの画像分類チャレンジ」のコンペの概要 1.1 コンペの概要 Cdiscountは1999年に設立され、2011年にはフランスで最大のeコマースプラットフォームとなりました。Cdiscountは生鮮食品の販売だけでなく、電気製品、衣料、家庭用品などのすべてのカテゴリを取り揃えています。このコンペは製品の画像をカテゴリ分類するアルゴリズムを作成したいです。データセットの特徴：・一つの製品は複数画像がある・ほぼ900万の製品：現在のカタログの半分・180×180の解像度で1500万枚以上の画像・5000以上のカテゴリ目的：このコンペの目的は、画像に基づいて製品のカテゴリを予測することです。製品には、1つまたは複数の画像があります。テストセットのすべての製品IDを正しいカテゴリを予測することです。メトリック Accuracy（正しい製品の割合）で評価されます。賞金：　1位20,000米ドル、2位10,000米ドル、3位5,000米ドル期間：　2018/09/14 ~ 2018/12/14 参加チーム数：626 1.2 データセットの概要 BSON拡張子ファイル BSON拡張子はBinary JSONで、主にMongoDBのデータストレージ及びネットワーク転送フォーマットとして利用されている、データ交換フォーマットである。 train.bson …

kaggle1位の解析手法　「Cdiscountの画像分類チャレンジ」１コンペの概要 Read More »

kaggle1位の解析手法　「Home Credit Default Risk 債務不履行の予測」③モデル作成

kaggle, 全て

前回はkaggleコンペの「メルカリにおける値段推定」の1位の解析手法を話しました。内容が長いなので、３つの記事に分けました。今回は「Home Credit Default Risk 債務不履行の予測」のモデル作成について書きます。目次 1.　 Home Credit Default Riskのコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 　1位の特徴量エンジニアリング ___2.1 特徴量生成 ___2.2 カテゴリカル特徴量の処理 ___2.3 特徴量選択 3.　 1位のモデル作成 ___3.1 3.1 Base Models ___3.2 アンサンブル学習（Ensemble learning） ___3.3 その他３．1位のモデル作成 3.1 Base Models モデル評価はStratifiedKFold, with 5-folds交差検証（Cross Validation）を利用しました。Stratified 普通のk-foldとも比較したが今回は大きな差はありません。交差検証 (Cross Validation) 交差検定では、用意したデータをK個に分割して、1回目はそのうちの一つをテストデータ、それ以外を学習データとして、学習・評価します。2回目は1回目と異なる別のデータをテストデータとして使い、3回目は1,2回目と異なるデータで評価をします。そして、各回で測定した精度の平均を取ります。交差検証の説明はこちらです。・LightGBM, XGBoost, FastRGF, FFM を使ったがCVは良くなかった。 …

kaggle1位の解析手法　「Home Credit Default Risk 債務不履行の予測」③モデル作成 Read More »

kaggle1位の解析手法　「Home Credit Default Risk 債務不履行の予測」②特徴量エンジニアリング

kaggle, 全て

前回はkaggleコンペの「メルカリにおける値段推定」の1位の解析手法を話しました。内容が長いなので、３つの記事に分けました。今回は「Home Credit Default Risk 債務不履行の予測」の特徴量エンジニアリングについて書きます。目次 1.　 Home Credit Default Riskのコンペの概要 ___1.1 コンペの概要 ___1.2 データセットの概要 ___1.3 データの理解 2. 　1位の特徴量エンジニアリング ___2.1 特徴量生成 ___2.2 カテゴリカル特徴量の処理 ___2.3 特徴量選択 3.　 1位のモデル作成 ___3.1 3.1 Base Models ___3.2 アンサンブル学習（Ensemble learning） ___3.3 その他 2. 　1位の特徴量エンジニアリング 1位のコメントにより、特徴量設計をまとめます。 https://www.kaggle.com/c/home-credit-default-risk/discussion/64821 この競争に適したモデルを構築するには、次の2つのことが重要です。 1. 賢くて正しい特徴量セット。 2.多様なアルゴリズムベース 2.1 特徴量生成・データが異質であり、異なる期間のデータや多くのデータソースなので、かなりの前処理が必要です。・様々な特徴量はManyToOneの結構で集計しての表を作成しました。約700の特徴量になりました。・複数の特徴量を試しまして、EXT_SOURCE_3でapplicationを割ったのは効果がありました。・Previous_application.csvの最後の 3, 5番目の特徴量と最初の2, 4番目の特徴量のapplicationsについてそれぞれ集計は一番良いスコアになりました。・Installment_payments.csvの集計は、最後の2,3,5のpayments、NUM_INSTALMENT_NUMBER が …

kaggle1位の解析手法　「Home Credit Default Risk 債務不履行の予測」②特徴量エンジニアリング Read More »