kaggle1位の解析手法:BirdCLEF 2021 – Birdcall Identification

目次

1. 解析手法の概要
2. 1位のパイプライン
3. データセット作成
4. モデル作成
5. 後処理

関連記事:

kaggle1位の解析手法:BirdCLEF 2021 – Birdcall Identification 概要

librosa-Pythonで音声処理, 音楽解析

 

1. 解析手法の概要

この記事は、kaggle1位の解析手法:Help Protect the Great Barrier Reef 【2版】のシリーズの第2番です。第1番は下記はリングです。

kaggle1位の解析手法:Help Protect the Great Barrier Reef 【1 第2版】

BirdCLEF 2021 :1位~5位の解析手法は下記のパスです。

Rank Team Score Explain Code Framework
1st Dr.北村の愉快な仲間たち 0.6932 Short

Full

GitHub

Infer

Pytorch
2nd new baseline 0.6893 Full GitHub

Infer

Paper

Pytorch Timm
3rd Shiro 0.6891 Full Pytorch
4th Third time’s the charm 0.6864 Full Infer

 

Pytorch Timm
5th Kramarenko Vladislav 0.6820 Full GitHub Pytorch

2. 1位のパイプライン

1位のパイプラインはデータセットの前処理 → 3つのモデル → 後処理の流れのモデルが良かったです。

 

3. データセット作成

3つのデータセット:

  • 鳥音あり・なしの7,000の音声データセットhttps://www.kaggle.com/datasets/startjapan/ff1010bird-duration7
  • 397クラスの鳥音のデータセット

https://www.kaggle.com/competitions/birdclef-2021/data

3)緯度、経度、記録日、などの62874の行、14列のデータセット

前処理:音源をメルスペクトログラムに変換します。

Mel Spectrograms Imageのサンプル

4. モデル作成

3段階のモデル

STAGE1:  Freefield1010の外部データのメルスペクトログラムから鳥が鳴いているかどうかの2値分類のResnext50モデルを作成します。

STAGE2: 鳥音のメルスペクトログラムから397+1クラス分類のResnext50モデルを作成します。

STAGE3:  STAGE2の結果と緯度、経度、記録日、などの特徴量からLightGBMモデルを作成します。

 

5. 後処理

後処理: nocall と判断する閾値を最適化。また鳥と nocall を混ぜてスコア向上させる nocall injection のモデルを行いました。

 

担当者:KW
バンコクのタイ出身 データサイエンティスト
製造、マーケティング、財務、AI研究などの様々な業界にPSI生産管理、在庫予測・最適化分析、顧客ロイヤルティ分析、センチメント分析、SaaS、PaaS、IaaS、AI at the Edge の環境構築などのスペシャリスト