kaggle1位の解析手法:BirdCLEF 2021 – Birdcall Identification

目次

1. 解析手法の概要
2. 1位のパイプライン
3. データセット作成
4. モデル作成
5. 後処理

関連記事:

kaggle1位の解析手法:BirdCLEF 2021 – Birdcall Identification 概要

librosa-Pythonで音声処理, 音楽解析

 

1. 解析手法の概要

この記事は、kaggle1位の解析手法:Help Protect the Great Barrier Reef 【2版】のシリーズの第2番です。第1番は下記はリングです。

kaggle1位の解析手法:Help Protect the Great Barrier Reef 【1 第2版】

BirdCLEF 2021 :1位~5位の解析手法は下記のパスです。

RankTeamScoreExplainCodeFramework
1stDr.北村の愉快な仲間たち0.6932Short

Full

GitHub

Infer

Pytorch
2ndnew baseline0.6893FullGitHub

Infer

Paper

Pytorch Timm
3rdShiro0.6891FullPytorch
4thThird time’s the charm0.6864FullInfer

 

Pytorch Timm
5thKramarenko Vladislav0.6820FullGitHubPytorch

2. 1位のパイプライン

1位のパイプラインはデータセットの前処理 → 3つのモデル → 後処理の流れのモデルが良かったです。

 

3. データセット作成

3つのデータセット:

  • 鳥音あり・なしの7,000の音声データセットhttps://www.kaggle.com/datasets/startjapan/ff1010bird-duration7
  • 397クラスの鳥音のデータセット

https://www.kaggle.com/competitions/birdclef-2021/data

3)緯度、経度、記録日、などの62874の行、14列のデータセット

前処理:音源をメルスペクトログラムに変換します。

Mel Spectrograms Imageのサンプル

4. モデル作成

3段階のモデル

STAGE1:  Freefield1010の外部データのメルスペクトログラムから鳥が鳴いているかどうかの2値分類のResnext50モデルを作成します。

STAGE2: 鳥音のメルスペクトログラムから397+1クラス分類のResnext50モデルを作成します。

STAGE3:  STAGE2の結果と緯度、経度、記録日、などの特徴量からLightGBMモデルを作成します。

 

5. 後処理

後処理: nocall と判断する閾値を最適化。また鳥と nocall を混ぜてスコア向上させる nocall injection のモデルを行いました。

 

担当者:KW
バンコクのタイ出身 データサイエンティスト
製造、マーケティング、財務、AI研究などの様々な業界にPSI生産管理、在庫予測・最適化分析、顧客ロイヤルティ分析、センチメント分析、SaaS、PaaS、IaaS、AI at the Edge の環境構築などのスペシャリスト