目次
1. コンペの概要
2. コンペの評価
3. タイムライン
4. データ
5. 探索的データ分析(EDA)
この記事は、kaggle1位の解析手法:Help Protect the Great Barrier Reef 【2版】のシリーズの第1番です。第2番は下記はリングです。
kaggle1位の解析手法:Help Protect the Great Barrier Reef 【2 第2版】
1. コンペの概要
コンペの目標は、Googleが協力してサンゴ礁の水中ビデオでトレーニングされたオブジェクト検出モデルを構築することにより、リアルタイムでヒトデを正確に特定することです。
研究者がオーストラリアのグレートバリアリーフを脅かしている種を特定し、将来の世代のためにサンゴ礁を保護するために十分な情報に基づいた行動を取るのに役立ちます。
紹介のビデオ
2. コンペの評価
物体検出の問題で、
この競争は、IoUとF2を用いた評価方法です。この場合、ヒトデを見逃さないようにするために、いくつかの誤検知を許容することが理にかなっています。
メトリックは、ステップサイズ0.05で0.3から0.8のIoUをスイープし、各しきい値でF2スコアを計算します。 たとえば、しきい値0.5で、グラウンドトゥルースオブジェクトとのIoUが少なくとも0.5の場合、予測されたオブジェクトは「ヒット」と見なされます。
計算式:
3. タイムライン
2021年11月22日~2022年2月14日の3か月間です。
4. データ
画像データ:
train/-video_ {video_id} /{video_frame_number}.jpgは、形式のトレーニングセット画像のフォルダーです。
表形式のデータ:
[train /test].csv:画像のメタデータ。他のテストファイルと同様に、ほとんどのテストメタデータデータは、送信時にノートブックでのみ利用できます。ダウンロード可能な最初の数行だけです。
– video_id:画像が含まれていたビデオのID番号です。ビデオIDは意味のある順序ではありません。
– video_frame:ビデオ内の画像のフレーム番号です。ダイバーが浮上したときからフレーム番号に時折ギャップが見られることを期待してください。
– sequence:特定のビデオのギャップのないサブセットのIDです。シーケンスIDは意味のある順序ではありません。
– sequence_frame:指定されたシーケンス内のフレーム番号です。
– image_id:画像のIDコードは形式は「{video_id}-{video_frame}」です。
– annotations:Pythonで直接評価できる文字列形式のヒトデ検出のバウンディングボックス。送信する予測と同じ形式を使用しません。 test.csvでは利用できません。バウンディングボックスは、画像内の左上隅のピクセル座標(x_min、y_min)と、ピクセル単位の幅と高さで表されます。
example_sample_submission.csv:正しい形式のサンプル送信ファイル。 実際のサンプル提出はAPIによって提供されます。 これは、予測を適切にフォーマットする方法を説明するためにのみ提供されています。 提出形式については、評価ページで詳しく説明しています。
example_test.npy:サンプルAPIによって提供されるサンプルデータです。
5. 探索的データ分析(EDA)
※コードは下記のノートブックを参考してください。
https://www.kaggle.com/dschettler8845/tf-find-the-cots-eda-baseline
23501の画像データがあります。
3つのビデオは約1万枚の画像データです。
ただしAnnotationがない画像のほうが多いです。最大Annotationは18ボックスです。
Annotationと画像を表示します。
今回の記事はHelp Protect the Great Barrier Reefのコンペを紹介しました。次回は、1位の解析手法を解説します。
kaggle1位の解析手法:Help Protect the Great Barrier Reef 【2 第2版】
担当者:KW
バンコクのタイ出身 データサイエンティスト
製造、マーケティング、財務、AI研究などの様々な業界にPSI生産管理、在庫予測・最適化分析、顧客ロイヤルティ分析、センチメント分析、SaaS、PaaS、IaaS、AI at the Edge の環境構築などのスペシャリスト