目次
1. 背景と目的
2. スケジュール
3. 評価方法
4. 賞金
5. データ
6. ランキング
関連記事:KDDCUP 2020 Debiasing 1位の解析手法
1. 背景と目的
KDD Cupはデータマイニングの国際学術会議であるKDDで開催されている、1997年からの歴史がある世界最高峰のデータ分析コンペです。コンテストは、ビジネス界と学術界の両方に開かれています。 世界のデータマイニング業界のトップエキスパート、学者、エンジニア、学生が参加し、データマイニングの実践者が学術知識を交換して研究結果を表示するためのプラットフォームを提供します。
KDDカップ2020には、次の4つのトラックがあります。
トラック1:通常の機械学習コンペティショントラック(MLトラック1)「最新のEコマースプラットフォームへの挑戦」(#ML1)
トラック2:通常の機械学習コンペティショントラック(MLトラック2)「敵対的な攻撃と防御 アカデミックグラフ」(#ML2)
トラック3:自動機械学習コンペティショントラック(AutoMLトラック)「AutoMLfor Graph表現学習」(#AutoML)
トラック4:強化学習競争
今回はトラック1のEコマースのレコメンドシステムのコンペを紹介します。
2. スケジュール
登録日: 30th March, 2020
提出用ファイルの提出期限: 11th June, 2020
3. 評価方法
NDCG@50 (Normalized Discounted cumulative gain)
DCG @ 50_ Full:従来のレコメンデーションシステムの評価指標ndcgと一致して、各ユーザーリクエストによって推奨された最初の50項目の平均ランキング効果が、フル評価セットと呼ばれる評価データセット全体で評価されます。
NDCG @ 50_ Half:偏差の問題に焦点を当て、完全な評価データセット全体から過去の露出が少ないクリック商品の半分を取得し、これらの商品の推奨リストに対してndcgインデックス評価を実施します。 この評価セットは、半評価セットと呼ばれます。
最初に合格したスコアNDCG@50_ Fullは、チームの上位10%を選択し、これらのチームNDCG @ 50_ Halfでそれらを使用して、最終的なランキングを作成します。
NDCGはDCGの正規化した値です.
予測ランキングを用いて得られたDCGを,真の正しいランキングを用いて得られるDCGで割ることで正規化します.
NDCGの定義:
reliはランキング中のi番目の要素の適合度(レイティング)を表します.kは評価に用いる要素数を表します。RELpは50にします。
4. 賞金
賞金総額: $17,5000
1位: $8,000
2位: $4,000
3位: $2,000
4~10位: $500
5. データ
データは10日以上から収集され、販売キャンペーンが含まれています。 これには、100万回以上のクリック、10万件のアイテム、3万人のユーザーが含まれます。 データセットの合計サイズは約500MBです。
CSVファイルの列は次のとおりです。
• item_id:アイテムのID
• txt_vec:アイテムのテキスト機能。これは、事前にトレーニングされたモデルによって生成された128次元の実数値ベクトルです。
• img_vec:アイテムの画像特徴。これは、事前にトレーニングされたモデルによって生成された128次元の実数値ベクトルです。
• user_id:ユーザーのID
• time:クリックイベントが発生したときのタイムスタンプ、つまり(unix_timestamp –random_number_1)/ random_number_2
• user_age_level:ユーザーの年齢層
• user_gender:ユーザーの性別
• user_city_level:ユーザーの都市
ファイルの構成:
|– data
|– underexpose_train
|– underexpose_user_feat.csv
|– underexpose_item_feat.csv
|– underexpose_train_click-0.csv
|– underexpose_train_click-1.csv
|– …
|– underexpose_train_click-9.csv
|– underexpose_test
|– underexpose_test_click-0
|– underexpose_test_qtime-0.csv
|– underexpose_test_click-0.csv
|– underexpose_test_click-1
|– underexpose_test_qtime-1.csv
|– underexpose_test_click-1.csv
|– …
|– underexpose_test_click-9
|– underexpose_test_qtime-9.csv
|– underexpose_test_click-9.csv
|– user_data
|– model_data
|– model.dat
|– tmp_data
|– tmp.dat
|– prediction_result
|– result.csv
project
|–README.md
|–data
|–user_data
|– model_data
|– model.dat
|–prediction_result
|–code
|– main.py or main.sh
6. ランキング
2020年の結果
関連記事:KDDCUP 2020 Debiasing 1位の解析手法
担当者:KW
バンコクのタイ出身 データサイエンティスト
製造、マーケティング、財務、AI研究などの様々な業界にPSI生産管理、在庫予測・最適化分析、顧客ロイヤルティ分析、センチメント分析、SaaS、PaaS、IaaS、AI at the Edge の環境構築などのスペシャリスト