kaggle

kaggle1位の解析手法 「メルカリにおける値段推定」2.可視化

< kaggle1位の解析手法 「メルカリにおける値段推定」1.データ概要 > kaggle1位の解析手法 「メルカリにおける値段推定」3. 1位の手法 前回は過去kaggleコンペでメルカリが「メルカリにおける値段推定」(Mercari Price Suggestion Challenge)のデータ概要を解説します。今回はデータ可視化を解説したいと思います。 2. Kaggleメルカリのデータ ___2.1 データの概要 ___2.2 データ可視化 ___2.3 データの前処理 2. Kaggleメルカリのデータ データは2stageになります。2stageコンペでは、配布されたテストデータの全量がpublic LB用の評価データ(stage 1)、競技者には非公開のテストデータがprivate LB用の評価データ(stage 2)となります。 では、データを確認しましょう。 train = pd.read_csv(f'{PATH}train.tsv’, sep=’\t’) test = pd.read_csv(f'{PATH}test.tsv’, sep=’\t’) print(train.shape) print(test.shape) (1482535, 8) (693359, 7) train.head() 目的変数: Price train.price.describe() count 1.482535e+06 mean 2.673752e+01 std 3.858607e+01 min 0.000000e+00 25% 1.000000e+01 50% 1.700000e+01 75% 2.900000e+01 …

kaggle1位の解析手法 「メルカリにおける値段推定」2.可視化 Read More »

kaggle1位の解析手法 「メルカリにおける値段推定」1.データ概要

過去kaggleコンペでメルカリが「メルカリにおける値段推定」(Mercari Price Suggestion Challenge)を開催されました。今回の記事はkaggle1位の解析手法をまとめたいと思います。データ概要、可視化、1位の手法の3つの記事を分けています。今回はデータ概要を解説します。 目次 1. Kaggleメルカリコンペの概要 ___1.1 コンペの概要 ___1.2 コンペの目的 ___1.3 コンペのルール   1. Kaggleメルカリコンペの概要 1.1 コンペの概要 Kaggleでメルカリコンペは株式会社メルカリが主催した、商品の適正な販売価格予測コンペです。訓練データとして、ユーザーが投稿した商品情報、商品の状態、ブランド名などデータによって、販売価格を予測するモデル作成が課題です。テーブルデータですが文章データも含まれているためNLPの知識が必要になります。kernel only コンペなので実験環境と実行時間に制限があります。   1.2 コンペの目的 目的:フリマアプリ「メルカリ」は、誰でも簡単に売買ができるフリマアプリで、出品時に売り手が商品の価格設定をする必要があります。価格を相場以上にすると売れませんし、相場以下にすると損をしてしまいます。適正な販売価格と設定のために、相場を調べておけば解決できますが、手間がかかります。そのため、販売者が投稿した情報を基に「適正な販売価格」を予測するシステムを目的とします。   1.3 コンペのルール 賞金: 1位60,000米ドル、2位30,000米ドル、3位10,000米ドル 期間: 2017/11/22 ~ 2018/02/22 参加チーム数:2,382 環境:kernel only kernelの環境は 4cores / 16GB RAM / 1GB disk / GPUなし で計算時間を60分未満です。 評価:RMLSE Root Mean Squared Logarithmic Error 定義は RMLSEスコアが低ければ低いほど、小さい誤差で値段を推定できます。 詳細:https://www.kaggle.com/c/mercari-price-suggestion-challenge/overview > kaggle1位の解析手法 「メルカリにおける値段推定」2.可視化