分析ブログ Analysis blog – Page 14

kaggle1位の解析手法　「メルカリにおける値段推定」1.データ概要

過去kaggleコンペでメルカリが「メルカリにおける値段推定」（Mercari Price Suggestion Challenge）を開催されました。今回の記事はkaggle1位の解析手法をまとめたいと思います。データ概要、可視化、1位の手法の３つの記事を分けています。今回はデータ概要を解説します。目次 1. Kaggleメルカリコンペの概要 ___1.1 コンペの概要 ___1.2 コンペの目的 ___1.3 コンペのルール 1. Kaggleメルカリコンペの概要 1.1 コンペの概要 Kaggleでメルカリコンペは株式会社メルカリが主催した、商品の適正な販売価格予測コンペです。訓練データとして、ユーザーが投稿した商品情報、商品の状態、ブランド名などデータによって、販売価格を予測するモデル作成が課題です。テーブルデータですが文章データも含まれているためNLPの知識が必要になります。kernel only コンペなので実験環境と実行時間に制限があります。 1.2 コンペの目的目的：フリマアプリ「メルカリ」は、誰でも簡単に売買ができるフリマアプリで、出品時に売り手が商品の価格設定をする必要があります。価格を相場以上にすると売れませんし、相場以下にすると損をしてしまいます。適正な販売価格と設定のために、相場を調べておけば解決できますが、手間がかかります。そのため、販売者が投稿した情報を基に「適正な販売価格」を予測するシステムを目的とします。 1.3 コンペのルール賞金：　1位60,000米ドル、2位30,000米ドル、3位10,000米ドル期間：　2017/11/22 ~ 2018/02/22 参加チーム数：2,382 環境：kernel only kernelの環境は 4cores / 16GB RAM / 1GB disk / GPUなしで計算時間を60分未満です。評価：RMLSE　Root Mean Squared Logarithmic Error 定義は RMLSEスコアが低ければ低いほど、小さい誤差で値段を推定できます。詳細：https://www.kaggle.com/c/mercari-price-suggestion-challenge/overview ＞　kaggle1位の解析手法　「メルカリにおける値段推定」2.可視化

LightGBMの解説

Python, 全て

LightGBMの解説 – S-Analysis
PythonLibraryにおけるLightGBMとは、（ライト・ジービーエム）決定木アルゴリズムに基づいた勾配ブースティングの機械学習です。
LightGBMとは｜LightGBMの特徴｜LightGBMのパラメーター｜Pythonの実験

scikit-learnでのホールドアウト検証と交差検証

Python, 全て

交差検定では、用意したデータをK個に分割して、1回目はそのうちの一つをテストデータ、それ以外を学習データとして、学習・評価します。
ホールドアウト検証｜ K-分割交差検証｜ python実装

モデルの評価モジュールのsklearn.metrics

Python, 全て

scikit-learnには、作成したモデルの評価を行うモジュールとしてsklearn.metricsが搭載されています。今回はsklearn.metricsをまとめた話をしていきます。 https://scikit-learn.org/stable/modules/classes.html 目次 1. sklearn.metricsモジュール 2. モデル選択インターフェース 3. 分類のメトリック 4. 回帰のメトリック 5. マルチラベルランキングのメトリック 6. クラスタリングのメトリック 7. バイクラスタリングのメトリック 8. ペアワイズのメトリック 1. sklearn.metricsモジュール sklearn.metricsモジュールには、スコア関数、パフォーマンスメトリック、ペアワイズメトリック、および距離計算が含まれます。 2. モデル選択インターフェース metrics.check_scoring（estimator [、scoring、…]）ユーザーオプションからスコアラーを決定します。 metrics.get_scorer（スコアリング）文字列からスコアラーを取得します。 metrics.make_scorer（score_func [、…]）パフォーマンスメトリックまたは損失関数からスコアラーを作成します。 3. 分類のメトリッククラス分類 (Classification) を行った際の識別結果 (予測結果) の精度を評価するモジュールを実装します。 metrics.accuracy_score（y_true、y_pred [、…]）精度分類スコアです。 metrics.auc（x、y [、reorder]）trapezoidal ruleを使用したArea Under the Curve（AUC）。 metrics.average_precision_score（y_true、y_score）予測スコアから平均精度（AP） metrics.balanced_accuracy_score（y_true、y_pred）バランスの精度 metrics.brier_score_loss（y_true、y_prob [、…]）ブライアースコア metrics.classification_report（y_true、y_pred）主な分類指標を示すテキストレポートを作成します。 metrics.cohen_kappa_score（y1、y2 [、labels、…]）Cohen’s kappa：アノテーター間の合意を測定する統計指標です。 metrics.confusion_matrix（y_true、y_pred …

モデルの評価モジュールのsklearn.metrics Read More »

ランク学習の解説

Python, 全て, 機械学習

今回の記事はPythonのsklearnでランク学習を解説します。目次 1. ランク学習とは 2. ランク学習のアプローチ 1. ランク学習とはランク学習は英語では ”Learning to rank” といってLTRの略称、または　”Machine-learned rankingといってMLRとよく省略されます。ランク学習は一般に教師あり、半教師あり、または強化学習を用いてランキング問題を解く方法です。たとえば、どこかの検索エンジンでキーワードを入力して、これらのウェブページをどういう順番で表示するのが良いのかを学習するのがランク学習になります。ランク学習を利用することで、検索エンジンではユーザーに見られる確率が高いページを上位に表示したり、ショッピングサイトではおすすめの商品を提示することができるようになります。ランク学習機械学習と別の機械学習の違い – LTRの入力データはアイテムのリストです。LTRの目的は、これらのアイテムの最適な順序を見つけることです。 – LTRのアイテムが正確なスコアより、アイテム間の相対的な順序のほうが大切です。 2. ランク学習のアプローチポイントワイズアプローチ（Pointwise Approach）ポイントワイズアプローチの入力データには、各単一ドキュメントの特徴ベクトルが含まれています。出力スペースには、個々のドキュメントの関連度が含まれます。関連度の観点から、さまざまな種類の判断をグラウンドトゥルースラベルに変換できます。ペアワイズアプローチ（Pairwise Approach）ペアワイズアプローチの入力データには、特徴ベクトルで表されるドキュメントのペアが含まれています。出力スペースには、ドキュメントの各ペア間のペアワイズ設定（{+ 1、-1}から値を取得）が含まれます。さまざまな種類の判断は、ペアワイズ設定の観点からグラウンドトゥルースラベルに変換できます。リストワイズアプローチ（Listwise Approach）リストワイズアプローチの入力データには、クエリに関連付けられたドキュメントのセットが含まれます。リスト方式の出力スペースには、ドキュメントのランク付けされたリスト（または順列）が含まれます。ランク付けされたリストの観点から、さまざまな種類の判断をグラウンドトゥルースラベルに変換できます。論文：”Learning to Rank for Information Retrieval”、Tie-Yan Liu of Microsoft Research Asia https://www.cda.cn/uploadfile/image/20151220/20151220115436_46293.pdf

PythonのJoblibで並列処理

Python, 全て

前回の記事はPysparkの分散処理でビックデータ処理の時間を大きく短縮させる方法を解説しました。今回は複数のCPUコアで並列処理の高速に計算の方法を解説します。目次 1. joblibの概要＿＿1.1 分散処理並列処理の違い＿＿1.2 joblib.Parallelの解説 2. 実験・コード＿＿2.1 ライブラリーのインストール＿＿2.2 環境情報を表示＿＿2.3. 普通のPythonの処理＿＿2.4. Joblibの並列処理＿＿2.5. 結果比較（可視化） 3. まとめ 1. joblibの概要 1.1分散処理並列処理の違い並列（Parallel⁠）：複数の計算機や複数の計算ユニットで構成される1つの自律的な処理です。1つの自律的なシステムであるため，当該処理系を構成する複数の計算機は，常に同一の状態を維持している必要があります。並列とは、計算速度を向上させるために同時に行うという物理的な概念です。分散（Distributed⁠）：複数の自律的なシステムをネットワークとおして連携する処理です。分散システム技術をレプリケーションと呼びます。クラスター構成を構築して、やるようなSpark等がこれに当てはまります。この2つは、そもそも目的が違う概念です。並行というのは、世の中一般、同時進行するものごとをプログラムとして表現する際に用いる広い概念です。一方で並列というのは、主に計算速度を稼ぐために計算を同時に進めることを言います。 1.2 joblib.Parallelの解説 joblib.Parallel(n_jobs=None, backend=None, verbose=0, timeout=None, pre_dispatch=’2 * n_jobs’, batch_size=’auto’, temp_folder=None, max_nbytes=’1M’, mmap_mode=’r’, prefer=None, require=None) n_jobsはタスクを何分割するかという指定をする部分です。-1でコア数をマックスで使うように計らってくれます。 verboseは途中経過を表示する頻度を指定する引数で0~10の値です。0ではなにも表示せず、10で最頻になります。 backendで”threading”を選べばマルチスレッドで動作して、オーバーヘッドは減るがPythonのGILにより通常の処理中は並列処理できない（GILをリリースする部分だけが並列で動作できる＝DBアクセスの待ちなどが大きいプログラムの場合のみ有効で小さい場合は速度低下の恐れもある）、デフォルトは”multiprocessing”のマルチプロセス動作です。 Timeout 完了する各タスクのタイムアウト制限です。タスクに時間がかかると、TimeOutErrorが発生します。 pre_dispatch　事前発送されるタスクのバッチの数。 batch_size 各ワーカーに一度にディスパッチする自動的のタスクの数。 temp_folder ワーカープロセスとメモリを共有するために大きな配列をマッピングするためにプールで使用されるフォルダーです。 …

PythonのJoblibで並列処理 Read More »

PySparkでのk-meanクラスタリング

Spark, 全て, 機械学習

関係記事：クラスター数の決め方の１つシルエット分析、　k-means++ ビッグデータ処理や機械学習の場合は、巨大データの取り扱いを目的とした分散処理のフレームワークが必要です。特定のアプリケーションに関する実行性能はSpark MLです。今回の記事はSpark MLでk-meanのクラスタリングを解説します。目次 1. PySparkのクラスタリング 2. 実験・コード＿＿2.1 ライブラリーのインポート＿＿2.2 データ処理＿＿2.3. シルエットスコアの比較＿＿2.4. クラスタリングのモデルを作成＿＿2.5. 可視化 1. Spark MLのk-meanクラスタリング Spark MLはSparkの統計処理、機械学習を分散処理するライブラリです。k-meanはは最も一般的に使われる、事前に定義したクラスタ数までデータを群にする、クラスタリングアルゴリズムです。 spark.mlでのパラメータ： – k は要求するクラスタの数です。 – maxIterations は実行の繰り返しの最大数です。 – initializationMode はランダム初期化 – initializationSteps は k-meansアルゴリズム内でのステップ数を決定します。 – epsilon はk-meansが収束したと見なす距離の閾値を決定します。 – initialModel は初期化に使用されるクラスタの中心点の任意のセットです。 2. 実験・コード概要データセット：　UCI機械学習リポジトリの白ワインの属性環境：　Databricks Runtime Version: 6.0 ML (includes …

PySparkでのk-meanクラスタリング Read More »

ハフ変換とLSDによる直線検出の比較

Python, 全て, 機械学習

関連記事：　画像解析前回の記事は「OpenCV + Pythonでの直線検出」を解説しました。今回はPythonでハフ変換（Hough）とLSDによる直線検出を比較します。目次 1. ハフ変換（Hough Transform） 2. LSD (Line Segment Detector) 3. ハフとLSDの比較 4. 実験・コード＿＿4.1 データロード＿＿4.2 ライブラリのインストール＿＿4.3. 直線検出＿＿4.4. 結果比較 1. ハフ変換とはハフ変換 (Hough変換) は、画像処理で画像の特徴抽出法の一つです。現在広く用いられている変換法はRichard Duda及びPeter Hartが1972年に発明しました。ハフ変換の基本原理は点を通る直線は無限個存在し、それぞれが様々な方向を向きます。ハフ変換の目的は、それらの直線の中で、画像の「特徴点」を最も多く通るものを決定します。直線の式は次のようになる: ハフ変換では画像空間からρ-θパラメータ空間への変換を行います。ある画像空間上に孤立点があり、点の座標が(x, y)である場合、パラメータ空間への変換を行うとどのような結果が得られるのか、考えることにします。 ρ : 座標(x, y)を通る直線に対し、原点から垂線を下ろしたときの長さ θ : 座標(x, y)を通る直線に対し、原点から垂線を下ろしたときにx軸となす角度論文：Use of the Hough Transformation To. Detect Lines and Curves in Pictures …

ハフ変換とLSDによる直線検出の比較 Read More »

PythonでCatBoostの解説

Python, 全て, 機械学習

関連記事：　決定木分析、ランダムフォレスト、Xgboost Kaggleなどのデータ分析競技といえば、XGBoost, Light GBM, CatBoost の決定木アルゴリズムをよく使われています。分類分析系と予測分析系の競技のKaggleの上位にランクされています。今回の記事はCatBoostの新しい決定木アルゴリズムを解説します。目次 1. CatBoostとは 2. 実験・コード＿＿2.1 データロード＿＿2.2 10,000件くらいサンプルデータを作成＿＿2.3. XGBoost グリッドサーチで 81モデルから最適なパラメータを探索＿＿2.4 XGBoost　最適なパラメータのモデルを作成＿＿2.5. Light GBM グリッドサーチで 81モデルから最適なパラメータを探索＿＿2.6 Light GBM最適なパラメータのモデルを作成（Categorial Feature除く）＿＿2.7 Light GBM最適なパラメータのモデルを作成（Categorial Feature含む）＿＿2.8. CatBoost グリッドサーチで 81モデルから最適なパラメータを探索＿＿2.9 CatBoost　最適なパラメータのモデルを作成（Categorial Feature除く）＿＿2.10 CatBoost　最適なパラメータのモデルを作成（Categorial Feature含む 3. モデル評価評価：学習時間　AUC 1. CatBoostとは CatBoostはCategory　Boostingの略で、決定木ベースの勾配ブースティングに基づく機械学習ライブラリ。2017にYandex社からCatBoostが発表されました。特徴：１）回帰予測、分類の教師あり学習に対応２）過学習を減らして、高い精度、学習速度を誇る３）GPU、マルチGPUに対応決定木ベースのアルゴリズムの歴史 CatBoostは、オーバーフィットを減らし、データセット全体をトレーニングに使用できるようにする、より効率的な戦略を使用します。 …

PythonでCatBoostの解説 Read More »

Python-OpenCVでのRGBからHSVに変換

Python, 全て, 機械学習

画像解析一覧画像解析では、画像の色空間を変換することは一般的な操作になります。OpenCVは150種類以上の色空間の変換を用意しているが，その中で最も広く使われている変換方法は、BGR からGrayに変換とBGRから HSVに変換であります。今回の記事はBGRから HSVに変換する方法を解説します。目次 1. 色空間とは 1.1 RGB色空間モデル 1.2 HSV色空間モデル 2. RGBからHSVに変換の換算式 3. PythonのOpenCVコード：RGBからHSVに変換 3.1データロード 3.2 RGBの画像を可視化 3.3 HSVに変換 3.4 HSVの画像を可視化 1. 色空間とは色空間(カラースペース)とは色を定量的に表現方法です。代表的な色空間にはRGBがあるが、これは、赤（Red）、緑（Green）、青（Blue）の光の3原色を利用した色空間であり、コンピュータのモニタへの出力や、アプリケーション上の色設定などでよく用いられます。他には、テレビで用いられているYCbCr/YPbPr、印刷分野で主流であるCMYKやDICなどがあります。 1.1 RGB色空間モデルコンピュータやテレビの映像表示に使われるディスプレイでは、色を区別する方法として RGB モデル（RGB model）が広く使われています。それに合わせて、Webサイトを制作する際に色を指定する場合にも RGB にもとづく色表記が使われます。赤（red）、緑（green）、青（blue）の 3 つであり、これらを総称して原色（primary colors）と呼びます。それぞれの要素の明度を最小の 0 から最大の 255 の間に置きます。すべての原色が混ざると白（white）になります。他方で、すべての原色が欠けると黒（black）になります。 1.2 HSV色空間モデル HSV モデル（HSV model）とは、色相（hue）・明度（lightness）・彩度（saturation）の 3 つの基準から色を分類するモデルです。HSV モデルにおいて使われる 3 つの基準を総称して色の三属性（three attributes of color）と呼びます。HSV モデルは人間が色を知覚する方法と似ていることからデザイナーの間で広く使われています。 …

Python-OpenCVでのRGBからHSVに変換 Read More »