Python

LightGBMの解説

関連記事: 決定木分析、ランダムフォレスト、Xgboost、CatBoost 「勾配ブースティング」の開発は順調に進んでいます。 勾配ブースティングは、Kaggleで上位ランキングを取った半数以上もの勝者が勾配ブースティングを利用しました。 この記事では、Microsoft開発の「勾配ブースティング」のlightGBMを解説します。 目次 1. LightGBMとは 2. LightGBMの特徴 3. LightGBMのパラメーター 4. 実験・コード __4.1 データ読み込み __4.2 xgb __4.3 lightgb __4.4 モデル評価 1. LightGBMとは LightGBM(読み:ライト・ジービーエム)決定木アルゴリズムに基づいた勾配ブースティング(Gradient Boosting)の機械学習フレームワークです。LightGBMは米マイクロソフト社2016年にリリースされました。前述した通り勾配ブースティングは複数の弱学習器(LightGBMの場合は決定木)を一つにまとめるアンサンブル学習の「ブースティング」を用いた手法です。 LightGBMは大規模なデータセットに対して計算コストを極力抑える工夫が施されています。この工夫により、多くのケースで他の機械学習手法と比較しても短時間でモデル訓練が行えます。 LightGBMはこの「Leaf-wise」という手法を採用しています。従来の「Level-wise」に比べてLightGBMが採用している「Leaf-wise」は訓練時間が短くなる傾向にあります。 2. LightGBMの特徴 モデル訓練に掛かる時間が短い メモリ効率が高い Leaf-Wiseのため推測精度が高い。 LightGBMは大規模データに適している手法 3. LightGBMのパラメーター ・booster [default=gbtree] モデルのタイプを選択: gbtree: ツリーベースのモデル gblinear: 線形モデル ・silent [default=0]: メッセージのモード:1=メッセージを表示しない  0 = メッセージを表示する ・nthread [デフォルトで利用可能なスレッドの最大数] スレッド数の設定 ・eta [default=0.3 GBMのlearning rate 各ステップの重みを縮小することにより、モデルをより堅牢にする …

LightGBMの解説 Read More »

ホールドアウト検証と交差検証

機械学習における「validation」は、一般的に「モデルの汎化性能の検証」を意味します。汎化性能とは「未知のデータに対する性能」のことです。今回はホールドアウト検証 (Hold-out Validation)と交差検証(Cross Validation)を解説します。 目次 1. ホールドアウト検証 (Hold-out Validation) 2. 交差検証 (Cross Validation) 3, train_test_split クラスAPI 4. cross_val_scoreクラスAPI 5. 実験・コード __5.1 ホールドアウト検証 __5.2 交差検証   1. ホールドアウト検証 (Hold-out Validation) ホールドアウト法は、モデルを作る学習データ (Train Data)と、モデルを評価するテストデータ(Test Data)に分割して評価します。モデルは未知のデータを予測しなければならないからです。学習データでテストしても、モデルの汎化能力は評価できません。下記のようなデータセットでスコアを計算します。   2. 交差検証 (Cross Validation) 交差検定では、用意したデータをK個に分割して、1回目はそのうちの一つをテストデータ、それ以外を学習データとして、学習・評価します。2回目は1回目と異なる別のデータをテストデータとして使い、3回目は1,2回目と異なるデータで評価をします。そして、各回で測定した精度の平均を取ります。下記のようなデータセットで平均スコアを計算します。 ホールドアウト検証の例よりも、更に汎用的に性能を確認できます。しかし、訓練とテストを K 回行うため、計算時間がかかります。 3, train_test_split クラスAPI sklearn.model_selection.train_test_split(*arrays, **options) 引数 – X_train: 学習用の特徴行列 – X_test: テスト用の特徴行列 – …

ホールドアウト検証と交差検証 Read More »

モデルの評価モジュールのsklearn.metrics

scikit-learnには、作成したモデルの評価を行うモジュールとしてsklearn.metricsが搭載されています。 今回はsklearn.metricsをまとめた話をしていきます。 https://scikit-learn.org/stable/modules/classes.html 目次 1. sklearn.metricsモジュール 2. モデル選択インターフェース 3. 分類のメトリック 4. 回帰のメトリック 5. マルチラベルランキングのメトリック 6. クラスタリングのメトリック 7. バイクラスタリングのメトリック 8. ペアワイズのメトリック   1. sklearn.metricsモジュール sklearn.metricsモジュールには、スコア関数、パフォーマンスメトリック、ペアワイズメトリック、および距離計算が含まれます。 2. モデル選択インターフェース metrics.check_scoring(estimator [、scoring、…])ユーザーオプションからスコアラーを決定します。 metrics.get_scorer(スコアリング)文字列からスコアラーを取得します。 metrics.make_scorer(score_func [、…])パフォーマンスメトリックまたは損失関数からスコアラーを作成します。 3. 分類のメトリック クラス分類 (Classification) を行った際の識別結果 (予測結果) の精度を評価するモジュールを実装します。 metrics.accuracy_score(y_true、y_pred [、…])精度分類スコアです。 metrics.auc(x、y [、reorder])trapezoidal ruleを使用したArea Under the Curve(AUC)。 metrics.average_precision_score(y_true、y_score)予測スコアから平均精度(AP) metrics.balanced_accuracy_score(y_true、y_pred)バランスの精度 metrics.brier_score_loss(y_true、y_prob [、…])ブライアースコア metrics.classification_report(y_true、y_pred)主な分類指標を示すテキストレポートを作成します。 metrics.cohen_kappa_score(y1、y2 [、labels、…])Cohen’s kappa:アノテーター間の合意を測定する統計指標です。 metrics.confusion_matrix(y_true、y_pred …

モデルの評価モジュールのsklearn.metrics Read More »

ランク学習の解説

今回の記事はPythonのsklearnでランク学習を解説します。 目次 1. ランク学習とは 2. ランク学習のアプローチ 1. ランク学習とは ランク学習は英語では ”Learning to rank” といってLTRの略称、または ”Machine-learned rankingといってMLRとよく省略されます。ランク学習は一般に教師あり、半教師あり、または強化学習を用いてランキング問題を解く方法です。たとえば、どこかの検索エンジンでキーワードを入力して、これらのウェブページをどういう順番で表示するのが良いのかを学習するのがランク学習になります。ランク学習を利用することで、検索エンジンではユーザーに見られる確率が高いページを上位に表示したり、ショッピングサイトではおすすめの商品を提示することができるようになります。 ランク学習機械学習と別の機械学習の違い – LTRの入力データはアイテムのリストです。LTRの目的は、これらのアイテムの最適な順序を見つけることです。 – LTRのアイテムが正確なスコアより、アイテム間の相対的な順序のほうが大切です。 2. ランク学習のアプローチ ポイントワイズアプローチ(Pointwise Approach) ポイントワイズアプローチの入力データには、各単一ドキュメントの特徴ベクトルが含まれています。 出力スペースには、個々のドキュメントの関連度が含まれます。 関連度の観点から、さまざまな種類の判断をグラウンドトゥルースラベルに変換できます。 ペアワイズアプローチ(Pairwise Approach) ペアワイズアプローチの入力データには、特徴ベクトルで表されるドキュメントのペアが含まれています。 出力スペースには、ドキュメントの各ペア間のペアワイズ設定({+ 1、-1}から値を取得)が含まれます。 さまざまな種類の判断は、ペアワイズ設定の観点からグラウンドトゥルースラベルに変換できます。 リストワイズアプローチ(Listwise Approach) リストワイズアプローチの入力データには、クエリに関連付けられたドキュメントのセットが含まれます。リスト方式の出力スペースには、ドキュメントのランク付けされたリスト(または順列)が含まれます。 ランク付けされたリストの観点から、さまざまな種類の判断をグラウンドトゥルースラベルに変換できます。 論文:”Learning to Rank for Information Retrieval”、Tie-Yan Liu of Microsoft Research Asia https://www.cda.cn/uploadfile/image/20151220/20151220115436_46293.pdf

PythonのJoblibで並列処理

前回の記事はPysparkの分散処理でビックデータ処理の時間を大きく短縮させる方法を解説しました。今回は複数のCPUコアで並列処理の高速に計算の方法を解説します。 目次 1. joblibの概要 __1.1 分散処理 並列処理の違い __1.2  joblib.Parallelの解説 2. 実験・コード __2.1 ライブラリーのインストール __2.2  環境情報を表示 __2.3. 普通のPythonの処理 __2.4.  Joblibの並列処理 __2.5. 結果比較(可視化) 3. まとめ 1. joblibの概要 1.1分散処理 並列処理の違い 並列(Parallel⁠):複数の計算機や複数の計算ユニットで構成される1つの自律的な処理です。1つの自律的なシステムであるため,当該処理系を構成する複数の計算機は,常に同一の状態を維持している必要があります。並列とは、計算速度を向上させるために同時に行うという物理的な概念です。 分散(Distributed⁠):複数の自律的なシステムをネットワークとおして連携する処理です。分散システム技術をレプリケーションと呼びます。クラスター構成を構築して、やるようなSpark等がこれに当てはまります。 この2つは、そもそも目的が違う概念です。並行というのは、世の中一般、同時進行するものごとをプログラムとして表現する際に用いる広い概念です。一方で並列というのは、主に計算速度を稼ぐために計算を同時に進めることを言います。 1.2 joblib.Parallelの解説 joblib.Parallel(n_jobs=None, backend=None, verbose=0, timeout=None, pre_dispatch=’2 * n_jobs’, batch_size=’auto’, temp_folder=None, max_nbytes=’1M’, mmap_mode=’r’, prefer=None, require=None) n_jobsはタスクを何分割するかという指定をする部分です。-1でコア数をマックスで使うように計らってくれます。 verboseは途中経過を表示する頻度を指定する引数で0~10の値です。0ではなにも表示せず、10で最頻になります。 backendで”threading”を選べばマルチスレッドで動作して、オーバーヘッドは減るがPythonのGILにより通常の処理中は並列処理できない(GILをリリースする部分だけが並列で動作できる=DBアクセスの待ちなどが大きいプログラムの場合のみ有効で小さい場合は速度低下の恐れもある)、デフォルトは”multiprocessing”のマルチプロセス動作です。 Timeout 完了する各タスクのタイムアウト制限です。タスクに時間がかかると、TimeOutErrorが発生します。 pre_dispatch 事前発送されるタスクのバッチの数。 batch_size 各ワーカーに一度にディスパッチする自動的のタスクの数。 temp_folder ワーカープロセスとメモリを共有するために大きな配列をマッピングするためにプールで使用されるフォルダーです。 …

PythonのJoblibで並列処理 Read More »

ハフ変換とLSDによる直線検出の比較

関連記事: 画像解析 前回の記事は「OpenCV + Pythonでの直線検出」を解説しました。今回はPythonでハフ変換(Hough)とLSDによる直線検出を比較します。 目次 1. ハフ変換(Hough Transform) 2. LSD (Line Segment Detector) 3. ハフとLSDの比較 4. 実験・コード __4.1 データロード __4.2 ライブラリのインストール __4.3. 直線検出 __4.4. 結果比較 1. ハフ変換とは ハフ変換 (Hough変換) は、画像処理で画像の特徴抽出法の一つです。現在広く用いられている変換法はRichard Duda及びPeter Hartが1972年に発明しました。ハフ変換の基本原理は点を通る直線は無限個存在し、それぞれが様々な方向を向きます。ハフ変換の目的は、それらの直線の中で、画像の「特徴点」を最も多く通るものを決定します。 直線の式は次のようになる: ハフ変換では画像空間からρ-θパラメータ空間への変換を行います。ある画像空間上に孤立点があり、点の座標が(x, y)である場合、パラメータ空間への変換を行うとどのような結果が得られるのか、考えることにします。 ρ : 座標(x, y)を通る直線に対し、原点から垂線を下ろしたときの長さ θ : 座標(x, y)を通る直線に対し、原点から垂線を下ろしたときにx軸となす角度 論文:Use of the Hough Transformation To. Detect Lines and Curves in Pictures …

ハフ変換とLSDによる直線検出の比較 Read More »

PythonでCatBoostの解説

関連記事: 決定木分析、ランダムフォレスト、Xgboost Kaggleなどのデータ分析競技といえば、XGBoost, Light GBM, CatBoost の決定木アルゴリズムをよく使われています。分類分析系と予測分析系の競技のKaggleの上位にランクされています。今回の記事はCatBoostの新しい決定木アルゴリズムを解説します。 目次 1. CatBoostとは 2. 実験・コード __2.1 データロード __2.2 10,000件くらいサンプルデータを作成 __2.3. XGBoost グリッドサーチで 81モデルから最適なパラメータを探索 __2.4 XGBoost 最適なパラメータのモデルを作成 __2.5. Light GBM グリッドサーチで 81モデルから最適なパラメータを探索 __2.6 Light GBM最適なパラメータのモデルを作成(Categorial Feature除く) __2.7 Light GBM最適なパラメータのモデルを作成(Categorial Feature含む) __2.8. CatBoost グリッドサーチで 81モデルから最適なパラメータを探索 __2.9 CatBoost 最適なパラメータのモデルを作成(Categorial Feature除く) __2.10 CatBoost 最適なパラメータのモデルを作成(Categorial Feature含む 3. モデル評価評価:学習時間 AUC 1. CatBoostとは CatBoostはCategory Boostingの略で、決定木ベースの勾配ブースティングに基づく機械学習ライブラリ。2017にYandex社からCatBoostが発表されました。 特徴: 1)回帰予測、分類の教師あり学習に対応 2)過学習を減らして、高い精度、学習速度を誇る 3)GPU、マルチGPUに対応 決定木ベースのアルゴリズムの歴史 CatBoostは、オーバーフィットを減らし、データセット全体をトレーニングに使用できるようにする、より効率的な戦略を使用します。 …

PythonでCatBoostの解説 Read More »

Python-OpenCVでのRGBからHSVに変換

画像解析一覧 画像解析では、画像の色空間を変換することは一般的な操作になります。OpenCVは150種類以上の色空間の変換を用意しているが,その中で最も広く使われている変換方法は、BGR からGrayに変換とBGRから HSVに変換であります。今回の記事はBGRから HSVに変換する方法を解説します。 目次 1. 色空間とは 1.1 RGB色空間モデル 1.2 HSV色空間モデル 2. RGBからHSVに変換の換算式 3. PythonのOpenCVコード:RGBからHSVに変換 3.1データロード 3.2 RGBの画像を可視化 3.3 HSVに変換 3.4 HSVの画像を可視化 1. 色空間とは 色空間(カラースペース)とは色を定量的に表現方法です。代表的な色空間にはRGBがあるが、これは、赤(Red)、緑(Green)、青(Blue)の光の3原色を利用した色空間であり、コンピュータのモニタへの出力や、アプリケーション上の色設定などでよく用いられます。他には、テレビで用いられているYCbCr/YPbPr、印刷分野で主流であるCMYKやDICなどがあります。 1.1 RGB色空間モデル コンピュータやテレビの映像表示に使われるディスプレイでは、色を区別する方法として RGB モデル(RGB model)が広く使われています。それに合わせて、Webサイトを制作する際に色を指定する場合にも RGB にもとづく色表記が使われます。赤(red)、緑(green)、青(blue)の 3 つであり、これらを総称して原色(primary colors)と呼びます。それぞれの要素の明度を最小の 0 から最大の 255 の間に置きます。すべての原色が混ざると白(white)になります。他方で、すべての原色が欠けると黒(black)になります。 1.2 HSV色空間モデル HSV モデル(HSV model)とは、色相(hue)・明度(lightness)・彩度(saturation)の 3 つの基準から色を分類するモデルです。HSV モデルにおいて使われる 3 つの基準を総称して色の三属性(three attributes of color)と呼びます。HSV モデルは人間が色を知覚する方法と似ていることからデザイナーの間で広く使われています。 …

Python-OpenCVでのRGBからHSVに変換 Read More »

DBSCANクラスタリングの解説と実験

前回の記事は密度ベースクラスタリングのOPTICSクラスタリングを解説しました。 今回の記事はもう一つの密度ベースクラスタリングのDBSCANクラスタリングを解説と実験します。 目次: 1.DBSCANとは 2.Sci-kit LearnのDBSCAN 3.コード・実験 (K-Mean++ vs DBSCAN) 4.まとめ DBSCANとは DBSCAN (Density-based spatial clustering of applications with noise ) は、1996 年に Martin Ester, Hans-Peter Kriegel, Jörg Sander および Xiaowei Xu によって提案された密度準拠クラスタリングのアルゴリズムです。半径以内に点がいくつあるかでその領域をクラスタとして判断します。近傍の密度がある閾値を超えている限り,クラスタを成長させ続けます。半径以内に近く点がない点はノイズになります。 長所 1)k-meansと違って,最初にクラスタ数を決めなくてもクラスターを作成できます。 2)とがったクラスターでも分類できます。クラスターが球状であることを前提としない。 3)近傍の密度でクラスターを判断します。 短所 1)border点の概念が微妙で,データによりどのクラスタに属するか変わる可能性があります。 2)データがわからないとパラメータを決めるのが難しいです。 DBSCANの計算プロセスの例1 DBSCANのアルゴリズムは半径以内に確認します。半径以内に3個以上の点があれば、グループを成長させ続けます。左の2列は2点しかないなので、グループに属しません。また、一番下の行は半径以外なので、グループに属しません。 DBSCANの計算プロセスの例2 以上の例と同じ、DBSCANは半径以内に確認して、グループに属するかどうか判断します。最初は上からと下からでグループを確認します。上の確認は半径以外になると、途中に止まりました。このようにDBSCANのアルゴリズムはすべての点はグループを確認します。   DBSCANの論文: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases …

DBSCANクラスタリングの解説と実験 Read More »

Statsmodelsでの回帰分析

前回の記事は線形回帰を解説しました。 回帰分析の説明はこの記事を参考してください。 線形回帰 回帰分析を行うとき、 Scikit-learn と Statsmodelsのライブラリをよく使います。前回はScikit-learnで回帰分析を行いました。今回はScikit-learnとStatsmodelsのライブラリを比較して、回帰分析を解説・実験します。 目次: 1. ライブラリ 1.1 Scikit-learnの回帰分析 1.2 Statsmodelsの回帰分析 2. コード・実験 2.1 データ準備 2.2 Sklearnの回帰分析 2.3 Statsmodelsの回帰分析 2.4 結果の説明 3. Partial Regression Plots 4.まとめ 1.ライブラリ 1.1 Scikit-learnの回帰分析 sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None) パラメータ設定: fit_intercept : boolean, optional, default True: False に設定すると切片を求める計算を含めません。 normalize : boolean, optional, default False: True に設定すると、説明変数を事前に正規化します。 copy_X : …

Statsmodelsでの回帰分析 Read More »