Python – Page 2 – S-Analysis

Python-OpenCVでのRGBからHSVに変換

画像解析一覧画像解析では、画像の色空間を変換することは一般的な操作になります。OpenCVは150種類以上の色空間の変換を用意しているが，その中で最も広く使われている変換方法は、BGR からGrayに変換とBGRから HSVに変換であります。今回の記事はBGRから HSVに変換する方法を解説します。目次 1. 色空間とは 1.1 RGB色空間モデル 1.2 HSV色空間モデル 2. RGBからHSVに変換の換算式 3. PythonのOpenCVコード：RGBからHSVに変換 3.1データロード 3.2 RGBの画像を可視化 3.3 HSVに変換 3.4 HSVの画像を可視化 1. 色空間とは色空間(カラースペース)とは色を定量的に表現方法です。代表的な色空間にはRGBがあるが、これは、赤（Red）、緑（Green）、青（Blue）の光の3原色を利用した色空間であり、コンピュータのモニタへの出力や、アプリケーション上の色設定などでよく用いられます。他には、テレビで用いられているYCbCr/YPbPr、印刷分野で主流であるCMYKやDICなどがあります。 1.1 RGB色空間モデルコンピュータやテレビの映像表示に使われるディスプレイでは、色を区別する方法として RGB モデル（RGB model）が広く使われています。それに合わせて、Webサイトを制作する際に色を指定する場合にも RGB にもとづく色表記が使われます。赤（red）、緑（green）、青（blue）の 3 つであり、これらを総称して原色（primary colors）と呼びます。それぞれの要素の明度を最小の 0 から最大の 255 の間に置きます。すべての原色が混ざると白（white）になります。他方で、すべての原色が欠けると黒（black）になります。 1.2 HSV色空間モデル HSV モデル（HSV model）とは、色相（hue）・明度（lightness）・彩度（saturation）の 3 つの基準から色を分類するモデルです。HSV モデルにおいて使われる 3 つの基準を総称して色の三属性（three attributes of color）と呼びます。HSV モデルは人間が色を知覚する方法と似ていることからデザイナーの間で広く使われています。 …

Python-OpenCVでのRGBからHSVに変換 Read More »

DBSCANクラスタリングの解説と実験

Python, 全て, 機械学習

前回の記事は密度ベースクラスタリングのOPTICSクラスタリングを解説しました。今回の記事はもう一つの密度ベースクラスタリングのDBSCANクラスタリングを解説と実験します。目次：１．DBSCANとは２．Sci-kit LearnのDBSCAN ３．コード・実験　(K-Mean++ vs DBSCAN) ４．まとめ DBSCANとは DBSCAN (Density-based spatial clustering of applications with noise ) は、1996 年に Martin Ester, Hans-Peter Kriegel, Jörg Sander および Xiaowei Xu によって提案された密度準拠クラスタリングのアルゴリズムです。半径以内に点がいくつあるかでその領域をクラスタとして判断します。近傍の密度がある閾値を超えている限り，クラスタを成長させ続けます。半径以内に近く点がない点はノイズになります。長所１）k-meansと違って，最初にクラスタ数を決めなくてもクラスターを作成できます。２）とがったクラスターでも分類できます。クラスターが球状であることを前提としない。３）近傍の密度でクラスターを判断します。短所１）border点の概念が微妙で，データによりどのクラスタに属するか変わる可能性があります。２）データがわからないとパラメータを決めるのが難しいです。 DBSCANの計算プロセスの例１ DBSCANのアルゴリズムは半径以内に確認します。半径以内に３個以上の点があれば、グループを成長させ続けます。左の2列は２点しかないなので、グループに属しません。また、一番下の行は半径以外なので、グループに属しません。 DBSCANの計算プロセスの例２以上の例と同じ、DBSCANは半径以内に確認して、グループに属するかどうか判断します。最初は上からと下からでグループを確認します。上の確認は半径以外になると、途中に止まりました。このようにDBSCANのアルゴリズムはすべての点はグループを確認します。 DBSCANの論文： A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases …

DBSCANクラスタリングの解説と実験 Read More »

Statsmodelsでの回帰分析

Python, 全て, 機械学習

前回の記事は線形回帰を解説しました。回帰分析の説明はこの記事を参考してください。線形回帰回帰分析を行うとき、 Scikit-learn と Statsmodelsのライブラリをよく使います。前回はScikit-learnで回帰分析を行いました。今回はScikit-learnとStatsmodelsのライブラリを比較して、回帰分析を解説・実験します。目次： 1. ライブラリ 1.1 Scikit-learnの回帰分析 1.2 Statsmodelsの回帰分析 2. コード・実験 2.1 データ準備 2.2 Sklearnの回帰分析 2.3 Statsmodelsの回帰分析 2.4 結果の説明 3. Partial Regression Plots 4．まとめ１．ライブラリ 1.1 Scikit-learnの回帰分析 sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None) パラメータ設定： fit_intercept : boolean, optional, default True: False に設定すると切片を求める計算を含めません。 normalize : boolean, optional, default False: True に設定すると、説明変数を事前に正規化します。 copy_X : …

Statsmodelsでの回帰分析 Read More »

高度な活性化関数PReLU

Python, 全て, 深属学習

今回は高度な活性化関数のPReLUについて解説と実験します。目次：１．PReLUとは２．KerasのPReLU ３．コード・実験　(ReLU vs PReLU) ４．まとめ PReLUとは PReLU は、Parametric Rectified Linear Unitの略称で、ReLUと似ていますが、負のアウトプットがあります。インプットが閾値よりも少ない度合に応じて、負の値を出力するようになっています。特に深い階層において過学習を防ぐ効果があると言われています。プラスとマイナスのどちらにも勾配があるため、学習効率が良いと言われているようです。 f(x) = alphas * x for x < 0 alphasはxと同じ行列を持つ学習対象の配列です。 PreLUの論文：Microsoft Research Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification https://arxiv.org/abs/1502.01852 ２．Kerasの高度な活性化関数のPReLU keras.layers.PReLU(alpha_initializer=’zeros’, alpha_regularizer=None, alpha_constraint=None, shared_axes=None) alpha_initializer：重みを初期化する関数。 alpha_regularizer：重みを正則化する関数。 alpha_constraint：重みに対する制約。 shared_axes：活性化関数で共有する学習パラメータの軸。出力のshapeは入力のshapeと同じです。３．コード・実験　(ReLU vs PReLU) 概要：データセット：MNIST 60,000の学習データと10,000のテストデータ（28 x …

高度な活性化関数PReLU Read More »

クラスタリングのアルゴリズム評価するFMI( Fowlkes-Mallows Index)

Python, 全て, 機械学習

前回の記事はアルゴリズム評価を解説しました。今回はクラスタリングのアルゴリズム評価するFMIを解説します。 FMI (Fowlkes-Mallows index）とは The Fowlkes-Mallows 指標　または、Fowlkes-Mallows スコアはクラスタリングのアルゴリズム評価する方法です。2つのクラスタリングアルゴリズムの結果間の類似性を判断するために使用されるこの方法。さらに、クラスタリングアルゴリズムの結果と実際のラベルも使われます。FMIの形式は下記になります。 TPは真陽性の数です。つまり、真のラベルと予測ラベルの両方で同じクラスターに属するポイントの数です。 FPはFalse Positiveの数です。予測ラベルではなく、真のラベルの同じクラスターに属するポイントの数です。 FNはFalse Negativeの数です。真のラベルではなく、予測ラベルの同じクラスター内です。スコアの範囲は0〜1です。高い値は、2つのクラスター間の類似性が高いと示します。今回は、ラベルがあるクラスタリング方法の評価をしていきます。 FMIのサンプルデータセット：digitデータ　8×8の画像が1797枚（0〜9のラベル）クラスターアルゴリズム： K-Means, MeanShift モデル評価：FMI (Fowlkes-Mallows index）ライブラリの読み込む import numpy as np import pandas as pd import os import seaborn as sns import matplotlib.pyplot as plt from tqdm import tqdm_notebook from sklearn import datasets from sklearn.cluster import KMeans …

クラスタリングのアルゴリズム評価するFMI( Fowlkes-Mallows Index) Read More »

密度ベースのOPTICSクラスター

Python, 全て, 機械学習

前回の記事はk-means++, x-meansなどのクラスター分析を解説しました。今回は密度ベースのOPTICSクラスターを解説します。 OPTICSクラスターとは OPTICS (Ordering Points To Identify the Clustering Structure)は密度ベースのクラスター分析(Density-based Clustering)の手法の一つです。ポイントが集中しているエリアおよび空または疎なエリアによって分離されているエリアを検出します。このアルゴリズムは、空間位置および指定された近傍数までの距離のみに基づいてパターンを自動的に検出します。DBSCANと似ているアルゴリズムになります。そのためクラスター数を決める必要がないアルゴリスムになります。 DBSCAN と OPTICSの検索距離 DBSCAN では、３つの点が存在しています。クラスターの中心、クラスターから到達できるもの、そしてノイズになります。特定のポイントからの検索距離の範囲内でクラスター内にない場合は、そのポイントにはノイズとして他のクラスターだとマークが付けられます。そのためクラスタリングといいつつ外れているものも検出することになります。 OPTICS の場合、検索距離は中心距離と比較される最大距離として扱われます。マルチスケール OPTICS は、最大到達可能性距離の概念を使用します。この距離は、あるポイントから、検索によってまだ訪問されていない最も近いポイントまでの距離です。 sklearn.cluster.cluster_optics_dbscanでOPTICSクラスターを作成します。scikit-learn 0.21.3が必要です。 pip install -U scikit-learn ライブラリのロード %matplotlib inline from sklearn.cluster import OPTICS, cluster_optics_dbscan import matplotlib.gridspec as gridspec import matplotlib.pyplot as plt import numpy as np サンプルを作成 np.random.seed(0) n_points_per_cluster = 250 C1 …

密度ベースのOPTICSクラスター Read More »

Pythonの正規表現【まとめと例】

Python, 全て

今回の記事は正規表現と例についてをまとめします。正規表現とは文字列の集合を一つの文字列で表現する方法です。英語では、“regular expressions”（REs や regexes または regex patterns）と呼ばれています。文字列からe-mailや電話番号の検索、抽出、置換ができます。正規表現で使用する特殊文字正規表現は、いくつかの特別な文字“メタ文字”によって表現されます。例えば、「$」には、文字列の末尾という意味合いがあります。メタ文字メタ文字説明指定例合致する合致しない . 改行以外の任意の一文字 a.c abc ac abbc ^ 文字列の先頭 ^ab abc zab $ 文字列の末尾 ab$ zab abc * 直前の文字の0回以上の繰り返し ab* a ab abb aa ac + 直前の文字の1回以上の繰り返し ab+ ab abb a ? 直前の文字の0回または1回 ab? a ab abb …

Pythonの正規表現【まとめと例】 Read More »

スペクトラルクラスタリングのパラメータ解説

Python, 全て, 機械学習

以前の記事はスペクトラルクラスタリングについて説明しました。スペクトラルクラスタリングとは、クラスタリングの機械学習の方法のうち、教師なし学習に分類されます。スペクトラルクラスタリングの詳細はこちらです。今回の記事はスペクトラルクラスタリングのパラメータ設定を説明します。 Scikit-learnのライブラリのパラメータを説明していきます。 class sklearn.cluster.SpectralClustering(n_clusters=8, eigen_solver=None, random_state=None, n_init=10, gamma=1.0, affinity=’rbf’, n_neighbors=10, eigen_tol=0.0, assign_labels=’kmeans’, degree=3, coef0=1, kernel_params=None, n_jobs=None) 先ず、スペクトラルクラスタリングの例を作成します。 from sklearn import datasets # データ作成 X,z = datasets.make_blobs(n_samples=5000, n_features=2, centers=15, cluster_std=1.2, center_box=(-10.0, 10.0), shuffle=True, random_state=111 ) # データの整形 sc=preprocessing.StandardScaler() sc.fit(X) X_norm=sc.transform(X) …

スペクトラルクラスタリングのパラメータ解説 Read More »

決定木分析のパラメータ解説

Python, 全て, 機械学習

前回の記事は決定木の特徴とアルゴリズムを説明しました。今回の記事は決定木のパラメータ設定を説明します。決定木の紹介はこちらです。 Scikit-learnのライブラリのパラメータを説明していきます。 class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)[source] from sklearn.datasets import load_iris from sklearn import tree clf = tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=4, min_samples_split=3, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=4, random_state=None, max_leaf_nodes=8, min_impurity_split=1e-07, class_weight=’balanced’, presort=False) iris = load_iris() …

決定木分析のパラメータ解説 Read More »

Pythonトップライブラリ2018

Python, 全て, 機械学習, 深属学習

Pythonは、学習初期でも先人の作ったライブラリを利用することで、高速に開発が可能になります。 Pythonライブラリを管理する PyPi.org では、現在 100万以上のライブラリが公開され、現在も増加中です。前回の記事は2018年の大人気のライブラリを紹介します。年末でKdnuggetsがGithubの「星」と投稿者の人数とコメント数からトップ15のライブラリを発表しました。下記の図はGithubの「星」と投稿者の人数で表します。ては、ライブラリを軽いに紹介します。 1 – TensorFlow (投稿者 – 1757, コメント数 – 25756, 星 – 116765) Googleの機械学習/ディープラーニング/ネットワークライブラリです。柔軟なアーキテクチャにより、1つのAPIを使用してデスクトップ、サーバー、またはモバイルデバイスの1つ以上のCPUまたはGPUに計算を展開できます。またコードはやや書きにくいのが特徴になります。PyTorchおよびChainerの利点はDefine by Run（動的計算グラフ）と呼ばれる特徴です。Define by Runは入力データのサイズや次元数に合わせてニューラルネットワークの形や計算方法を変更することができます。 2 – pandas (投稿者 – 1360, コメント数 – 18441, 星 – 17388) 機械学習やディープラーニングの前処理のために、データの集計をするライブラリになります。数値や時系列のデータの操作や、データ構造をいじったりすることができます。また最近では、可視化も可能になってきています。 3 – scikit-learn (投稿者 – 1218, コメント数 – 23509, 星 – 32326) NumPy, SciPy や Matplotlib と互換性を持つように開発されてクラスタリングや回帰、分類器、次元圧縮、データの前処理をはじめとする、機械学習のアルゴリズムを幅広く実装しているライブラリです。 …

Pythonトップライブラリ2018 Read More »