可視化

PySparkでの相関行列と可視化(ヒートマップ表)

PySparkのデータ処理一覧 データの2つの系列間の相関関係は統計では一般的な操作になります。今回の記事はPySparkで相関行列行います。PythonのPandasとSpark MLで相関行列を計算してSeabornでヒートマップ表を作成するやり方を比較します。 目次 1.環境とライブラリ(Spark ML) 2.相関行列とは 3.実験のコード 3.1 データセットのロード 3.2 Pandasの相関行列 3.3 ヒートマップ表 3.4 Spark MLの相関行列 3.5ヒートマップ表 4. まとめ 環境 Databricks: Runtime: 5.5 LTS ML (includes Apache Spark 2.4.3, Scala 2.11) 5.5 LTS MLはSpark MLのライブラリがあります。 Spark ML Sparkの統計処理、機械学習を分散処理するライブラリです。spark.mllibとspark.mlの二つのパッケージがあります。SparkのMLlibはMLに移行しつつあります。Spark2.0からはRDDベースのMLlib APIは保守のみになり、今後はDataFrameベースのAPIが標準になるそうです。 ここではPySparkでML APIを使い、相関行列を行います。 2.相関行列とは 相関係数とは、2つのデータの(直線的な)関係性の強さを −1 から +1 の間の値で表した数のこと。相関行列とは、相関係数を並べたものであり、その意味から対称行列になります。 相関係数の計算式 xと yの相関係数 rは次の式で求まる。 ここで、sxy はxとyの共分散 sx は xの標準偏差 sy …

PySparkでの相関行列と可視化(ヒートマップ表) Read More »

ランダムフォレストのアンサンブル【Random Forest Ensemble】

前回の記事 「ランダムフォレスト(分類分析)」はランダムフォレストの特徴とランダムフォレストの例について話しました。ランダムフォレストは分類や回帰に使える機械学習の手法です。今回は別のランダムフォレストアンサンブルのクラスター分析の一つを説明します。 先ずアンサンブルはなんのことでしょう? アンサンブル手法 (Ensemble methods) 同じ学習アルゴリズムの多数のEstimatorからの予測結果を組み合わせた技術。この方法は、一つのEstimatorと比較して一般化可能性/ロバスト性を向上させます。 ランダムフォレストアンサンブル (Random Forest Ensemble) 教師なしデータセットの高次元スパース表現への変換の手法。データポイントは、各ツリーのどのリーフに分類されるかによってコード化されます。 葉のワンホットエンコーディングを使用して、これは森の中に木があるのと同じくらい多くのものとのバイナリコーディングをもたらします。 次元削減法を適用した高次元表現を学びます。 ただし、データセットをクラスが線形分離可能な表現にキャストすると便利なことがよくあります。

Azure ML Studioでの Permutation Feature Importance 特徴の重要度

前回の記事は「Azure ML Studioで顧客データ分析」を説明しました。今回はPermutation Feature Importance を使ってモデルの変数の重要度を判断する機能を説明します。 機械学習モデルを作成するとき、機械学習の開発者、意思決定者、およびモデルによって影響を受ける担当者は、機械学習モデルがどのように決定を行うか、またそのパフォーマンスにどの特徴が関係するかを理解する必要があります。Permutation Feature Importance (PFI) はモデルについて説明するツールであり、機械学習開発者がモデルの変数の重要性をよく理解できるようにします。   Permutation Feature Importanceとは Breiman 著「Random Forests」論文から機械学習モデルのグローバルな特徴の重要性を判断する技術です。特徴量がランダムな値に設定されたら、どのような影響がモデルに及ぼされるかを判明する方法になります。   メリット モデルに依存しない点です。評価することができるすべてのモデルに使用できます。 特徴の重要性を計算するために、トレーニング セットだけでなく任意のデータセットを使用できます。    Permutation Feature Importanceの使い方 Feature Selection > Permutation Feature Importanceを選択します。trained model と左のインプットと接続し、右のインプットはテストデータと接続します。   Permutation Feature Importanceの設定   Random seed このシードを同じ数値にすることで、毎回同じ擬似乱数が生成されます。   Metric for measuring performance このドロップボックスから、一つのメトリックを選択することができます。 Classification Accuracy, Precision, Recall, Average Log Loss Regression Precision, …

Azure ML Studioでの Permutation Feature Importance 特徴の重要度 Read More »

グラフィカルラッソ(Graphical Lasso)変数関係の可視化

今回の記事はグラフィカルラッソで変数関係の可視化を説明します。 グラフィカルラッソとは グラフィカルラッソはガウシアングラフィカルモデルに従う、確率変数ベクトルがあった時、変数間の関係を指定し、グラフ化する手法です。回帰問題を以前取扱いましたが、回帰の分析が中で行われています sklearnからBostonデータセットの各変数間の関係をグラフ化します。 下記はボストンの物件の価格にその物件の人口統計に関する情報です。 sklearnからBostonデータセットの各変数間の関係をグラフ化します。 下記はボストンの物件の価格にその物件の人口統計に関する情報です。 CRIM 人口 1 人当たりの犯罪発生数 (人口単位) ZN 25,000 平方フィート以上の住居区画の占める割合 INDUS 非小売業の土地面積の割合 (人口単位) CHAS チャールズ川沿いかどうか(1:Yes、0:No) NOX 窒素酸化物の濃度(pphm単位) RM 住居の平均部屋数 AGE 1940 年より前に建てられた物件の割合 DIS 5 つのボストン市の雇用施設からの距離 (重み付け済) RAD 環状高速道路へのアクセスしやすさ TAX $10,000 ドルあたりの不動産税率の総計 PTRATIO 町毎の児童と教師の比率 (人口単位) B アフリカ系アメリカ人居住者の割合(人口単位) LSTAT 給与の低い職業に従事する人口の割合 (%)   import pydot import numpy as np import pandas as pd import seaborn as …

グラフィカルラッソ(Graphical Lasso)変数関係の可視化 Read More »