PySparkでのk-meanクラスタリング
関係記事:クラスター数の決め方の1つシルエット分析、 k-means++ ビッグデータ処理や機械学習の場合は、巨大データの取り扱いを目的とした分散処理のフレームワークが必要です。特定のアプリケーションに関する実行性能はSpark MLです。今回の記事はSpark MLでk-meanのクラスタリングを解説します。 目次 1. PySparkのクラスタリング 2. 実験・コード __2.1 ライブラリーのインポート __2.2 データ処理 __2.3. シルエットスコアの比較 __2.4. クラスタリングのモデルを作成 __2.5. 可視化 1. Spark MLのk-meanクラスタリング Spark MLはSparkの統計処理、機械学習を分散処理するライブラリです。k-meanはは最も一般的に使われる、事前に定義したクラスタ数までデータを群にする、クラスタリング アルゴリズムです。 spark.mlでのパラメータ: – k は要求するクラスタの数です。 – maxIterations は実行の繰り返しの最大数です。 – initializationMode はランダム初期化 – initializationSteps は k-meansアルゴリズム内でのステップ数を決定します。 – epsilon はk-meansが収束したと見なす距離の閾値を決定します。 – initialModel は初期化に使用されるクラスタの中心点の任意のセットです。 2. 実験・コード 概要 データセット: UCI機械学習リポジトリの白ワインの属性 環境: Databricks Runtime Version: 6.0 ML (includes …