DBSCANクラスタリングの解説と実験
前回の記事は密度ベースクラスタリングのOPTICSクラスタリングを解説しました。 今回の記事はもう一つの密度ベースクラスタリングのDBSCANクラスタリングを解説と実験します。 目次: 1.DBSCANとは 2.Sci-kit LearnのDBSCAN 3.コード・実験 (K-Mean++ vs DBSCAN) 4.まとめ DBSCANとは DBSCAN (Density-based spatial clustering of applications with noise ) は、1996 年に Martin Ester, Hans-Peter Kriegel, Jörg Sander および Xiaowei Xu によって提案された密度準拠クラスタリングのアルゴリズムです。半径以内に点がいくつあるかでその領域をクラスタとして判断します。近傍の密度がある閾値を超えている限り,クラスタを成長させ続けます。半径以内に近く点がない点はノイズになります。 長所 1)k-meansと違って,最初にクラスタ数を決めなくてもクラスターを作成できます。 2)とがったクラスターでも分類できます。クラスターが球状であることを前提としない。 3)近傍の密度でクラスターを判断します。 短所 1)border点の概念が微妙で,データによりどのクラスタに属するか変わる可能性があります。 2)データがわからないとパラメータを決めるのが難しいです。 DBSCANの計算プロセスの例1 DBSCANのアルゴリズムは半径以内に確認します。半径以内に3個以上の点があれば、グループを成長させ続けます。左の2列は2点しかないなので、グループに属しません。また、一番下の行は半径以外なので、グループに属しません。 DBSCANの計算プロセスの例2 以上の例と同じ、DBSCANは半径以内に確認して、グループに属するかどうか判断します。最初は上からと下からでグループを確認します。上の確認は半径以外になると、途中に止まりました。このようにDBSCANのアルゴリズムはすべての点はグループを確認します。 DBSCANの論文: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases …