前回の記事は「Azure ML Studioでの機械学習の設定」を解説しました。
今回の記事はAzure ML Studioで顧客データ分析の実験を紹介します。
今回のデータセットはThe KDD Cup 2009 のデータです。
230特徴量の顧客属性とアップセル、新製品販売、解約の顧客行動履歴のフランスの通信会社Orangeデータです。50,000件のデータから3つの分類分析モデルを作成します。
解決課題
1)アップセルデータでアップセルしやすい人を見つけます。
2)新製品販売のデータで新製品を買う可能性高い人を見つけます。
3)解約データで解約したい人を見つけます
全体のExperimentの図は下記になります。特徴量の顧客属性と3つの過去行動のターゲットを結合して、モデルを作成します。
Var1からVar230は特徴量の5万件のデータセットです。
特徴データは欠損値がありますので、欠損値を0に置き換えます。
「Add Columns」 のモジュールで特徴量のと各ターゲットを結合します。
次に、vol1の層別化でテストとトレーニングを半分に分割します。
次に、予測モデルを構築するために、既定のパラメーターを持つ2クラスブーストデシジョンツリーバイナリ分類器を使用します。
ブースト デシジョン ツリーとは第2の木が第1の木の誤差を補正し、第3の木が第1および第2の木の誤差を補正するというように、集団学習法である。 ツリー全体の集合に基づいて予測あします。
Evaluate Model:アップセルタ
テストセットに対するモデルのパフォーマンスは、Evaluate Modelモジュールの出力を視覚化することで確認できます。 「アップセルタ」では、ROC曲線は、モデルがランダムモデルよりも優れていること、および曲線下面積(AUC)が0.857であることを示しています。 しきい値が0.5の場合、精度は0.663、再現率は0.463、F1スコアは0.545です。
Evaluate Model:新製品販売
「新製品販売」のROC曲線では、AUCが0.727であることを示しています。
Evaluate Model:解約
「解約」のROC曲線では、AUCが0.711であります。
モデルの確認
[Train Model]のモジュールの Visualization 決定木図が表します。
モデルの判断を確認することができます。
決定木は、葉が分類を表し、枝がその分類に至るまでの特徴の集まりを表すような木構造を示します。データの持つ素性の中で集められたデータを一番よく分割する素性と閾値の組を選びます.その素性と閾値で分割後、またそれぞれのノードで分割を繰り返し行っていきます。分割が実行不可能となった場合、または、部分集合の個々の要素が各々1つずつの分類となってしまう段階で終了します。
例えば、Var133が3,300,352を超えて、Var28が233を超える場合は、アップセルの可能性は100%になります。