機械学習

時系列データとは?

時系列データとは、ある一時期の状態を表すような、時間的な変化を、連続的に観測して得られた値の系列のことです。例えば、毎日の売上データ、毎時間の気温、月ごとの来客数などです。時系列データの利用は、気候パターンの解析、交通状況の監視、人口統計学的傾向の調査データの事です。   一口に時間に関するデータといっても複数のタイプがあります。   ・点過程データ 間隔が一定ではないようなデータのタイプです。点過程データの目的は、事象が発生したという事を分析することです。地震・故障のタイミングや来客のデータに使われます。数量よりも発生するかどうかを分析のターゲットにしています。   ・時系列データ 時間的な変化を、連続的に得られたデータでそれぞれを直線で結んだものになります。通常時間のデータといえば、こちらを想定しています。   ・キューデータ 点過程データの一種になります。コールセンターの着信数・応答数、トランザクションログ、ATMの利用等の分析の時のデータタイプになります。   この中でも時系列データは「過去」と「現在」、そして「未来」があり、これらがつながっているデータであります。前の値によって、前の前の値が、現在の値に影響をしていることを「自己相関」と言います。データを時系列に並べることによって、過去の様子を分析することも可能ですし、これから先の事象について予測することが可能になります。しかし点過程データやキューデータでは過去に大きく依存しているかというとそうではありません。地震が起こるかどうかが前の起こったデータ見るのが難しいからです。また故障のタイミングも他の要因に起因している事も多く、要因から分析する事も多いからです。 では、時系列データを作成し簡単に分析してみます。   Python   import pandas as pd import numpy as np import matplotlib.pylab as plt   dateparse = lambda dates: pd.datetime.strptime(dates, ‘%Y-%m’) data = pd.read_csv(‘AirPassengers.csv’, parse_dates=[‘Month’], index_col=’Month’,date_parser=dateparse)     print (data.head()) plt.plot(data)                Month  …

時系列データとは? Read More »

ランダムフォレスト(分類分析)

ランダムフォレスト(Random Forest)とは   ランダムフォレスト(Random Forest)とは、分類や回帰に使える機械学習の手法です。前回までのリッジ回帰・ラッソ回帰は回帰問題つまり数値を予測する時にしか用いられません。これは最も柔軟で使いやすいアルゴリズムの1つです。 ランダムフォレストはランダムに選択されたデータサンプルによって決定木を作成し、各ツリーから予測を取得し、投票によって最良の解決策を選択します。例えばですが、決定木を5つ作り、5つのうち3つがA、2つがBならばAを選択します。また回帰問題の時は、5つが [10,12,8,4,14]と予測すれば、その平均値9.6、中央値10で予測します。   ランダムフォレストには、レコメンドエンジン、画像分類、機能選択など、さまざまな応用例があります。 というのも精度が非常に高く、評判の良いアルゴリズムになります。   アルゴリズムの4つのステップ 1.与えられたデータセットからランダムサンプルを選択する。 2.各サンプルの決定木を構築し、各決定木から予測結果を得る。 3.予測結果ごとに投票を行います。 4.最終的な予測として最も多くの票を有する予測結果を選択する。   特所 ランダムフォレストは、各決定木の特徴が異なり、複雑な意思決定ができます。 決定木と比較すると過剰適合(オーバーフィッティング 過去記事のリンク)の問題はありません。 主な理由は、すべての予測の平均をとることで、バイアスを相殺します。 ランダムフォレストは欠損値も処理できます。 これらを処理するには、中間値を使用して連続変数を置き換え、欠損値の近接加重平均を計算する2つの方法があります。 重要度を得ることができます。これは、分類子に最も寄与する特徴を選択するのに役立ちます。   短所 ランダムフォレストは、複数の決定木があるため予測の生成が遅い。 予測を行うたびに、フォレスト内のすべてのツリーは、同じ入力に対して予測を行い、その上で投票を実行する必要があります。 このプロセス全体は時間がかかります。 決定木と比較して、モデルは解釈が難しくなっています。なぜならば、複数の木が存在するためです。   Scikit-learnのランダムフォレストのpython   #ライブラリーのインポート from sklearn import datasets #Irisデータロード iris = datasets.load_iris() import pandas as pd data=pd.DataFrame({     ‘sepal length’:iris.data[:,0],     ‘sepal width’:iris.data[:,1],     ‘petal length’:iris.data[:,2], …

ランダムフォレスト(分類分析) Read More »

正則化のLasso回帰とRidge回帰

前回は線形回帰とロジスティック回帰を説明しました。この記事では、正則化したLasso回帰とRidge回帰をお話になります。 回帰モデルで過学習を防ぐ方法の1つとして、誤差関数(二乗誤差関数など)に次の式で表される正則化項を加えて最小化します。正則化項を用いる回帰をリッジ回帰と呼びます。 正則化項を加えるメリットは以下になります。1.変数が多い時に発生する過学習を抑える事が出来る。2.相関があるような変数の影響を抑える事が出来る(但し一致性は保証されない)。3.相関の高い変数群がある場合、Lasso/Ridgeはその中の1つしか変数として選択できない。4.係数が小さくなる。 Ridge回帰 Ridge回帰では、L2正則化を用いています。L2ノルム(係数のユークリッド長)に対してペナルティを与えます。alpha値を設定することにより、係数への制約を調整できます。 pythonでRidge回帰を作成しましょう。先ず、ライブラリーのインポートとデータセットを作成します。 import matplotlib.pyplot as plt import numpy as np from sklearn.cross_validation import train_test_split from sklearn.datasets import make_regression from sklearn.linear_model import Ridge from sklearn.metrics import mean_squared_error # サンプルデータ作成 1000サンプル、300 特徴量 X, y, w = make_regression(n_samples=1000, n_features=300, coef=True,                           random_state=1, bias=3.5, noise=35)   モデル作成し、test scoreを計算します。 alphas = 0.1, 1,5, 10, 100   # 学習 テスト 分ける X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=3)   clf …

正則化のLasso回帰とRidge回帰 Read More »