時系列データの評価方法
前回の記事は「時系列データの特徴」を説明しました。今回の記事は時系列データの評価方法を説明します。 モデル機械を評価するために、データを学習データとテストデータに分割することがよく使われています。学習データはモデルを作成し、テストデータはモデルの評価に使用されます。順番がシャッフルされてしまうため、時系列データに対しては使いにくいという問題がありました。各観測は従属的であるため、それらをランダムにグループに分割することはできません。 また、データリーケージ(Data leakage)の問題も発生します。 データリーケージ(Data leakage) データリーケージとは、モデルを作成るときに、本来知らないはずの情報(変数やデータ)を不当に使ってしまうことです。 手元のデータでは高い精度が出たのに、本番環境ではまったく精度が出ない、といった事態になります。 3つの時系列データモデルの評価方法を説明します。 1)Train-Test Splits:時間的順序を考慮した学習・テスト分割 2)Multiple Train-Test Splits:時間的順序を考慮した複数の学習・テスト分割 3)Walk-Forward Validation ではモデル評価の比額を実験しましょう。 東京の日平均気温の月平均値(℃) 1988年12月から2018年11月まで30年の月次気温データ(360件) データのパス # sunspotデータロード from pandas import Series from matplotlib import pyplot series = Series.from_csv(‘ tokyou_temp.csv’, header=0) print(series.head()) series.plot() pyplot.show() month Dec-88 8.4 Jan-89 8.1 Feb-89 7.5 Mar-89 9.6 Apr-89 15.6 Name: temp, dtype: …