らくがき入門

機械学習を始めとしたコンピュータサイエンスを主に扱っています。

時系列分析入門

はじめに

近い将来に必要になりそうだったのでいわゆる沖本本で時系列分析を勉強し始めました。 自分へのメモのためにも書いて残しておきます。

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

時系列分析とは?

時系列分析とは、時系列データから意味を抽出するプロセスであると解釈しています。 時系列データとは、時間の推移とともに観測されるデータで、観測される順序に意味があるデータの集合です。時系列分析によって、時系列データが持っている特徴を記述できるモデルを構築することが目的となります。

時系列データにおいて観測されたそのままのデータは原系列と呼ばれます。 実際の解析では、原系列に対して変換を施した系列に対して行われるとが多いです(後に紹介する定常性を仮定する上でも変換が重要な役割を果たします)。 よく用いられる変換は

  • 対数変換(対数系列)
  • 1時点間離れたデータとの差分(差分系列)
  • 上2つの変換を施したもの(対数差分系列)
  • 季節調整(季節調整済み系列)

などが挙げられます。

基本統計量と時系列モデル

統計量とは

統計量とは、観測された標本(今の場合だと観測された時系列データ)を要約し、その標本が属する母集団の推測に用いられるものだと解釈できます。これは実際に観測される時系列データは、ある有限区間のデータですが、ここからその区間外の過去のデータ・まだ観測されていない将来のデータも含めた一つの大きな流れを予測するために用いられるものです。

一般的なデータ分析と同じく以下のような基本統計量を用いてデータ要約することが多いです。

時系列分析に特有な統計量・・・自己共分散

また時系列分析に特有の統計量である自己共分散も用いられます。 自己共分散は、時系列データにおける異時点間の共分散です。 共分散は、簡単にいうと異なる確率変数が互いに関連しながらばらつく程度を表していると言ってもいいと思います。 自己共分散は計算する複数の確率変数が同じ時系列データの要素であること以外は通常の共分散と同じ考え方です。

共分散は一方の変化が他方の変化に影響を及ぼすという指標になり、

  • 共分散が正だと大小が同じ方向に変化する傾向
  • 共分散が負だと大小が異なる方向に変化する傾向

と言えます。

自己共分散は値が単位に依存してしまうという問題点があり、それを解消するために自己相関関数が導入されています。自己相関関数は値が単位に依存しないように自己共分散を基準化したものです。 自己相関関数は単に自己相関とも呼ばれます。 自己相関関数はモデルの選択に非常に有用であり、様々な時系列モデルの自己相関関数の理解をすることが時系列分析の1つの大きな目的となります。

統計量を知って嬉しいこと

  • 時系列データ y_tの平均的な値や変動幅の予測は、将来の yの期待値と分散の評価そのもの
  •  y_tの予測に関して現在のデータと将来のデータの自己相関がわかっている場合、将来のデータの傾向がわかる

統計量を推定することは時系列分析において重要な役割を果たします。

時系列モデルとは

これら重要な役割を果たす統計量は基本的に時点 tに依存するにもかかわらず、時系列データは一度しか観測できないという問題点があります。

この問題を克服して時系列分析を行うことで予測などを行うために、有限の時系列データの数列を無限長の確率変数列からのある1つの実現値とみなして、確率変数列の生成過程に関して何らかの性質や構造を仮定して考えるというアプローチをとります。このような確率変数列は確率過程もしくはデータ生成過程と呼び、時系列分析では確率過程の構造を時系列モデルと呼びます。

まとめ

とりあえず時系列分析の基礎の部分はざっと追えたような気もします。 なんだかんだで学生時代に東京大学出版の統計学入門をちゃんとやっていたおかげであることは間違いないです。 大学の先生ありがとうございます!(名前忘れた)

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)