らくがき入門

機械学習を始めとしたコンピュータサイエンスを主に扱っています。

時系列データの定常性を考える

沖本本を基に、定常性について説明します。 定常性は時系列モデルを考える際に最も重要な概念の1つです。

定常性とは

定常性は、大雑把に言うと時系列モデルの性質です。 定常性は、同時分布だったり基本統計量に関して時間的に不変 であるという性質を表現したものです。 想像していただきたいのですが、 仮に時系列データのどの時点の期待値も、時間によらず一定であると考えられるなら かなり強力な仮定になると思いませんか。 定常性という強い仮定の下で、時系列データを分析する際に有名なARMA過程などの基礎的なモデルに落とし込むことができます。 定常性には大きく分けて2つの種類があり、

  • 弱定常性
  • 強定常性

がありますが、経済・ファイナンス分野では単に定常性というと弱定常性を指すことが多い みたいです (これは強定常性が文字通り強い仮定を置くものであり、 現実のデータを用いた場合にその仮定が正しいのかを検証することが難しいからではないかと思います。) なので、今回は弱定常性に関して詳しく見てみようと思います。

自己共分散について

弱定常性を確認する前に、導入として自己共分散について説明しておきます。

統計的アプローチを取るデータ分析の場合、まずやることとしては基本統計量を用いてデータの要約を行い、 与えられたデータがどのようなデータなのかを調査します。 時系列a分析ではない一般的なデータ分析の場合、基本統計量は

などがあります。

時系列分析においては、更に自己共分散という統計量が追加されます。 自己共分散は、同じ時系列データのある時点と別の時点との共分散 です。 なぜ、時系列分析において自己共分散を確認する必要があるのか。 これは、時系列データが過去の自分自身のデータに影響される可能性があるためです。 簡単な例として株価を考えると、ある日の株価が上がっていてその株価の値が過大評価であると市場の参加者が考えた場合は、 翌日は確実に下がるでしょう。 このように時系列データにおいて、過去の時点のデータに影響された動向変化は容易に想像できます。

自己共分散の解釈は

  • 自己共分散が正であれば、期待値を基準として同じ方向に動く傾向
  • 自己共分散が負であれば、期待値を基準として異なる方向に動く傾向

となります。

一般的にk次の自己共分散は

 \displaystyle
    \gamma_{kt} = \text{Cov}(y_t, y_{k-t}) = E[(y_t - \mu_t)(y_{t-k} - \mu_{t-k}) ]

で定義されます。

弱定常性について

やっと弱定常性の定義の話ができますね。 弱定常性の定義は

 \displaystyle E(y_t) = \mu

 \displaystyle
\text{Cov}(y_t, y_{t-k}) = E[(y_t - \mu)(y_{t-k} - \mu) ]  \displaystyle = \gamma_k

となります。

弱定常性は時系列データの期待値と自己共分散が時間によらず一定であることを要求します。 その要求を満たせば弱定常性の仮定の下で分析を進めていくことができます。 時系列モデルを構築する場合、自分がどのような仮定の下で分析しているのかを意識することはとても大事だと思います。 弱定常性の定義から自己共分散は時間差 kに依存することには注意が必要です。

与えられたデータが定常過程かどうかは次回取り上げるADF(Augmented Dickey-Fuller)検定により判別することができます。 ADF検定の概要は、帰無仮説「単位根が存在する」、対立仮説は「単位根がない(=定常である)」である検定です。 この検定において帰無仮説が棄却された場合は、対立仮説である「単位根がない(=定常である)」が支持されたと結論づけます。

まとめ

データが定常であるかどうかによって分析するプロセスが変わるので最初に与えられたデータが定常過程かどうかの確認はするべきです。 書いていて疑問に思ったのは実データに対して強定常性を仮定できるのはどういったデータかということでした。 理論的なもので、応用例が存在するかどうかは気になりますね。

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)