データ解析第十五回「時系列解析」鈴木大慈理学部情報科学科西八号館 W707 号室 s-taiji@is.titech.ac.jp 1 / 37 今日の講義内容時系列解析 TOPIX30 データで時系列解析 2 / 37 構成 1 時系列解析の基本事項 2 TOPIX30 データで時系列解析 3 / 37 2000 3000 x 4000 5000 6000 時系列 1992 1993 1994 1995 1996 1997 1998 Time 4 / 37 時系列確率過程は時刻 t でインデックス付けされた確率変数の列 {Xt }t ．時間的な系列がランダムに生成されていると考える． i.i.d. 系列との違いは異なる時刻で依存性を持つ点． t は連続値でも離散値でも良い．今回は離散値のみを考える． 5 / 37 ガウス過程 Definition (ガウス過程) 確率過程 {Xt }t がガウス過程である. ⇔ ∀t1 , . . . , tN に対して Xt1 , . . . , XtN の同時分布が多変量ガウス分布に従う． 6 / 37 定常性 Definition (強定常) 確率過程 {Xt }t が強定常である． ⇔ ∀t1 , . . . , tN , ∀h に対して Xt1 , . . . , XtN の同時分布が Xt1 +h , . . . , XtN +h の同時分布と等しい．「時間をずらしても分布が変わらない」と言っている． → 過去のデータから未来の挙動が予測できる． 7 / 37 −0.3 −0.2 −0.1 z 0.0 0.1 0.2 0.3 定常性 0 50 100 150 Index 定常 (Xt = 0.7Xt + 0.1ϵt , AR(1) 過程) 8 / 37 z 0.0 −20 −10 0.5 0 x 10 1.0 20 30 1.5 定常性 0 50 100 150 200 0 Index 50 100 150 Index 定常でない (なぜか？) 8 / 37 平均と自己共分散平均: µt := E[Xt ] (∀t) 定常ならば µt は t によらない．µ = µt と書く．ある時刻に平均から大きく離れてもまた戻ってくる．自己共分散: γ(t, s) := Cov(Xt , Xs ) = E[(Xt − µt )(Xs − µs )] 定常ならば γ(t, s) は時間差 t − s のみに依存する． γ(h) = γ(t, t + h) と書く． 9 / 37 弱定常強定常はやや強い条件である．平均と共分散 (相関) だけでも時間に依存しなければ十分では？ Definition (弱定常) 確率過程 {Xt }t が弱定常である． ⇔ 平均 µt が時間によらず，自己共分散 γ(t, s) が時間差 t − s にのみ依存． 10 / 37 ガウス過程の定常性ガウス過程の場合弱定常 ⇔ 強定常ガウス過程は時系列解析で最も基本的な確率過程である． 11 / 37 非定常から定常へ: 季節成分の除去非定常時系列は季節成分を除去することで定常になったりする． m <- decompose(co2) # co2 は timeseries データ plot(m) # 原データ、傾向成分、季節成分、不規則成分 340 0.0 −0.5 observed seasonal random 0.5 −3 −2 −1 0 1 2 3 320 330 trend 350 360 320 330 340 350 360 Decomposition of additive time series 1960 1970 1980 1990 Time 12 / 37 非定常から定常へ：季節成分の除去 (stl) 関数 stl は decompose より高度．局所多項式近似を使って平滑化． stllc <- stl(co2, "periodic") plot(stllc) 340 −0.5 0.0 remainder 0.5 320 330 trend 350 360 −3 −2 −1 0 seasonal 1 2 3 data 320 330 340 350 360 1960 1970 1980 1990 time 13 / 37 非定常から定常へ：平滑化核関数で平滑化 xsmooth <- kernapply(x,kernel("daniell", 10)) # Daniell 核関数で平滑化 2000 3000 x 4000 5000 6000 1992 1993 1994 1995 1996 1997 1998 Time より詳しくはスクリプト参照 14 / 37 自己相関自己相関: γ(t, s) . ρ(t, s) := √ γ(t, t)γ(s, s) 弱定常ならば時間差 t − s のみに依存． acf(stllc$time.series[,"remainder"]) 先の CO2 データから季節成分・トレンドを取り除き自己相関を計算． stllc$time.series[, "remainder"] −0.2 0.0 0.2 ACF 0.4 0.6 0.8 1.0 Series 0.0 0.5 1.0 Lag 1.5 2.0 15 / 37 自己共分散自己共分散もオプションを指定すれば計算できる． acf(stllc$time.series[,"remainder"], type = "covariance") stllc$time.series[, "remainder"] −0.02 0.00 ACF (cov) 0.02 0.04 0.06 Series 0.0 0.5 1.0 1.5 2.0 Lag 16 / 37 AR 過程ちょっと前までの実現値に依存して今の値が決まる確率過程例：株価が 3 日連続で上がり続けたら，次は下りやすい． 17 / 37 AR 過程ちょっと前までの実現値に依存して今の値が決まる確率過程例：株価が 3 日連続で上がり続けたら，次は下りやすい． AR 過程： Xt = p ∑ ϕi Xt−i + ϵt . i=1 ただし，ϵt ∼ N(0, σ 2 ) (i.i.d.). 何時刻前まで遡るかの値 p を AR 次数と呼ぶ． 17 / 37 R で AR 過程の推定 ar(x, aic = TRUE, order.max = NULL, method = c("yule-walker", "burg", "ols", "mle", "yw"), デフォルトで AR 次数は AIC で決定． order.max で AR 次数を探索する最大の次数を指定． method で推定方法を指定．デフォルトは”yule-walker”． 18 / 37 Yule-Walker 法時系列は定常であると仮定する．自己回帰モデルの定義より． Xt = Xt−1 ϕ1 + · · · + Xt−p ϕp + ϵt ⇒Xt−h Xt = Xt−h Xt−1 ϕ1 + · · · + Xt−h Xt−p ϕp + Xt−h ϵt ⇒γ(h) = γ(h − 1)ϕ1 + · · · + γ(h − p)ϕp . (両辺期待値を取った) これより次の Yule-Walker 方程式を得る:      γ(1) γ(0) γ(1) · · · γ(p − 1) ϕ1 γ(2)  γ(1)   γ(0) · · · γ(p − 2) ϕ2        ..   ..  =  .. .. .. ..   .    . . . . . γ(p) γ(p − 1) γ(p − 2) · · · γ(0) ϕp | {z } | {z } | {z } γ Γ ϕ γ と Γ をサンプルからの推定量に置き換え，方程式を解く: b =b b. ϕ Γ−1 γ 19 / 37 0 50 ar.co2$aic 100 150 AR 次数の決定: AIC 0 5 10 15 20 25 Index > ar.co2 <- ar(stllc$time.series[,"remainder"]) > ar.co2$aic で AIC の値を確認できる． 20 / 37 AR(1) 過程の非定常性：単位根 Xt = ϕ1 Xt−1 + ϵt AR(1) 係数 ϕ1 が |ϕ1 ≥ 1| であると分散が発散してゆき，AR 過程は非定常になる． 21 / 37 R で単位根の検定 Dickey-Fuller の単位根検定 > adf.test(UKgas) Augmented Dickey-Fuller Test data: UKgas Dickey-Fuller = -1.6079, Lag order = 4, p-value = 0.7393 alternative hypothesis: stationary 22 / 37 ベクトル自己回帰 (VAR) Xt ∈ Rd がベクトルであるとする．例：複数の株価ベクトル AR 過程 (VAR): Xt = A1 Xt−1 + · · · + Ap Xt−p + ϵt . なお，Ai ∈ Rd×d は行列． 23 / 37 R でベクトル自己回帰 VAR の AR 次数も推定しつつ VAR を推定： library(vars) varsel <- VARselect(tsx,lag.max=5) #モデル選択 var.topix <- VAR(tsx,p=varsel$selection[1]) #AIC でモデル選択した次数を採用 24 / 37 構成 1 時系列解析の基本事項 2 TOPIX30 データで時系列解析 25 / 37 TOPIX CORE 30 銘柄時系列 TOPIX CORE 30 指標に含まれる 30 銘柄．過去 250 日分 (2013/6/28–2014/7/4) の始値，安値，高値，終値 (日足) が格納されている． 26 / 37 380 4400 420 ...... 460 4800 5000 .................. 4600 0 50 100 Time 150 200 250 ...... 3800 ............... 3400 5500 500 600 650 700 750 800 850 2000 3000 6500 2200 2400 ............... 6000 .................. 2600 280 300 320 340 4200 ............... 3800 3600 ..................... 3400 ..................... 3200 1000 1100 1200 1300 3000 .........&................................. 70003400 例 ts(topix30[, 1:10]) 0 50 100 Time 150 200 250 27 / 37 収益率の計算前日と比べて上がったか下がったか．対数収益率: Rt = log(Xt /Xt−1 ). こちらを分析対象とする． 28 / 37 自己相関 Series ts(logrt[, 1]) 0.4 ACF 0.2 0.4 0.0 0.2 −0.2 0.0 ACF 0.6 0.6 0.8 0.8 1.0 1.0 Series ts(logrt[, 20]) 0 5 10 15 Lag 東京三菱 UFJ 20 0 5 10 15 20 Lag 日本たばこ産業 29 / 37 AR モデルへの当てはめ東京三菱 UFJ を当てはめ． ufjts <- ts(logrt[,20]) #時系列データ構造に変換 ar.ufj <- ar(ufjts) #AR 30 / 37 15 10 5 0 ar.ufj$aic 20 25 30 AIC 0 5 10 15 20 0:(length(ar.ufj$aic) − 1) UFJ データの AIC 31 / 37 推定された AR モデル > ar.ufj$ar #AR 係数 [1] 0.10819647 0.05554658 -0.10994533 -0.11853056 32 / 37 残差の正規性のチェックちゃんとデータが AR 過程に従っているか．残差の正規性をチェック．線形回帰の場合と同様の考え方． 0.00 −0.02 −0.04 Sample Quantiles 0.02 0.04 Normal Q−Q Plot −3 −2 −1 0 1 2 3 Theoretical Quantiles 33 / 37 残差の正規性検定 > shapiro.test(ar.ufj$resid[5:230]) Shapiro-Wilk normality test data: ar.ufj$resid[5:230] W = 0.9907, p-value = 0.1603 正規性の検定，棄却はされない． 34 / 37 おまけ：対数収益率の正負を判別次の８つの銘柄を用いて，次に三菱ＵＦＪの株価が上がるか下がるかを判別．(Rt > 0 か Rt < 0 かを判別) 三井物産三菱商事三菱ＵＦＪフィナンシャル・グループ三井住友フィナンシャルグループみずほフィナンシャルグループ野村ホールディングス東京海上ホールディングス三菱地所説明変数としては，これらの銘柄の過去 3 日間の対数収益率を用いた．推定手法は L1 正則化付きロジスティック回帰． 35 / 37 0.0 0.2 0.4 tedata$y 0.6 0.8 1.0 結果 0 10 20 30 40 Index 150 サンプルで推定，残りの 96 サンプルで判別誤差を計算．判別誤差： 0.6304348 常に上がると答えた場合：0.5 常に下がると答えた場合：0.5 ランダムな解答より良い正答率． 36 / 37 講義情報ページ http://www.is.titech.ac.jp/~s-taiji/lecture/dataanalysis/dataanalysis.html スクリプトやデータはすべてこのページ載せてあります． 37 / 37