スクフェスのボーダーを統計的に予測してみる(続き) のまとめ

スクフェスのボーダーを統計的に予測してみる(続き) – 時系列データ分析 –

が長くなり過ぎて訳分からなくなってきたので要約.
見難くなったと言いつつ,それでも細かい話は上のエントリにちょこちょこ追記していくつもり.

6,500位
ARIMAモデルの結果:
予測ボーダー(目標値):42,000(99.99%CI上限程度を目安)
予測ボーダー(安全圏):45268.53(シックスシグマ)


32,500位
ARIMAモデルの結果:
予想ボーダー(目標値):23,083~23,300(95%CI上限~2階階差の結果程度が目安)
予想ボーダー(安全圏):25,713(シックスシグマ)
周期変動分析でトレンドを見極めデータを分割して線形回帰モデルを適用した結果:
予想ボーダー(目標値):21,901(割と妥当な値だと思うが果たして)
予想ボーダー(安全圏):24,101(今のトレンドに26日並みのインパクトが加算されたとして)

時系列分析においては,複雑なモデルを考えるよりも,それ以上に,
生データをみて,データにどの様な傾向があるのか,特性があるのかを知り(システム1が大事),
トレンドがみられるのかどうか,周期変動があるのかどうか,それらを見極めるのが大事で,
基本となる部分をしっかりと調べた上で,その後,どの様に仮定をおくか,
想定されるかというヒューリスティックな部分が非常に大事だと思う.
もし,そこら辺がしっかりとおけるなら,非常に単純な
線形回帰モデルでも確からしい結果が得られるのでは.

その上で,カーネル多変量な事を考えていきたい.
最終的には,パーティクルフィルタやSVRに行き着くんだろうけど.
(RVRに関する文献が余り見当たらないのは何故だろう……
RVMは使った事ないから殆ど理解していない\(^o^)/)



追記:

結果:

イベントポイントグラフ

fact_result

イベントポイント差分グラフ(増分値グラフ)

fact_result_diff


日時             6,500位    32,500位
2014/6/30 11:35      36778     24246     
2014/6/30 12:35      37290     24754
2014/6/30 13:35      38086     25514
2014/6/30 14:35      39098     26405
2014/6/30 15:35     39803   27169



ARIMAモデルの予測値(母平均推定値)(詳細は前のエントリ)
3,500位
前半
37,691.11±5,231.59(95%CI)
37,691.11±10,384.87(99.99%CI)
後半
33,902.79±3788.58(95%CI)
33,902.79±7520.21(99.99%CI)

62,500位
前半
16,148±1,541(95%CI)
16,148±3,059(99.99%CI)
後半
予測値:
2階階差
23299.29±3425.3(95%CI)
23299.29±6799.34(99.99%CI)
1階階差
予測値:
21769.09±1314.64(95%CI)
21769.09±2609.61(99.99%CI)

6,500位に比べ,32,500位はラストの増分が大き過ぎて完全に誤差ってる.
(アウトオブサンプルな部分なので,予測できないのは当然なんだけどね……)
また,結果的に2階階差のARIMAモデルの方が,挙動をよく捉えていたと考えられる.

とは言っても,これまでの予想(と言ってもまだ2回目)は
誤差±2,000(実測値-予想ボーダー)の範囲に収まっているので
後ちょっとで実用的なレベルの予測を提示できそうなんだけど…….

あーだこーだ考えるより,周期変動分析をしてトレンドを算出後,
推定値にインパクトの倍値を加味した値を目安にする方が割と妥当かもしれない.

色々やってみたいから後回しにしていたけど,
とりあえず,

・周期変動分析の結果から推定
・パーティクルフィルタを用いて予測

を優先してやってみる.


追記:


6,500位スコアSTL(Seasonal Decomposition of Time Series by Loess)
result_stl


32,500位スコアSTL(Seasonal Decomposition of Time Series by Loess)
result_stl_32500

トレンドとトレンドのログをとったもの.

result_stl_32500_trend_plot

対数変換すると23日以降ほぼ線形トレンドとしてみる事ができそう.



27~29日のデータでARIMA

-6,500位

res27to29_pred_ARIMA_6500

30.41667 38768.56 36959.61 40577.51 35177.74 42359.39
30.45833 39232.21 37181.95 41282.46 35162.38 43302.03
30.50000 39695.36 37393.95 41996.76 35126.99 44263.72
30.54167 40164.45 37602.42 42726.49 35078.74 45250.17
30.58333 40642.97 37811.17 43474.76 35021.75 46264.18
30.62500 41118.26 38007.85 44228.67 34944.00 47292.52

-32,500位

res27to29_pred_ARIMA

30.45833 25104 23820.71 26387.29 22556.63 27651.37
30.50000 25493 24052.51 26933.49 22633.58 28352.42
30.54167 25900 24296.38 27503.62 22716.76 29083.24
30.58333 26309 24536.53 28081.47 22790.59 29827.41
30.62500 26700 24753.14 28646.86 22835.42 30564.58



3日おきにデータ区切ってARIMAモデル適用するのが最も確からしい結果が得られそう.
長期予測は対数変換して線形回帰をする方が良さ気かも(検討中).

色々,あーだこーだ言っていたけど,これでとりあえずは実用的なレベルまで落とし込めた様に思う.
その上で,まだまだ色々考えるつもり.

カテゴリー: 統計学, 日記 パーマリンク