李浩成
偶然性只是相互依存性的一极,它的另一极叫做必然性。在似乎也是受偶然性支配的自然界中,我们早就证实,在每一个领域内,都有在这种偶然性中为自己开辟道路的内在的必然性和规律性。
——恩格斯
时间序列是统一现象在不同时间上的相继观察值排列而形成的序列。时间序列中的时间可以是年份、季度、月份等等。最早的时间序列分析可以追溯到7000年前的古埃及,当时为了发展农业生产,古埃及人一直关注尼罗河泛滥的规律,把尼罗河涨落的情况逐天记录下来,就构成了所谓的时间序列。
一、定义
在统计研究中,常常按照时间顺序排列一组随机变量:
L,X1,X2,X3,L,Xn,L
来表示一个随机事件的时间序列,简记为{Xt,t∈T} 而用
x1,x2,Lxn
来表示该随机序列的n个有序的观测值,简记为{xt,t=1,2,3,Ln}称之为序列长度为
n的观测值序列。对单个的{xt},我们称之为时间t上的观察值。
我们研究的目的是想了解时间序列{Xt,t∈T}的性质,要实现这个目标就是要通过分析观察值序列{xt,t=1,2,3,Ln}的性质来得到。换句话说,就是要由一部分的观测值组成的样本来推导总体的性质。
二、描述性分析法
早期的时间序列分析都是通过直观的数据加以比较和绘图,寻找其中的规律,这种方法被称为描述性的时间序列分析方法。描述性的分析方法具有操作简单,直观有效的特点。故一直被广泛使用,它通常是进行统计时序分析的第一步。
版权所有 © 统计之都——Capital of Statistics——http://www.cos.name 现从S-plus统计软件(版本:6.2.1 for Windows)中引进一个所附带的数据包geyser。Geyser是一个记录了在美国怀俄明州黄石国家公园的“老忠实”喷泉喷发的间歇时间和持续时间的数据包。这里只引入间歇的时间。这些数据是在1985年8月1日到8月5日连续采集的,数据的单位是分钟。由于数据有299个观测值,故可以认为这是一个长度为299的序列。做时序图如下:
110.00100.0090.00waiting80.0070.0060.0050.0040.0016112233445566778899111111111111111111112222222222222222222216161616161616161600112233445566778899001122334455667788991616161616161616161616161616161616161616t
时序图显示这个序列始终围绕在70附近波动,没有明显的趋势和周期。
三、现代时间序列分析方法
随着研究的深入,人们发现单纯的描述性分析有很大的局限性。以上图为例,想要通
过对该图的观察来判断喷泉间歇时间的规律是非常困难的,于是大家转而向数理统计求助,利用数理统计在不确定方面的研究成果和建模方法来分析序列的内在相关性,即现代时间序列分析。
如何来表达序列的内在相关性呢?我们可以先放下这个问题,先来想一个简单的问题:你的每学期期末考试成绩有怎样的相互关系呢?有些人会说,如果以前期末考试成绩不错,
版权所有 © 统计之都——Capital of Statistics——http://www.cos.name 那就会更有信心,下次成绩可能会更加提高;如果以前期末考试成绩很糟糕,便没有了信心,下次成绩会愈发的糟糕。但还有些人会认为,以前期末考试成绩不理想,那就要不断努力,比别人更用功,下次考试也许成绩就会有提高;如果以前成绩不错,很可能过于自满,下次的成绩反而会下降。不管怎么说,这些认识都表达了一个意思,就是考试成绩的变化是有一定的内在规律的:以前的考试成绩会对以后的成绩产生影响。
我们把这种思想用数学公式表达出来就是:
xt=φ0+φ1xt−1+L+φpxt−p
式中φi是一些系数,xt表示t时刻的成绩,公式的意思就是说t时刻的成绩是由
xt−1,xt−2,Lxt−p这些t−1,t−2,Lt−p时刻的成绩所影响和决定的。当然一般来说万事都
不会那么绝对,一般来说还有一些偶然的出入,所以统计学的模型会再加上一个随机项εt。于是公式便成了:
xt=φ0+φ1xt−1+L+φpxt−p+εt
当然对于考试成绩的争论还会继续,一些人会认为他们的成绩与以前的成绩无关,倒是如果以前遇到一个好的老师,碰到一些志趣相投的伙伴会令他们成绩提高,如果是不幸的撞上苛刻的教授,那成绩肯定一路下滑。这些认识表达了另一个重要的认识,就是考试成绩的变化是受一定的偶然性因素影响的:以前发生的一些偶然事件会对以后的成绩产生影响。前面已经介绍了,统计模型会用ε来表示随机偶然的因素,那么上述的思想就可以表达为:
xt=θ0+εt−θ1εt−1−L−θqεt−q
式中θi是一些系数,xt表示t时刻的成绩,公式的意思就是说t时刻的成绩是由
εt−1,εt−2,Lεt−q这些t−1,t−2,Lt−q时刻的偶然因素所影响和决定的。
那自然会有人提出,我的成绩即受内在规律的影响又受一些偶然因素的影响,那是不是我的成绩的表达式可以把上面两个公式结合起来写成:
xt=φ0+φ1xt−1+L+φpxt−p+εt−θ1εt−1−L−θqεt−q (φ0,θ0合并为φ0)
完全正确,事实上世间绝大部分事物一般来说都是因为受到外在的偶然因素和内在规律性的因素的相互作用而发展变化的。这也就是本文将恩格斯的哲学论述放在开篇的原因。其实令人兴奋的不仅仅是用一个数学公式表达了一个哲学命题,更重要的,是我们离经典的时间序列方法ARMA模型已经非常接近了。
版权所有 © 统计之都——Capital of Statistics——http://www.cos.name ARMA(p,q)模型的数学公式表达为:
xt=φ0+φ1xt−1+L+φpxt−p+εt−θ1εt−1−L−θqεt−q φp≠0,θq≠0
E(εt)=0,Var(εt)=σε2,E(εtεs)=0,s≠t
Exsεt=0,∀s 第三个表达式保证了随机序列{εt}为零均值的白噪声序列。 第四个表达式限制了当前的随机项与过去的序列值无关。 1970年美国统计学家Box和英国统计学家Jenkins系统的阐述了ARMA模型的识别,估计、检验及预测原理和方法,使得ARMA模型成为了目前在时间序列分析中最常用的模型。近年30年来,统计学家们针对ARMA模型在理论和应用上的不足在多变量、异方差等方面进行了一系列研究,提出了诸如ARIMAX、ARCH、GARCH等一系列线性模型。研究ARCH模型的Engle和研究多变量时间序列模型的Granger还荣获了2003年的诺贝尔经济学奖。 参考文献: 1. 王燕著.应用时间序列分析.中国人民大学出版社.2005.7 2. 贾俊平等著.统计学.中国人民大学出版社.2004.6 因篇幅问题不能全部显示,请点此查看更多更全内容