支持向量机技术及其在经济预测中的应用
摘要 在经济活动中,人们越来越依赖经济预测方法来分析经济发展过程和现象,以论证经济发展的方针、政策的合理性和科学性。而在当代的各种预测技术中,统计学习理论的支持向量机(SVM)方法则最具代表性。本文介绍了统计学习理论和支持向量机方法的基本原理和应用方法,结合支持向量机在其它领域内的成功应用经验,将支持向量机拓展了SVM方法在经济及其它管理方面的应用领域;并对支持向量机算法进行GDP预测的可行性与有效性进行分析,对GDP模型进行验证。
关键词 经济预测;数据挖掘技术;支持向量机;经济增长模型
1 研究背景意义
当代的经济系统是一个多目标、多变量、非线性的开放系统,具有非常复杂的相互依赖和相互制约关系,很难做出正确概率高的决策。
经济管理的过程,就是对经济系统的发展过程及其变动趋势进行预测,并在此基础上制定出发展规划和进行决策,以确定经济管理的目标和实施这一目标的方案,监督目标、方案的实现,并进行调节和控制。进行科学、合理的经济预测并依此制定发展规划对于促进经济的持续、快速、健康发展具有极其重要的战略意义。在经济统计工作中引进数据挖掘技术,将该技术在经济统计中的应用普遍化,能有效地提高统计工作的效率,降低统计成本。而利用数据挖掘技术从大量的数据中挖掘出有价值的信息,有利于相关部门在大量经济数据的基础上制定各种经济政策,促进我国经济良性发展。
2 支持向量机(SVM)技术综述
支持向量机(Support Vector Machine,缩写为SVM)是由Vapnik领导的AT&TBell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。这种方法在90年代后得以迅速发展。
SVM方法将数据向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。对于只有两类的问题,可将分类线两侧的样本点分为正类和负类,则用符号函数的方式推断点所对应的类别的决策函数如下:
设训练样本输入为,,对应的期望输出为,其中,+1和-1分别代表两类标识,假定分类面方程为。为了使分类面对所有样本正确分类并且具备分类间隔,就要求它满足如下约束:
可以计算出分类间隔为:
现在求解在服从约束式的条件下最大化分类间隔。即最优超平面的权系数向量是训练样本向量的线性组合。
本文重点讨论非线性可分情况的SVM。对需要非线性分类的情况,支持向量机提出的方法是利用特征映射方法,使非线性分类的问题可以利用线性分类的计算框架来实现。
对于非线性问题,可以引用非线性函数,把输入空间Rn映射到m维的特征空间, ,然后在高维特征空间中构造一个分界超平面。
对支持向量机而言,核函数的构造和选择尤其重要。在满足Mercer条件下,核函数可以有多种形式:齐交多项式核函数、非齐交多项式核函数、径向基核函数、Sigmoid核函数、薄板核函数等。
3 经济增长模型
自20世纪80年代中期以来,以罗默和卢卡斯为代表的“新增长理论”的出现,该理论又称“内生技术变革理论”,是基于新古典经济增长模型发展起来的,认为人均实际GDP增长是因为人们在追求利润中所作出的选择,且增长可以持续下去。该理论可以揭示经济增长率差异的原因和解释持续经济增长的可能。经济活动的事实证明,经济增长率不是一个常数,它随着时间的变化而变化,并呈现出一定的周期性,新经济增长理论在参数中引入时间变量,可以较好地反映经济发展的周期性,同时对创新机制、人力资源成本等因素进行较好地反映,是比较适合中国国情的。
新经济增长理论有助于我们更深刻地认识到我国现实经济增长方式转变的必要性和紧迫性。新经济增长理论说明,要素投入的增加只有在起能够带来技术进步的条件下才能推动经济的持续发展,这从理论上说明粗放型经济增长模式不可持续。为了保证我国经济持续、快速、健康发展,必须将经济增长方式转变到主要依赖技术进步的集约型经济增长方式上来。
新经济增长理论模型的生产函数形式:
其中,Y是总产出,K、L、H和t分别是物质资本存量、劳动力投入量、人力资本(无形资本)存量和时间。
4 实证研究
在我国,投资对经济增长的推动明显,是推动经济高速发展的最主要的动力;而人力资本也是非常重要。现阶段,低廉的劳动力资源已成为我国吸引外资、提高经济竞争力的主要因素。
本文在设计经济预测模型时首先假定社会政治制度、财政政策、税收政策、退休养老福 利形式、金融市场发展为平稳渐进型;我国经济成功转型,则可假定技术进步也是一个平稳渐进的过程。考虑金融危机的影响,应对本模型预测结果进行修正。
本文中的国民经济产出模型的可看作一个生产函数:
其中,F表示国民经济产出,A表示技术进步,K表示资本投入,L表示劳动力,H表示人力资本。本模型用国内生产总值来表示国民经济产出。
文中对GDP的增长率靠固定资产投资总额、从业人员人数以及职工平均工资的增长率等指标来进行回归预测,选用拟合误差最小的结果进行GDP的增长率的预测。用RMSE和预测准确度为性能指标。
本文从《中国统计年鉴2008》选取1978年至2003年的GDP数据及增长率进行训练,将训练数据分成5份做交叉验证。选取2004年至2007年的GDP数据及增长率做测试样本集。利用LIBSVM进行模型的测试与预测。
关于核函数的选择,LIBSVM提供了4种常用的SVM算法核函数:线性核、多项式核、RBF 核、sigmoid 核。经研究,选择RBF、多项式、sigmoid核函数进行预测并进行比较,以保证预测结果的准确性。并采用探索法来确定参数。
5 结论
表1国内生产总值不同核函数形式的预测准确性对比
在实证中,RMSE值越小,相对误差越小,预测准确度越高。本文使用径向基核函数完成预测。
GDP预测结果见表2,2008~2010年的国民生产总值上扬,体现了我国在进行经济结构调整取得重大进展,国内生产总值的增长率保持较高水平。自2007年年末爆发了世界性金融危机,对世界经济产生了巨大的影响。金融市场的动荡,使世界各个国家尤其是西方发达国家的经济遭受到了毁灭性打击,对我国经济也造成了巨大的冲击。我国政府积极应对,加大了固定资产投资,共投入4万亿资金,拉动内需,取得了令世界瞩目的成就。从2008年~2009年,我国经济已触底反弹,并率先开始进入增长,确保GDP高速增长。
表2 全国2008~2010年宏观经济数据预测值
在研究中发现,支持向量机方法进行经济预测也存在一定的局限性。主要表现为:第一,在支持向量机方法中不能明确获得内部权重,所反映学习信息及结果,不利于确切把握经济现象的本质;第二,SVM算法选择小规模的样本集训练,降低了学习代价,但存在初始样本集选择不当,SVM的分类精度不高的缺陷;第三,如何在训练时确定核函数及参数,研究还很不成熟,另外核函数的形式有待不断的进行
丰富。
参考文献
[1]陈玉祥,张汉亚.预测技术与应用[M].北京:机械工业出版社.1985:34-45.
[2]庞皓.计量经济学[M].北京:科学出版社,2008,1:131-135.
[3][加]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007,7:219-222.
[4]洗广淋,洗广铭.支持向量机原理及其在模式分类中的应用[J].北京:中国科技信息,2008(8):268-269.
因篇幅问题不能全部显示,请点此查看更多更全内容