基于SVM决策树判别测试点类别的新方法
2020-02-12
来源:易榕旅网
维普资讯 http://www.cqvip.com 第27卷第1期 2007年1月 文章编号:1001—9081(2007)01—0084—02 计算机应用 Computer Applications V01.27 No.1 Jan.2007 基于SVM决策树判别测试点类别的新方法 薛欣 ,贺国平 (1.山东科技大学信息科学与工程学院,山东青岛266510; 2.泰山学院数学与系统科学系,山东泰安271021) (xuexin04@163.com) 摘要:从测试点的类别判断方式上进行改进,对容易错分的测试点给予多次判别机会,从而降 低了SVM决策树的错分累积程度。仿真试验表明,改进的基于SVM决策树判别测试点类别方法与 传统的基于SVM决策树判别测试点类别方法相比,具有较高的分类精度。 关键词:间隔;决策树;支持向量机 中图分类号:TP181 文献标识码:A New method for deciding the sort of the test sample based on SVM decision tree XUE Xin 一,HE Guo—ping f1.College ofInformation& 删and Engineering, Shandong Univershy ofScience and Technology,Qingdno Shandong 266510,China; 2.Department ofMathematics&System Science,Taishan Um ̄y, n Shandong 271021。Chia)n .Abstract:By giving the test sample many decision chances,a new method for deciding the sort of the test sample based on Support Vector Machine(SVM)decision仃ee w鹊given.The new decision method reduces the degree of error accumulation.Experimental results showthatthenewdecisionmethodbased onSVM decisiontreey ̄ddshigherprecisionthan he ttraditional method. Key words:margin;decision tree;SVM(Support Vector Machine) 现有的支持向量机(SVM)多类分类方法,从构造上可以 分为两类:①直接方法,对所有的样本使用同一个二次规划, 使测试点离正确类别越来越远,这种现象被为错分累积。如 在构造决策函数时同时考虑所有的类别,只需一次就可以决 定分类;②组合方法,通过组合多个二类分类支持向量机来构 造多类分类器,其中有:一对多…、一对一【2】、纠错编码【3】、有 向无环图支持向量机 】、SVM决策树 】。对于类别数目较多 的分类问题,SVM决策树是提高识别效率的有效方法。 图2所示,一个属于类别C2的测试点在SVMo处发生错分,这 个错分被SVM,积累并传递给SVM3,使原本属于类别C 的测 试点最终被错误分类。SVM决策树的错分累积是影响其分类 精度的重要因素,当各决策节点的两个子类交叠较为严重时, 分类器的分类精度不高。 为构造分类性能良好的SVM决策树,可以考虑将不易产 生错分的类先分离出来,然后再分不容易分的类,这样就能够 使可能出现的错分尽可能地远离树根,目前常用的树结构设 计方法有:①根据具体问题的特定知识和分类目标来设计树 l SVM决策树 SVM决策树的基本思想 】:采用某种方法将所有类别分 成两个子类,再将子类进一步分成两个次级子类,如此循环下 去,直到得到一个单独的类别为止,这样就得到一棵倒立的二 叉树,二叉树每个决策节点的二类分类问题用SVM解决,如 图1,2所示,这是一个五类分类问题,其中用1,2,3,4,5表示 C。,C2,C,,C。,C,五类样本。SVM决策树方法对于c类分类问 结构 ;②基于类间距离设计树结构 ;③采用自然聚类设 计树结构等 J。研究者们在结构设计方面都做了一些改进, 并取得了良好的分类效果,但是树结构的错分累积问题一直 没有得到解决。 本文基于支持向量机的基本原理,提出了一种基于SVM 题,只需构造C一1个分类决策函数,具有较高的分类效率;也 决策树判别测试点类别的新方法,这种方法可以降低错分累 积程度,提高SVM决策树的分类精度。 不存在拒分区域。 2支持向量机的基本原理——最大间隔法 用图3所示的二维空间上的两类分类问题来说明支持向 量机的基本思想 J,图3,4中的空心点和实心点分别代表两 类数据,直线z。就是一条以 为法向量且能够正确划分两类 点的直线,分别平行地向右上方和左下方推移直线z。,直到碰 到某类训练点,这样就得到了两条极端的直线f 和 ,分别称 图I SVM决策树的树结构示意图 图2 SVM决策树示意图 f2和 为隔离线,f2和 之间的区域为隔离带,z 和 之间的 一’ 但是,SVM决策树在判别测试点的类别时,测试点一旦 被上层分类器错误分类,这种错误会被下层分类器传递下去, 距离 l 1为与法向量 相对应的间隔亡I1 。支持向量 收稿日期:2006—07—13; ̄WI351:2006—10—19 基金项目:国家自然科学基金资助项目(10571109) 作者简介:薛欣(1970一),女,山东新泰人,博士研究生,主要研究方向:数据挖掘、支持向量机;贺国平(1959一)男,江苏常州人,教 授,博士生导师,博士,主要研究方向:非线性最优化、数据挖掘. ,维普资讯 http://www.cqvip.com 第1期 薛欣等:基于SVM决策树判别测试点类别的新方法 85 机选取使间隔达到最大的那个法向量tc,‘作为最优分类面的 图3 最大间隔法示意图 图4 近似线性可分示意图 法向量,对第i个训练点( ,Y1)引进松弛变量£≥0,以 及惩罚参数c,tc,’通过求解下列最优化问题获得: 1 ‘, 1 +c £ … 1【 sIt. ((W・ ‘)+b)+ ≥1,i=1,…,l £≥0,i:1,…,z 当两类数据线性不可分时,使用非线性映射 ,将样本点 从输入空间映射到特征空间,引入核函数K( , )=西( )・ 咖( ),求解下列最优化问题: l )一∑ 』=I (2) 得到a‘,从而得到判别函数 x):∑Y Qi*K( , )+b’, 即得到特征空间的一个分类超平面z。: 1 yta ̄"K(xt, )+b’=0 fl是使分类间隔达到最大的超平面。 设SVM决策树的第i个树节点包含判别函数 ( ),当测 试点 代人这个判别函数时,若 ( )≥0,则判断 属于正 类;若fax。)<0,则判断‰属于负类。当类间交叠情况较为 严重时,这种判别方法造成大量的错分,SVM决策树的错分 主要发生在决策边界相互混杂的样本中。下面从支持向量机 的基本原理出发,给出一种新的判别测试点类别的新方法。 3 基于SVM决策树判别测试点类别的新方法 假设在SVM决策树的第i个树节点得到最优分类超平面 f1I的同时,也得到了两个与其平行的隔离超平面 : ∑y#ct#‘ ( , )+bj‘=一1 J I 和fd: It ∑y#ct#‘K(x∥)+b ‘=1 和fd把整个训练集分成三部分,第一部分位于 的下 方,第二部分位于fd的上方,第三部分位于 和fd形成的隔 离带里。测试点 也可以相应的分成三种情况: 第一种情况:测试点 位于 的下方。满足 It ( )=∑yqa#‘K( , )+bt*≤一1 第二种情况:测试点 位于fd的上方,满足 It ( )=∑y#ct#tK(x , )+b.‘≥1 第三种情况:测试点 位于 和fL1形成的隔离带里,满 足 一1<Z(x。)=∑Y=I a K(x 。 )+bt*<1 属于第一、二种情况的测试点比较容易正确地判断测试 点的类别,n :;对属于第三种情形的测试点, 首先引入隶属度 、 ( ),0≤ ( )<1 “ L1+ ( 0), 一1< ("gO)<0 ∑ Ⅳ : ≤ r1-f,( ),0≤ ( 0)<1 口 An—II0 C . (g.O)I, 一1< (g.O)<0 当测试点 代入第i个SVM决策树节点时,= 若,=(g.O)≥1, 则判断 属于正类,进入其左侧节点继续判断;若 (‰)≤一 1,则判断 属于负类,进入其右侧节点继续判断;否则,判断 。以隶属度A 属于正类,以隶属度A 属于负类,这时需要分 别进入左侧和右侧节点继续判断。 最后的结果有两个:①准确地判断出测试点‰所属的类 别;②测试点z。分别以不同的隶属度属于多个类别,其中第j 个叶节点对应着一个隶属度序列{A ,A ,…,A },选取具有 最高隶属度序列对应的类别为测试点 所属的类别,即若判 断 E c。,c。为第 个叶节点对应的类别,则有A ≥A , A^2≥A ,…,Ab≥A d=1,2,…,c。 4 仿真实验 用Vehicle标准数据集进行仿真试验,其中包含846个样 本,4个类别。每次实验,随机选取每类样本的2/3作为训练 集,全部样本作为测试集,训练每个SVM决策树在相同的条 件下进行。用文献4给出的基于类间距离设计SVM决策树 的树结构,使用基于SVM决策树判别测试点类别的传统方法 得到的分类正确率为85.760%,使用本文给出的新方法得到 的分类正确率为88.435%, 5 结语 对于类别数目较多的分类问题,SVM决策树是提高识别 效率的有效方法,但是SVM决策树存在错分累积问题。影响 了其分类精度。本文从测试点的类别判断方式上进行改进, 对容易错分的点给予多次判断机会,从而降低了决策树的错 分累积程度。仿真试验表明,改进的基于SVM决策树判别测 试点类别的方法与传统的基于SVM决策树判别测试点类别 方法相比,具有较高的分类精度。但是有的测试点可能要访 问所有的节点,这样就降低了测试速度,如何对其改进是本文 下一步的研究方向。 参考文献: 【1】VAPNIK V.The nature of statistical learning theory【M】.New Yorl【:Springer,1995. 【21 KREBEL U.Pairwis ̄classiifcation and support vector machines 【M】.MA:MITPress。1999.255—268. 【3】DIETYERICH TG,BAKIPd G.Solving multi・class learning problem iva error-cort ̄ting output codes【J1.Journal of Artiifcial Intelligent Research。1995,(2):263—286. 【4】PLATr JC。CPdSTIANINI N。TAYLOR JS.I哪e nlaggin DGAs for mulit・class classiifcation【A1.Advances in neural information Pro. cessing Systems 12【C】.MA:MIT Pres8,2000.547-553. 【5】TAKAHASHI S,ABE S.Decision-Tree.Based Mulit.Class Support Vector Machines【A】.Proceeding of the Ninth International Confer- ence on Neural Information Processing[C】.Singapore:IEEE Pres3, 2002.14l8—1422. 【6】 BENNETr K,CRISTIANINI N,WU D.Enlarging the ma n3 in perception decision tree【J】.Machine Learning,2000,41(3):295 —3l3. I 7】 AZIMI SM,ZCKAVAT S.Cloud classification using support vector machines【A】.Proceeding of the IEEE Geoscience and Remote Sensing Symposium【C】.2000.669—671. I 8】 邓乃扬。田英杰.数据挖掘中的新方法——支持向量机【M】.北 京:科学出版社,2004.