连续属性完全贝叶斯分类器的学习与优化
2023-10-26
来源:易榕旅网
第35卷第1o期 计 算 机 学 报 Vo1.35 No.10 Oct.2O12 2012年1O月 CHINESE joURNAL OF COMPUTERS 连续属性完全贝叶斯分类器的学习与优化 王双成” 杜瑞杰” 刘 颖” ”(上海立信会计学院数学与信息学院 上海 201620)。’(上海立信会计学院开放经济与贸易研究中心上海 201620) 摘 要针对连续属性朴素贝叶斯分类器不能有效利用属性之间的条件依赖信息,而依赖扩展又很难实现属性条 件联合密度估计和结构学习协同优化的问题,文中在使用多元高斯核函数估计属性条件联合密度的基础上,建立 了具有多平滑参数的连续属性完全贝叶斯分类器,并给出将分类准确性标准与区间异步长划分完全搜索相结合的 平滑参数优化方法,再通过时序扩展构建了动态完全贝叶斯分类器.我们使用UCI机器学习数据仓库中连续属性 分类数据和宏观经济数据进行实验,结果显示,经过优化的两种分类器均具有良好的分类准确性. 关键词连续属性;完全贝叶斯分类器;动态完全贝叶斯分类器;高斯核函数;平滑参数 DOI号:10.3724/SP.J.1016.2012.02129 中国法分类号TP181 The Learning and Optimization of Full Bayes Classifiers with Continuous Attributes WANG Shuang—Cheng ’ DU Rui—Jie ’LIU Ying ”(School of Mathematics and Inrformation,Shanghai Lixin University of Commerce,Shanghai 210620) (Open Economic and Trade Research Center,Shanghai Lixin University of Commerce,Shanghai 210620) Abstract The naive Bayes classifiers with continuous attributes can not make the effective use of conditional dependency information between attributes.In dependency extension of naive Bayes classifiers,it is very difficult that the optimization of attribute conditional joint density estimation and structure learning of classifiers are integrated.In this paper,on the basis of using multivari— ate Gaussian kernel function to estimate the conditional joint density of attributes,a full Bayes classifier with continuous attributes and multi smoothing parameters is presented.The smoothing parameters are optimized by combining the evaluation criteria of classification accuracy and full search method based on interval division with asynchronous long.A dynamic full Bayes classifier is also developed by combining full Bayes classifier with time series.Experiment and analysis are done by using data sets with continuous attributes in UCI machine learning repository and macro— economic field.The results show that two kinds of optimized classifiers have very good classifica— tion accuracy. Keywords continuous attributes;full Bayes classifiers;dynamic full Bayes classifiers;Gaussian kernel function;smoothing parameters 满条件分布进行分类.可以在理论上证明贝叶斯分 引 仁 贝叶斯分类器是一个基础概率分类器,它使用 类器是最优分类器,但直接使用这种分类器进行分 类比较困难,需要对所依据的满条件分布进行转化 或增加一些约束条件来提高运算效率和计算的可行 收稿日期:2012 06—30;最终修改稿收到日期:2012—08—10.本课题得到国家自然科学基金(11101284)、教育部人文社科基金 (10YJA630154,12YJA630123)、上海市教委重点学科建设项目(J51702)及上海市教委科研创新项目(11YZ240)资助.王双成,男,1958 年生,博士,教授,主要研究领域为人工智能、机器学习、数据挖掘与应用.E—mail:wangsc@lixin.edu.CD_.杜瑞杰,女,1980年生,博士,讲 师,主要研究方向为机器学习与数据挖掘.刘颖,女,1980年生,博士,副教授,主要研究方向为图形理论和机器学习. 计 算 机 学 报 性,这样便产生一系列贝叶斯分类器的衍生分类器. 标准优化平滑参数,将经过平滑参数优化的分类器 称为Flexible Naive Bayes Classifier,实验结果显 示,这种分类器的分类准确性优于Flexible Bayes 朴素贝叶斯分类器(naive Bayes classifiers,简记为 NBC)是最简单的衍生分类器,它以高效率和良好 的分类准确性而著称,被广泛用于医疗诊断、文本分 Classifier和C4.5,其原因是平滑参数的优化使所 估计的属性条件密度更接近于真实的密度,从而提 类、邮件过滤和信息检索等.NBC基于一个很强的 条件独立性假设,这使得属性之间的条件依赖信息 无法得到有效的利用,而这部分信息往往也是分类 的重要信息.鉴于此,对NBC的依赖扩展便成为贝 叶斯分类器衍生分类器的重要研究内容.其中对离 散属性NBC的依赖扩展研究较多,如Chow和 高了分类器的分类准确性.Huang_g 对基于高斯核 函数估计属性条件密度的NBC与支持向量机进行 了比较,发现经过优化的NBC的分类准确性优于支 持向量机,并将NBC用于信用风险预测.在连续属 性之间依赖信息利用方面,李旭升和郭春香等人[10] Liu__1 的依赖树、Friedman和Geiger等人_2]的TAN (Tree augmented naive Bayes)分类器、Grossman 和Domingosl3 的基于条件似然打分一搜索的贝叶斯 网络分类器学习,Jing和Pavlovie等人l4 对TAN 分类器的属性选择和参数集成、Webb和Boughton 等人 对NBC的k阶依赖扩展的理论分析和对比 实验(如果综合考虑分类器偏差、方差和学习效率, 认为二阶依赖扩展分类器具有最好的性能)等.对于 连续属性NBC,可采用两种处理方法:一种是连续 属性的离散化,最终将其转化为离散属性的分类器 问题;另一种是不离散化连续属性,但需要估计属性 条件密度.两种方法各有优势和不足,第1种方法适 用于具有较少类的大数据集,以保证属性条件概率 得到可靠的估计;第2种方法更适合于多类较小数 据集(估计属性条件密度不需要很多数据)的情况, 能够避免由离散化所导致的信息丢失、引入噪声和 类对属性的变化不够敏感等问题.连续属性NBC研 究的两个核心问题是属性条件密度估计和属性之间 条件依赖信息的利用.在属性条件密度估计方面, John和Langleyl6 研究了使用经典的高斯函数和高 斯核函数估计属性条件密度而得到的Gaussian Naive Bayes Classifier和Flexible Bayes Classifier, 并在UCI机器学习数据仓库中选择了一些具有连 续属性的数据集,对这两个分类器与C4.5进行了 分类准确性比较,结果基于高斯核函数的分类器优 于高斯函数分类器,但不如C4.5,其主要原因是:使 用高斯函数来估计属性条件密度可能与实际密度有 较大的差距,而采用高斯核函数的估计又没有对拟 合数据的程度进行控制,再有连续属性之间的依赖 信息也得不到有效的利用,这些都会影响分类器的 分类准确性.P ̄rez和Larranga等人_7 在John和 Langley研究的基础上,为用于估计属性条件密度的 高斯核函数引入单平滑参数(smoothing parameter), 并使用MISE(Mean Integrated Square Error)统计 基于似然打分对连续属性NBC进行了树结构的依 赖扩展,使扩展后分类器的分类准确性有所改进. P6rez和Larranga等人通过连续属性的互信息计算 对NBC进行依赖扩展,分别给出了对NBC进行树、 忌依赖和完全依赖扩展而得到的分类器,但在依赖 扩展过程中,属性之间是否增加边取决于属性之间 条件互信息的大小,这与对分类的贡献大小可能不 一致,从而会影响分类准确性. 目前,对连续属性贝叶斯分类器的衍生分类器 虽有一些研究,但所建立分类器的分类准确性还有 待提高. 本文的主要贡献如下: (1)在0-1损失下证明连续属性贝叶斯分类器 是最优分类器,并给出贝叶斯分类器衍生分类器家 族的构成. (2)将多元高斯核函数用于属性条件联合密度 估计,建立与贝叶斯分类器等价的连续属性完全贝 叶斯分类器(Full Bayes Classifier,FBC). (3)为连续属性完全贝叶斯分类器的每一个属 性引入一个平滑参数,并给出平滑参数优化方法,从 而实现属性之间依赖信息利用和属性条件联合密度 估计优化的统筹兼顾. (4)将连续属性完全贝叶斯分类器与时问序列 相结合,建立连续属性动态完全贝叶斯分类器 (Dynamic Full Bayes Classifier,DFBC),并将其用 于宏观经济指标波动转折点预测. 我们使用UCI机器学习数据仓库①中连续属性 分类数据和宏观经济数据进行实验,结果显示,经过 优化的连续属性完全贝叶斯分类器和动态完全贝叶 斯分类器均具有良好的分类准确性. 本文第1节对贝叶斯分类器的衍生分类器的研 ① Murphy S L,Aha D W.UCI repository of machine learn— ing databases.http:} www.ics.uci.edu/~mlearn/MLRe— pository.Html,2011 王双成等:连续属性完全贝叶斯分类器的学习与优化 究现状进行评述;第2节给出连续属性贝叶斯分类 器是最优分类器. 器的最优性证明和贝叶斯分类器的衍生分类器家族 证明. 设F和F 分别为任意的分类器和连 的构成;第3节在使用多元高斯核函数估计属性条 续属性贝叶斯分类器,对给定的情况.z , z ,…, , 件联合密度的基础上,建立连续属性完全贝叶斯分 类C的可能取值为C ,C。,…,c ,记P 一P(c l zl, 类器和优化方法;第4节结合连续属性完全贝叶斯 zz,…,.z ),P 一max{p },贝0有 1 £<-rc 分类器与时间序列构建动态完全贝叶斯分类器;第 5节是实验和分析;第6节是结论和进一步的工作. p(c (z1, 2,…,z )一c(xl,z2,…,z )) 一 max {p(cl 2C1,X2,…,z )} ‘ 1’ 2’…¨ j 2连续属性贝叶斯分类器 —P . P(c (z1,X2,…,z )一c(xl,z2,…,_z )) 用X ,Xz,…,X ,C表示连续属性和类,z , 一 (argmax{p(c (z1,CC2,…,-z )))) c(x1’ 2’…¨ ) zz,…,z ,c为其值,D是具有N个记录的数据集, 数据随机产生于混合分布P, (1 ,1 m 一P ∈{P ,P ,…,P c}, N)和C 表示x 和C在数据集D中第 个记录的 因此,P(c ( l, 2,…,lz )一f( 1, 2,…,lz ))三三三 观测值. P(c (Izl,z2,…, )一C(z1,z2,…,z )),从而 用C (.z ,z。,…,-z )表示分类器F的分类结 CR(c (z1,z2,…, ))三三三CR(c (1z1,z2,…,z )), 果,c(x , z,…, )为真正的结果. 所以连续属性贝叶斯分类器是最优分类器. 证毕. 定义1. 对连续属性分类器F,称 虽然连续属性贝叶斯分类器在理论上是最优分 r r CR(F)一I…I√ J P(1z , 2,…,z ) 类器,但直接计算满条件概率p(c f,z ,…, )非 常困难.根据概率公式,可得 l P(C (zl,JC2,…,z )≠c(z1,z2,…, ))dsc1…dx (1) (cIz ,zz,…,z )一 詈妻 _l 为F的平均0—1损失(或风险),使CR(F)最小的分 一 !! !=三 !:::! !l!! ,p(x1, 2,…,z ) 类器称为最优分类器. 一ap(c)P( 1, 2,…, l c) (3) 定义2.对概率分布p(c,z。, ,…,.z ),称使用 其中 是与c无关的量.式(3)将满条件概率 满条件分布p(c lz ,z。,…, )进行分类的分类器 p(c I 3C ,z ,…,z )计算转化为类先验概率P(c)与 argmax{P(c『lz1,z2,…,z )) (2) “ 1’ 2’…’ n, 属性条件联合密度P(sc ,z ,…, l c)的计算问题. 为贝叶斯分类器. 由对p(x ,z ,…,z I c)计算方式的不同便产生了下 定理1. 在0~1损失下,连续属性贝叶斯分类 面图1中列出的各种贝叶斯分类器的衍生分类器. 拟合数据程度增加 图1 贝叶斯分类器和它的衍生分类器 在NBC结构中,属性结点除类父结点外没有属 性父结点(给定类时,属性之间条件独立),这样可以 p(x・,zz,…,z l c)一IIp(x l (z ),c),其中 (z ) i=1 是x 的属性父结点gp(X )的取值,得到的是链增强 得到p(x ,zz,…,z l c)一II p(x l c);当属性结点 NBC当属性结点最多只能有一个属性父结点,但可 z=1 最多只能有一个属性父结点和一个子结点时, 以有多个子结点时,P(z ,Xz,…,z l c)一IIp(x I i=1 2132 计 算 机 学 报 2012年 7r(z ),c),其中7r(z )是X 的属性父结点Ⅱ(X )的 取值,得到的是树增强NBC;当属性结点可以有多 个属性父结点和子结点时(不能产生有向环), n (zi,7E2…z Jf,D)一 1 p(x ,zz,…, l c)一l l p(x l 7r ,c),其中 是x 的 i=1 其中K (・)和h (i一1,2,…,n)分别是X 的核函数 属性父结点集Ⅱ 的配置,得到的是图(或网络)增强 NBC;当属性结点之间构成完全有向无环图(不考虑 和平滑参数,s n(cm)一{1 ’Cm_ . 1U, Cm≠C 条件独立关系),P(z ,z ,…,z I c)一I1 P(z I —我们取K (・)为高斯核函数(也可以取其它的 I ,z。,…,z ,c),得到的是FBC,这种分类器能够 核函数),即K ( )一g(x …hi),g(x ; 充分利用属性之间的条件依赖信息,但易于导致对 数据的过度拟合,需要对分类器与数据的拟合程度 进行控制. 3 连续属性FBC 定义3. 对概率分布p(c, 。,-z ,…,z ),称分 类器 argmax{P(c,z1,z2,…, )} t 1, 2’…'j-j ”或 argmax{ (f) (z1, 2,…,z I c)} (4) c( 1, 2 t…, ) 为完全贝叶斯分类器. 推论1. 在0—1损失下,连续属性完全贝叶斯 分类器是最优分类器.∑一 FBC不施加任何条件独立性假设,这使得该分 类器的结构是一个完全有向无环图(所有的完全有 向无环图等价),如图2所示. Ⅱ I= 图2 FBC结构 与NBC一样,FBC也不需要结构学习,建立连 续属性FBC的核心是属性条件联合密度估计与 优化. 3.1属性条件联合密度估计 我们采用统计多元核函数方法n 来估计属性 条件联合密度,并在多元核函数中为每个属性引入 一个平滑参数,通过平滑参数的调整来控制分类器 与数据的拟合程度. 用p( -z …-z l f,D)表示在数据集D基础上 的属性条件联合密度估计,基于统计多元核函数的 属性条件联合密度估计一般形式为 ‰ ,一 唧[一 ]挪么 P(zlz2…z l C,D)一 加 ) 一删 (6) 其中N(c)是训练集中C=-c的情况数量. 结合 ( )一 ,具有多平滑参数的完全贝 叶斯分类器对N+1情况的分类结果为 argmax c( l(N+1)t 2(N+1),…, n(~+1)) {∑[Ⅱsig,za(cm)g(zf( ,hi)])(7) 除采用多元高斯核函数进行属性条件联合密度 估计外,还可以使用多元高斯函数、扩展的多元高斯 核函数和高斯Copula函数(从计算效率和可靠性方 面考虑,扩展的高斯核函数中的平滑参数矩阵和高 斯Copula函数中的协方差矩阵可采用三对角对称矩 阵)等来估计属性条件联合密度,在实验部分分别给 出了几种属性条件联合密度估计方法的对比实验. 3.2属性条件联合密度优化 基于多元高斯核函数估计属性条件联合密度的 优化有许多统计方法(但需要某种分布的假设,如联 合高斯分布等),我们通过对平滑参数的打分一搜索 来实现属性条件联合密度的优化.以分类器的分类 准确性为打分标准,搜索策略采用区间异步长划分 完全搜索. 分类准确性估计采用1O折交叉有效性(10一 fold cross—validation)验证方法,Kohavi_1 曾对各种 常用的分类准确性估计方法进行过综合实验与统计 分析,认为基于1o折交叉有效性验证方法所进行的 分类准确性估计更加可靠.平滑参数决定着做叠加 的高斯函数曲线形状,因此能够控制所估计的属性 条件联合密度与数据的拟合程度.随着平滑参数接 近于零,所估计的属性条件联合密度会更加拟合数 王双成等:连续属性完全贝叶斯分类器的学习与优化 2133 据(也称为噪声估计),并会产生过度拟合现象(欠平 滑);而随着平滑参数的增大,将使所估计的属性条 对确定的平滑参数h ,属性条件联合密度估计需要 进行Nn次高斯函数计算.用M表示单平滑参数所 有可能的取值数量,那么,在多平滑参数优化的过程 件联合密度逐渐趋近于真实密度,直到取得最优平 滑参数(具有最佳分类效果的平滑参数).如果平滑 中需要进行MNn 次高斯函数计算,而M是一个与 N和,z都无关的量,可以看做是一个常量,因此,建 立最优多参数FBC的时间复杂度是O(Nn ). 参数持续增大,所估计的属性条件联合密度对数据 的拟合程度将继续下降,以至于会出现欠拟合(过平 滑)现象. 对于单平滑参数( 一h 一h 一・一h )的完全 贝叶斯分类器,采用区间异步长划分完全搜索方法 发现最优平滑参数.一般根据实验确定平滑参数的 4 连续属性DFBC DFBC是FBC与时间序列的结合,能够有效利 用类的动态时序信息和时间片内属性之问的依赖信 息,是多变量时间序列预测的有力工具.分别用 界值h 。 和h…,十进位点将[ -n,h ]分成一些子 区间,在这些子区间中的步长依次记为△ ,△z,… (为提高效率,步长可逐渐增加),这样便可得到平滑 参数的取值集合,通过以分类准确性为标准的遍历 X [1],X [2],…,X [T](1 i三三三 )和C[1], c[2],…,C[T]表示属性和类序列, [1],z [2],…, .z [明和c[1],cI=2],…, T]是具体的取值;DE1], D[2],…,D[ 是累计时间片数据集序列,D[1](== D[2](==…CD[T],N[1],N[2],…,N[T]是对应 时序数据集中的例子数量. 4.1分类器结构和表示形式 打分一搜索来发现最优平滑参数.对于具有多平滑参 数的情况,首先根据Quinlan口 的信息增益率为属 性排序,其中的条件密度计算采用高斯核函数,平滑 参数使用John和Langley的方法进行设置.采用单 平滑参数的优化方法依次进行多平滑参数的优化 (将单参数最优值作为多参数的初始配置),最终获 在DFBC结构中,类时间序列构成马尔科夫 链,给定一个时间片内的类时,所属的时间片属性与 其它时间片内的属性和类条件独立,图3给出的是 DFBC结构. 得所有平滑参数的局部最优配置. 3.3时间复杂性分析 建立FBC的主要运算是计算高斯函数,因此, 图3 DFBC结构 依据贝叶斯网络理论、概率公式和图3中所蕴 含的条件独立性关系可得 z [ ],…,z [ ]I c1= ])为时间片属性条件联合密度. 4.2分类准确性评价标准 (c[£]l c[1],c[2],…,c[£一1],z [1],ze[1],…, Eli,…,-z [f],z Et],…,z [t-1) 一P(f[ ]I c[£~1],-z Et], 。It],…,z [£]) (c[£],c[ 一1],z [£],z [tl,…,z [£]) (c[ 一1],z It],z。[ ],…, It]) (c[ ]l c[ 一1]) ( 。[ ],z [ ],…,.z It]l c[ ]) 设有时序数据z [1],z [1],…,z Eli,c[1],…, z IT],z [T],…,z [T], T],选择一个界值 , To的值可依据时间序列的大小T、类转移概率与条 件密度估计的有效性或实际需要来确定.用 accuracy(dfbc,p,D[T],To)表示DFBC的分类准 确率,p一(1D ,lDz,… P ),c 。 [ ]是使用D[t--1] 进行训练,并依据X It],z。It],…,z It]的配置对 一 (8) 其中 是与cIt]无关的量. DFBC可表示为 argmax f[ ](f ~】], 1[ ・ 2[ ],…, [f]) c[ ]的预测结果,C It]是真正的结果,那么 accuracy(dfbc,p,D[T],To): 1 了、 {p(c[t-]l c[t一1]) (z It],z。It],…,z It]l cEt])) (9) u r 丁^+1 ∑ ignb(c It] 嘲) (10) 其中,P(CIt]l CIt一1])是类转移概率,P(z [ ], 其中 计 算 机 学 报 s 6 cc 。 [z ,c =={ : ::::: :: . 5实验与分析 首先,在UCI机器学习数据仓库中选择28个 连续属性的分类数据集,删除具有丢失数据的记录, 对属性数据进行规范化处理,数据集中记录的位置 也进行随机初始化,从不同分类器之间的分类准确 性比较和平滑参数对分类准确性的影响两方面进行 FBC的实验与分析;然后,再使用3个宏观经济指 标时序数据集进行DFBC的实验与分析. 5.1 UCI数据集描述 在所选择的UCI数据集中,对几个较大的数据 集顺序截取其中的一部分数据,打*号的数据集为经 过截取的数据集,数据集的基本情况如表1所示. 表1 UCI数据集描述 编号 1 2 3 4 数据集 Ae train Arabicdigit _例子数量 属性数量 类数 774 736 699 106 编号 1 5 16 17 18 数据集 Iris Liver disease MagicGammatelescope —例子数量 属性数量 类数 15O 345 718 215 12 13 10 9 9 2 2 6 4 6 10 5 3 2 2 3 Breast cancer Breast tissue New thyroid 5 6 Cardiotocography Cmc 726 1 376 27 9 10 2 19 20 Parkinsons Pima 195 768 456 22 8 24 2 2 3 7 8 9 Column 3c ConnectionistBench 310 528 292 6 10 5 3 1 1 4 21 22 23 Sensorreading —Spambase Statlog 601 1310 30 l6 2 7 Ecoli 10 11 12 1 3 Glass Heart disease Horse colic Imagesegmentation —214 270 300 209 349 9 13 22 1 6 33 6 2 2 7 2 24 25 26 27 28 Transfusion Wdpc Wine Wpbe Yeast 748 569 178 198 1484 4 31 13 34 6 2 2 3 2 4 14 Ionosphere 5.2分类准确性比较 FBC相对于其它14个分类器具有优势的程度依次 是8.23 、6.57 、18.97 、17.89 、14.36%、 5.98 、2.43 、1O.58 、4.87 、22.69 、9.84 、 经过实验发现,平滑参数的峰值一般在0.001~ 0.1之间.取h…一0.001,h 一0.1,A1—0.001, △ 一0.005,分别选择对连续属性离散化的NBC和 6.89 、4.87 9/6和3.87 ,这显示了经过多参数优 TAN分类器(DNB,DTAN)、基于高斯函数估计属 性条件密度的分类器(GNB)、John等人给出的分类 化的FBC具有良好的分类准确性,在多类值的数据 集中尤其如此.总的来看,FBC优于NBC,这说明 器(Flexible Bayes Classifier,FLBC)、P4rez等人建 立的使用MISE标准优化平滑参数的分类器(Flexible Naive Bayes Classifier,FNBC)、单参数和多参数优 化的朴素贝叶斯分类器(SNB,MNB)、使用高斯核 函数进行属性之间条件信息计算的朴素贝叶斯分类 器树结构依赖扩展分类器(cTAN)、C4.5、支持向 量机(SVM)、基于具有三对角协方差矩阵多元高斯 函数的完全贝叶斯分类器(GFBC)、具有三对角平 滑参数矩阵的多元高斯核函数完全贝叶斯分类器 (KFBC)、具有三对角协方差矩阵Copula函数的完 全贝叶斯分类器(CFBC)、基于多元高斯核函数的 具有单参数和多参数完全贝叶斯分类器(SFB, FBC能够有效地利用属性之间的依赖信息,提高了 分类器的分类准确性. 使用表2中的数据所绘制的FBC与其它分类 器,关于28个数据集的分类错误率比较散点图如 图4所示.图中每一个点的坐标是用于比较的两个 分类器的分类错误率,在45。线上方、下方和线上的 点分别表示经过多平滑参数优化的完全贝叶斯分类 器分类错误率小于、大于和等于用于比较的分类器. 从图4中的14个比较图来看,多参数FBC的 分类准确率优于其它分类器,在28个数据集中分类 准确性占优的百分比依次是92.85 、75.O() 、 96.42 、96.42 、1O0.O0 、82.14 、53.57 、 85.71 、82.14 、i00.O0 、85.71 、92.85 、 MFB),采用10折交叉有效性验证方法进行分类器 的分类错误率估计,分类器的分类错误率实验结果 如表2所示. 78.57 和89.28 .其中具有最小百分比的是 MNB,可见,经过优化的MNB也具有良好的分类 准确性. 从表2的总体平均值来看,经过多参数优化的 1O期 王双成等:连续属性完全贝叶斯分类器的学习与优化 0∞ 2135 Z 0 MFB MFB (a)MFB对DNB (b)MFB对DTAN (c)MFB对GNB O 5 0 4 O 3 ,、lH 0 O 2 0 1 O (d)MFB对FI BC 0.5 (e)MFB对FNBC (f)MFB对SNB 0.4 Z 0.3 《 0 02 .0.1 O (g)MFB对MNB (h)MFB对CTAN (i)MFB对C4.5 (j)MFB对SVM (k)MFB对GFBC (1)MFB¥ ̄J-KFBC (m)MFB对CFBC (n)MFB对SFB 图4分类错误率比较散点图 2l36 计 算 机 学 报 2012年 ArabicDigit _0.2740 0.2795 0.3494 0.3247 0.3494 0.3247 0.311O 0.2726 0.3233 0.2311 0.2740 0.2398 0.3233 0.2220 0.1973 0.0358 0.0486 0.0372 0.0258 0.0377 0.0243 0.0243 0.0500 0.0601 0.0372 0.0572 0.0558 0.0243 0.0377 0.0286 0.2900 0.3200 0.3700 0.6100 0.5600 0.2800 0.2400 0.31O0 0.3491 0.5936 0.2900 0.3700 0.3100 0.3000 0.2400 Breastcancer Breasttissue Cardiotocography Cmc 0.2542 0.2389 0.5420 0.6292 0.5820 0.3223 0.2417 0.4333 0.2118 0.7158 0.3827 0.3653 0.3084 0.2709 0.1889 0.3285 0.3271 0.3504 0.3402 0.3475 0.3395 0.3336 0.3270 0.3176 0.3722 0.3745 0.3884 0.3278 0.3212 0.3154 0.2259 0.1871 0.5162 0.3226 0.2678 0.2323 0.1581 0.1677 0.1935 0.3355 0.1839 0.2291 0.2291 0.2355 0.1549 Column3C ConnectionistBench 0.4039 0.3866 0.3385 0.4251 0.2635 0.1808 0.1385 0.2288 0.2102 0.6535 0.5424 0.0289 0.1827 0.0250 0.0135 Ecoli Glass Hearldisease 0.1035 0.1000 0.0794 0.0863 0.0656 0.0656 0.0449 0.0689 0.0994 0.1237 0.0794 0.0690 0.0483 0.0621 0.0552 0.3429 0.3000 0.5096 0.5239 0.4620 0.3334 0.3197 0.5333 0.3599 0.6427 0.4620 0.4000 0.2953 0.3429 0.3096 0.1334 0.1445 0.1408 0.1593 0.1667 0.1555 0.1408 0.1555 0.2260 0.1667 0.1519 0.1667 0.1556 0.1630 0.1445 . . . . . .0 2834 0 2834 0 3400 0 3334 0 3400 0 3267 0.3000 0.3600 0.3133 0.3300 0.2934 0.3000 0.3067 0.2967 0.2367 Horse eolie Image Segmentation 0 1450 0 . .1 350 0 2300 0 2800 0 2300 0 . . . .1300 0.0750 0.2200 0.1145 0.4974 0.1500 0.1950 0.1400 0.1200 0.1000 Ionosphere Iris 0.2572 0.2858 0.5372 0.3572 0.3629 0.3572 0.3258 0.5200 0.2349 0.3581 0.2800 0.3372 0.2972 0.3629 0.2315 0.0400 0.0400 0.0400 0.0467 0.0467 0.0334 0.0334 0.0267 0.0467 0.0601 0.0200 0.0334 0.0334 0.0334 0.0267 Liver disease MAGICGamma —0.3000 0.2883 0.4471 0.3942 0.3765 0.3765 0.3471 0.4117 0.3276 0.4220 0.3030 0.3736 0.3383 0.3530 0.3500 0.2522 0.2817 0.3709 0.3198 0.3198 O.3198 0.2862 0.3198 0.1894 0.2422 0.2930 0.3479 0.2451 0.2508 0.1958 0.0454 0.0454 0.0500 0.1046 0.0864 0.0319 0.0273 0.0545 0.0931 0.1859 0.0864 0.0682 0.0410 0.0410 0.0410 New thyroid Parkinsons Pima 0.1650 0.1200 0.3050 0.1900 0.1600 0.11OO 0.0750 0.2600 0.1283 0.2500 0.1600 0.0900 0.1050 0.0700 0.0350 0.2390 0.2356 0.2481 0.2611 0.261l 0.2611 0.2377 0.2441 0.2657 0.2382 0.2715 0.2949 0.2377 0.2403 0.2377 0.3688 0.0571 0.3883 0.3156 0.2600 0.1800 0.2423 0.1 5l2 0.1 556 0.1245 0.3934 0.3356 0.3067 0.1756 0.1267Sensor readings Spambase Statlog Transfusion Wine 0.1 684 0.1417 0.3900 0.3867 0.3600 0.1650 0.1317 0.1566 0.1610 0.3898 0.1817 0.1551 0.1650 0.2417 0.1534 0.1657 0.1230 0.1764 0.1252 0.0932 0.0726 0.0565 0.1770 0.0496 0.1168 0.1649 0.0825 0.0726 0.0344 0.0252 0.2640 0.2267 0.2240 0.2240 0.2414 0.2040 0.2507 0.316O 0.316O O.316O 0.2347 0.3160 0.2300 0.2382 0.30810.1 412 0.1295 0.0295 0.0530 0.0412 0.0236 0.0177 0.01774 0.1012 0.0445 0.0518 0.0000 0.0236 0.0412 0.0236 Wdbc Wpbc Yeast 0.0447 0.0375 0.0661 0.0661 0.0590 0.0590 0.0483 0.0589 0.0739 0.0654 0.0118 0.0822 0.0572 0.0322 0.0233 0.4200 0.3650 0.4250 0.2700 0.2750 0.I858 0.1767 0.1532 0.2076 0.2362 0.2000 0。2200 0.2250 0.2300 0.2300 0.4548 0.4007 0.4088 0.4710 0.4115 0.3247 0.3110 0.2726 0.3233 0.6i55 0.4176 0.39i9 0.3980 0.3784 0.3717 平均值0.1764 0.2371 0.1956 0.3124 0.2320 0.2108 0.1956 O.1878 O.1564 0.2206 0.2084 0.2909 0.2844 0.2623 0.2040 5.3 平滑参数变化对分类准确性的影响 选择Column一3c、Connectionist—Bench、Glass、 sensOrreading和spambase这5个数据集,分别从 —峰值或高原区间.在0.001~0.1范围内,对5个数 据集,分类准确率的最大变化跨度依次是32.87 、 54.75 、18.58 、33.33 和13.67 ,可见单平滑 单参和多参变化两方面进行平滑参数对分类准确性 的影响程度计算与分析,如图5和图6所示,其中 n1一O.001,…,n9一O.OO9,n1O—O.O1,a11=== 0.O15,…,n28—0.1. 参数变化对分类器的分类准确性有较大的影响,因 为所描述的是所有属性对分类的影响. (2)多平滑参数中单参数变化的影响 在5个数据集中,依次选择平滑参数 、矗 、 、 ^ 和^ 。.对每一个数据集,除选择的平滑参数外, (1)单平滑参数变化的影响 单平滑参数( 一矗 一 。一・一^ )变化对FBc 其它参数取单参数优化后的最优值,所选择的参数 变化对分类器分类准确性的影响情况如图6所示. 分类准确性的影响情况如图5所示. 平滑参数值 平滑参数值 图6多平滑参数中的单参数对分类准确性的影响 图5 单平滑参数对分类准确性的影响 从图5能够看到,随着平滑参数的变化,分类器 从图6的总体来看,多参数中的单参变化相对更 的分类准确率一般也在发生变化,曲线都有明显的 加平缓(个别情况变化较大),但它们的累积影响往往 10期 王双成等:连续属性完全贝叶斯分类器的学习与优化 2137 大于单参数,也就是通过局部调整会使所估计的属性 条件联合密度更接近于真实密度,从而使经过优化的 实际有效汇率指数和能源消费总量,按照是否为时序 转折点(时序变化的上下局部极值点为转折点)进行 二值离散化作为类变量,进行动态分类准确性实验. 具有多平滑参数FBC具有更好的分类准确性. 5.4 DFBC的分类准确性比较 选择与GDP(Gross Domestic Product)、ERF (Exchange Rate Fluctuations)和EC(Energy Con— 分别采用条件随机场(CRF)l_】 ,对基于高斯函 数、单平滑参数高斯核函数和多平滑参数高斯核函 数估计属性条件密度的动态朴素贝叶斯分类器 sumption)相关的3个宏观经济指标集,从国家统计 局和相关数据源获取时序数据,时序数据记录数量依 (GDNB、SKDNB和MKDNB),具有多平滑参数的 动态完全贝叶斯分类器(MKDFB)进行比较, 依 次选取后11个时间点,情况如表3到表5所示. 次是20、31和25.将3个数据集中的国内生产总值、 表3 GDP波动转折点预测 从表3到表5综合来看,经过多参优化的动态 朴素贝叶斯分类器,在分类准确率方面优于前面的 态完全贝叶斯分类器具有良好的分类准确性.但以 分类准确性为标准的分类器优化对大数据集会存在 分类器,而经过多参优化的动态完全贝叶斯分类器 还要好于动态朴素贝叶斯分类器.可见,动态完全贝 叶斯分类器同样具有良好的分类准确性. 效率问题,而且多参数贪婪搜索也可能导致局部最 优的问题,我们进一步的研究工作是如何提高学习 效率和实现多平滑参数的全局优化. 参 考 文 献 [1]Chow C K,Liu C N.Approximating discrete probability dis— tributions with dependence trees.IEEE Transactions on Information Theory,1968,14(3):462—467 6结论和进一步的工作 本文在使用具有多平滑参数的多元高斯核函数 来估计属性条件联合密度的基础上,建立了能够有 效利用属性之间条件依赖信息的完全贝叶斯分类器 和动态完全贝叶斯分类器,并给出了将分类准确性 [2]Friedman N,Geiger D,Ooldszmidt M.Bayesian network classifiers.Machine Learning,1997,29(2-3):131 161 标准与平滑参数区间异步长划分完全搜索相结合的 分类器优化方法,使属性条件依赖信息利用和属性 [3]Grossman D,Domingos P.Learning Bayesian network classiers by maximizing conditional 1ikel|hood//Proceedings of the 2lth International Conference on Machine I earning, 条件密度估计优化能够统筹兼顾.使用UCI机器学 习数据仓库中连续属性分类数据和宏观经济数据的 实验结果显示,经过优化的完全贝叶斯分类器和动 Alberta,Canada,2004:36l 368 [4]Jing Y S,Pavlovie V,Rehg J M.Boosted Bayesian network classifiers.Machine Learning,2008,73(2):155 184 2138 计 算 机 学 报 2012年 Fs] Webb G I,Boughton J R,Zheng F et a1.Learning by extrapolation from marginal to full—multivariate probability distributions:Decreasingly naive Bayesian classification. Machine I earning,2012,86(2):233—272 [6] John G H,I angley P.Estimating continuous distributions in Bayesian classIfiers//Proceedings of the 1lth Conference on Uncertainty in Artificial Intelligence(UAI 1995). San Mateo,USA。l995:338—345 [7] P6rez A,Larranaga P,lnza I.Supervised classification with conditional Gaussian networks:Increasing the structure corn— plexity from naive Bayes.International Journal of Approxi mate Reasoning,2006,43(1):1-25 [8] P6rez A.Larranga P.1nza 1.Bayesian classifiers based on kernel density estimation:Flexible classifiers.International Journal of Approximate Reasoning,2009,50(2):34卜362 [9] Huang S C.Using Gaussian process based kernel classifiers for credit rating forecasting.Expert Systems with Applica— tions,2011,38(7):8607—86¨ [103 I i Xu—Sheng,Guo Chun—Xiang,Guo Yao—Huang.The credit WANG Shuang-Cheng,born in 1958, Ph.D.,professor.His main research interests include artificial intelligence, machine learning,data mining and their application. Background The study of Bayes classifier family with continuous attributes is of an important part of machine learning and data mining.At present,the research of Bayes derivative classifi— ers is respectively concentrated in the optimization of attrib— ute conditional density and dependency extension to naive Bayes classifiers.Integrated optimization in two aspects is needed to improve the classification accuracy of classifiers.In this paper,the full Bayes classifiers and dynamic full Bayes classifiers with continuous attributes and multi smoothing parameters are presented on the basis of estimating the condi— tional joint density of attributes using multivariate Gaussian kernel function.They can effectively use conditional depend— ency information between attributes.The conditional joint density estimation of attributes can also be optimized by adjusting smoothing parameters.Experiment results show that optimized full Bayes classifiers and dynamic full Bayes classi— fiers have very good classification accuracy.Through this scoring model on extended tree augment naive Bayesian net— work.Systems Engineering Theory&Practice,2008。28 (6):129—136(in Chinese) (李旭升,郭春香,郭耀煌.扩展的树增强朴素贝叶斯网络信 用评估模型.系统工程理论与实践,2008,28(6):129—136) [¨] Silverman B W.Using kernel density estimates to investigate muhimodality.Journal of the RoyaI Statistical Society. 1981,43(1):97-99 [123 Kohavi R.A study of cross—validation and bootstrap for accu— racy estimation and model selection//Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI).Montr6al,Canada,1 995:1137—1143 [13] Quinlan J R.Induction of decision trees.Machine Learning, 1986,1(1):81 1O6 [14] I afferty J D,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data//Pr0ceedings of the 18th International Confer— ence on Machine Learning(ICML).WIlliams Town,MA, USA,2001:282—289 DU Rui-Jie,horn in 1980,Ph.D.,lecturer.Her main research interests include machine learning and data mining. LIU Ying,born in 1 980,Ph.D.,associate professor. Her main research interests include graph theory and machine learning. paper,the derivative classifier family of Bayes classifier can be deeply understood.But full Bayes classifiers and dynamic full Bayes classifiers have broad application prospects in many areas.The contents of this article is of an important part of NationaI Natural Science Foundation(No.11101284),Hu— manities and Soeial Science Foundation of the Chinese Educa— tion Commission(No.10YJA630154,No.12YJA630123), I eading Academic Discipline Project of Shanghai Municipal Education Commission(No.J51702), and Innovation Program of Shanghai Municipal Education Commission (No.1 1 YZ240).We have made deep studies to derivative classifier family of Bayes classifier with discrete attributes and naive Bayes classifiers optimized by attribute subset selection,Bayesian network and Markov network classifiers, Markov blanket classifiers,restricted Bayesian classification networks and so on have been respectively developed.