连续属性完全贝叶斯分类器的学习与优化

2023-10-26 来源：易榕旅网

第３５卷第１ｏ期　计　算　机　学　报　Ｖｏ１．３５　Ｎｏ．１０　Ｏｃｔ．２Ｏ１２　２０１２年１Ｏ月　ＣＨＩＮＥＳＥ　ｊｏＵＲＮＡＬ　ＯＦ　ＣＯＭＰＵＴＥＲＳ　连续属性完全贝叶斯分类器的学习与优化　　王双成”　杜瑞杰”　刘　颖”　”（上海立信会计学院数学与信息学院　上海　２０１６２０）。’（上海立信会计学院开放经济与贸易研究中心上海　２０１６２０）　摘　要针对连续属性朴素贝叶斯分类器不能有效利用属性之间的条件依赖信息，而依赖扩展又很难实现属性条　件联合密度估计和结构学习协同优化的问题，文中在使用多元高斯核函数估计属性条件联合密度的基础上，建立　了具有多平滑参数的连续属性完全贝叶斯分类器，并给出将分类准确性标准与区间异步长划分完全搜索相结合的　平滑参数优化方法，再通过时序扩展构建了动态完全贝叶斯分类器．我们使用ＵＣＩ机器学习数据仓库中连续属性　分类数据和宏观经济数据进行实验，结果显示，经过优化的两种分类器均具有良好的分类准确性．　关键词连续属性；完全贝叶斯分类器；动态完全贝叶斯分类器；高斯核函数；平滑参数　ＤＯＩ号：１０．３７２４／ＳＰ．Ｊ．１０１６．２０１２．０２１２９　中国法分类号ＴＰ１８１　Ｔｈｅ　Ｌｅａｒｎｉｎｇ　ａｎｄ　Ｏｐｔｉｍｉｚａｔｉｏｎ　ｏｆ　Ｆｕｌｌ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒｓ　ｗｉｔｈ　Ｃｏｎｔｉｎｕｏｕｓ　Ａｔｔｒｉｂｕｔｅｓ　ＷＡＮＧ　Ｓｈｕａｎｇ—Ｃｈｅｎｇ　’　ＤＵ　Ｒｕｉ—Ｊｉｅ　’ＬＩＵ　Ｙｉｎｇ　”（Ｓｃｈｏｏｌ　ｏｆ　Ｍａｔｈｅｍａｔｉｃｓ　ａｎｄ　Ｉｎｒｆｏｒｍａｔｉｏｎ，Ｓｈａｎｇｈａｉ　Ｌｉｘｉｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｏｍｍｅｒｃｅ，Ｓｈａｎｇｈａｉ　２１０６２０）　（Ｏｐｅｎ　Ｅｃｏｎｏｍｉｃ　ａｎｄ　Ｔｒａｄｅ　Ｒｅｓｅａｒｃｈ　Ｃｅｎｔｅｒ，Ｓｈａｎｇｈａｉ　Ｌｉｘｉｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｏｍｍｅｒｃｅ，Ｓｈａｎｇｈａｉ　２１０６２０）　Ａｂｓｔｒａｃｔ　Ｔｈｅ　ｎａｉｖｅ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ｗｉｔｈ　ｃｏｎｔｉｎｕｏｕｓ　ａｔｔｒｉｂｕｔｅｓ　ｃａｎ　ｎｏｔ　ｍａｋｅ　ｔｈｅ　ｅｆｆｅｃｔｉｖｅ　ｕｓｅ　ｏｆ　ｃｏｎｄｉｔｉｏｎａｌ　ｄｅｐｅｎｄｅｎｃｙ　ｉｎｆｏｒｍａｔｉｏｎ　ｂｅｔｗｅｅｎ　ａｔｔｒｉｂｕｔｅｓ．Ｉｎ　ｄｅｐｅｎｄｅｎｃｙ　ｅｘｔｅｎｓｉｏｎ　ｏｆ　ｎａｉｖｅ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ，ｉｔ　ｉｓ　ｖｅｒｙ　ｄｉｆｆｉｃｕｌｔ　ｔｈａｔ　ｔｈｅ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｏｆ　ａｔｔｒｉｂｕｔｅ　ｃｏｎｄｉｔｉｏｎａｌ　ｊｏｉｎｔ　ｄｅｎｓｉｔｙ　ｅｓｔｉｍａｔｉｏｎ　ａｎｄ　ｓｔｒｕｃｔｕｒｅ　ｌｅａｒｎｉｎｇ　ｏｆ　ｃｌａｓｓｉｆｉｅｒｓ　ａｒｅ　ｉｎｔｅｇｒａｔｅｄ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｏｎ　ｔｈｅ　ｂａｓｉｓ　ｏｆ　ｕｓｉｎｇ　ｍｕｌｔｉｖａｒｉ—　ａｔｅ　Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ　ｆｕｎｃｔｉｏｎ　ｔｏ　ｅｓｔｉｍａｔｅ　ｔｈｅ　ｃｏｎｄｉｔｉｏｎａｌ　ｊｏｉｎｔ　ｄｅｎｓｉｔｙ　ｏｆ　ａｔｔｒｉｂｕｔｅｓ，ａ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒ　ｗｉｔｈ　ｃｏｎｔｉｎｕｏｕｓ　ａｔｔｒｉｂｕｔｅｓ　ａｎｄ　ｍｕｌｔｉ　ｓｍｏｏｔｈｉｎｇ　ｐａｒａｍｅｔｅｒｓ　ｉｓ　ｐｒｅｓｅｎｔｅｄ．Ｔｈｅ　ｓｍｏｏｔｈｉｎｇ　ｐａｒａｍｅｔｅｒｓ　ａｒｅ　ｏｐｔｉｍｉｚｅｄ　ｂｙ　ｃｏｍｂｉｎｉｎｇ　ｔｈｅ　ｅｖａｌｕａｔｉｏｎ　ｃｒｉｔｅｒｉａ　ｏｆ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ　ａｎｄ　ｆｕｌｌ　ｓｅａｒｃｈ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｉｎｔｅｒｖａｌ　ｄｉｖｉｓｉｏｎ　ｗｉｔｈ　ａｓｙｎｃｈｒｏｎｏｕｓ　ｌｏｎｇ．Ａ　ｄｙｎａｍｉｃ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒ　ｉｓ　ａｌｓｏ　ｄｅｖｅｌｏｐｅｄ　ｂｙ　ｃｏｍｂｉｎｉｎｇ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒ　ｗｉｔｈ　ｔｉｍｅ　ｓｅｒｉｅｓ．Ｅｘｐｅｒｉｍｅｎｔ　ａｎｄ　ａｎａｌｙｓｉｓ　ａｒｅ　ｄｏｎｅ　ｂｙ　ｕｓｉｎｇ　ｄａｔａ　ｓｅｔｓ　ｗｉｔｈ　ｃｏｎｔｉｎｕｏｕｓ　ａｔｔｒｉｂｕｔｅｓ　ｉｎ　ＵＣＩ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ｒｅｐｏｓｉｔｏｒｙ　ａｎｄ　ｍａｃｒｏ—　ｅｃｏｎｏｍｉｃ　ｆｉｅｌｄ．Ｔｈｅ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｗｏ　ｋｉｎｄｓ　ｏｆ　ｏｐｔｉｍｉｚｅｄ　ｃｌａｓｓｉｆｉｅｒｓ　ｈａｖｅ　ｖｅｒｙ　ｇｏｏｄ　ｃｌａｓｓｉｆｉｃａ—　ｔｉｏｎ　ａｃｃｕｒａｃｙ．　Ｋｅｙｗｏｒｄｓ　ｃｏｎｔｉｎｕｏｕｓ　ａｔｔｒｉｂｕｔｅｓ；ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ；ｄｙｎａｍｉｃ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ；Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ　ｆｕｎｃｔｉｏｎ；ｓｍｏｏｔｈｉｎｇ　ｐａｒａｍｅｔｅｒｓ　满条件分布进行分类．可以在理论上证明贝叶斯分　引　仁　贝叶斯分类器是一个基础概率分类器，它使用　类器是最优分类器，但直接使用这种分类器进行分　类比较困难，需要对所依据的满条件分布进行转化　或增加一些约束条件来提高运算效率和计算的可行　收稿日期：２０１２　０６—３０；最终修改稿收到日期：２０１２—０８—１０．本课题得到国家自然科学基金（１１１０１２８４）、教育部人文社科基金　（１０ＹＪＡ６３０１５４，１２ＹＪＡ６３０１２３）、上海市教委重点学科建设项目（Ｊ５１７０２）及上海市教委科研创新项目（１１ＹＺ２４０）资助．王双成，男，１９５８　年生，博士，教授，主要研究领域为人工智能、机器学习、数据挖掘与应用．Ｅ—ｍａｉｌ：ｗａｎｇｓｃ＠ｌｉｘｉｎ．ｅｄｕ．ＣＤ＿．杜瑞杰，女，１９８０年生，博士，讲　师，主要研究方向为机器学习与数据挖掘．刘颖，女，１９８０年生，博士，副教授，主要研究方向为图形理论和机器学习．　计　算　机　学　报　性，这样便产生一系列贝叶斯分类器的衍生分类器．　标准优化平滑参数，将经过平滑参数优化的分类器　称为Ｆｌｅｘｉｂｌｅ　Ｎａｉｖｅ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ，实验结果显　示，这种分类器的分类准确性优于Ｆｌｅｘｉｂｌｅ　Ｂａｙｅｓ　朴素贝叶斯分类器（ｎａｉｖｅ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ，简记为　ＮＢＣ）是最简单的衍生分类器，它以高效率和良好　的分类准确性而著称，被广泛用于医疗诊断、文本分　Ｃｌａｓｓｉｆｉｅｒ和Ｃ４．５，其原因是平滑参数的优化使所　估计的属性条件密度更接近于真实的密度，从而提　类、邮件过滤和信息检索等．ＮＢＣ基于一个很强的　条件独立性假设，这使得属性之间的条件依赖信息　无法得到有效的利用，而这部分信息往往也是分类　的重要信息．鉴于此，对ＮＢＣ的依赖扩展便成为贝　叶斯分类器衍生分类器的重要研究内容．其中对离　散属性ＮＢＣ的依赖扩展研究较多，如Ｃｈｏｗ和　高了分类器的分类准确性．Ｈｕａｎｇ＿ｇ　对基于高斯核　函数估计属性条件密度的ＮＢＣ与支持向量机进行　了比较，发现经过优化的ＮＢＣ的分类准确性优于支　持向量机，并将ＮＢＣ用于信用风险预测．在连续属　性之间依赖信息利用方面，李旭升和郭春香等人［１０］　Ｌｉｕ＿＿１　的依赖树、Ｆｒｉｅｄｍａｎ和Ｇｅｉｇｅｒ等人＿２］的ＴＡＮ　（Ｔｒｅｅ　ａｕｇｍｅｎｔｅｄ　ｎａｉｖｅ　Ｂａｙｅｓ）分类器、Ｇｒｏｓｓｍａｎ　和Ｄｏｍｉｎｇｏｓｌ３　的基于条件似然打分一搜索的贝叶斯　网络分类器学习，Ｊｉｎｇ和Ｐａｖｌｏｖｉｅ等人ｌ４　对ＴＡＮ　分类器的属性选择和参数集成、Ｗｅｂｂ和Ｂｏｕｇｈｔｏｎ　等人　对ＮＢＣ的ｋ阶依赖扩展的理论分析和对比　实验（如果综合考虑分类器偏差、方差和学习效率，　认为二阶依赖扩展分类器具有最好的性能）等．对于　连续属性ＮＢＣ，可采用两种处理方法：一种是连续　属性的离散化，最终将其转化为离散属性的分类器　问题；另一种是不离散化连续属性，但需要估计属性　条件密度．两种方法各有优势和不足，第１种方法适　用于具有较少类的大数据集，以保证属性条件概率　得到可靠的估计；第２种方法更适合于多类较小数　据集（估计属性条件密度不需要很多数据）的情况，　能够避免由离散化所导致的信息丢失、引入噪声和　类对属性的变化不够敏感等问题．连续属性ＮＢＣ研　究的两个核心问题是属性条件密度估计和属性之间　条件依赖信息的利用．在属性条件密度估计方面，　Ｊｏｈｎ和Ｌａｎｇｌｅｙｌ６　研究了使用经典的高斯函数和高　斯核函数估计属性条件密度而得到的Ｇａｕｓｓｉａｎ　Ｎａｉｖｅ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ和Ｆｌｅｘｉｂｌｅ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ，　并在ＵＣＩ机器学习数据仓库中选择了一些具有连　续属性的数据集，对这两个分类器与Ｃ４．５进行了　分类准确性比较，结果基于高斯核函数的分类器优　于高斯函数分类器，但不如Ｃ４．５，其主要原因是：使　用高斯函数来估计属性条件密度可能与实际密度有　较大的差距，而采用高斯核函数的估计又没有对拟　合数据的程度进行控制，再有连续属性之间的依赖　信息也得不到有效的利用，这些都会影响分类器的　分类准确性．Ｐ￣ｒｅｚ和Ｌａｒｒａｎｇａ等人＿７　在Ｊｏｈｎ和　Ｌａｎｇｌｅｙ研究的基础上，为用于估计属性条件密度的　高斯核函数引入单平滑参数（ｓｍｏｏｔｈｉｎｇ　ｐａｒａｍｅｔｅｒ），　并使用ＭＩＳＥ（Ｍｅａｎ　Ｉｎｔｅｇｒａｔｅｄ　Ｓｑｕａｒｅ　Ｅｒｒｏｒ）统计　基于似然打分对连续属性ＮＢＣ进行了树结构的依　赖扩展，使扩展后分类器的分类准确性有所改进．　Ｐ６ｒｅｚ和Ｌａｒｒａｎｇａ等人通过连续属性的互信息计算　对ＮＢＣ进行依赖扩展，分别给出了对ＮＢＣ进行树、　忌依赖和完全依赖扩展而得到的分类器，但在依赖　扩展过程中，属性之间是否增加边取决于属性之间　条件互信息的大小，这与对分类的贡献大小可能不　一致，从而会影响分类准确性．　目前，对连续属性贝叶斯分类器的衍生分类器　虽有一些研究，但所建立分类器的分类准确性还有　待提高．　本文的主要贡献如下：　（１）在０－１损失下证明连续属性贝叶斯分类器　是最优分类器，并给出贝叶斯分类器衍生分类器家　族的构成．　（２）将多元高斯核函数用于属性条件联合密度　估计，建立与贝叶斯分类器等价的连续属性完全贝　叶斯分类器（Ｆｕｌｌ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ，ＦＢＣ）．　（３）为连续属性完全贝叶斯分类器的每一个属　性引入一个平滑参数，并给出平滑参数优化方法，从　而实现属性之间依赖信息利用和属性条件联合密度　估计优化的统筹兼顾．　（４）将连续属性完全贝叶斯分类器与时问序列　相结合，建立连续属性动态完全贝叶斯分类器　（Ｄｙｎａｍｉｃ　Ｆｕｌｌ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ，ＤＦＢＣ），并将其用　于宏观经济指标波动转折点预测．　我们使用ＵＣＩ机器学习数据仓库①中连续属性　分类数据和宏观经济数据进行实验，结果显示，经过　优化的连续属性完全贝叶斯分类器和动态完全贝叶　斯分类器均具有良好的分类准确性．　本文第１节对贝叶斯分类器的衍生分类器的研　①　Ｍｕｒｐｈｙ　Ｓ　Ｌ，Ａｈａ　Ｄ　Ｗ．ＵＣＩ　ｒｅｐｏｓｉｔｏｒｙ　ｏｆ　ｍａｃｈｉｎｅ　ｌｅａｒｎ—　ｉｎｇ　ｄａｔａｂａｓｅｓ．ｈｔｔｐ：｝　ｗｗｗ．ｉｃｓ．ｕｃｉ．ｅｄｕ／～ｍｌｅａｒｎ／ＭＬＲｅ—　ｐｏｓｉｔｏｒｙ．Ｈｔｍｌ，２０１１　王双成等：连续属性完全贝叶斯分类器的学习与优化　究现状进行评述；第２节给出连续属性贝叶斯分类　器是最优分类器．　器的最优性证明和贝叶斯分类器的衍生分类器家族　证明．　设Ｆ和Ｆ　分别为任意的分类器和连　的构成；第３节在使用多元高斯核函数估计属性条　续属性贝叶斯分类器，对给定的情况．ｚ　，　ｚ　，…，　，　件联合密度的基础上，建立连续属性完全贝叶斯分　类Ｃ的可能取值为Ｃ　，Ｃ。，…，ｃ　，记Ｐ　一Ｐ（ｃ　ｌ　ｚｌ，　类器和优化方法；第４节结合连续属性完全贝叶斯　ｚｚ，…，．ｚ　），Ｐ　一ｍａｘ｛ｐ　｝，贝０有　１　￡＜－ｒｃ　分类器与时间序列构建动态完全贝叶斯分类器；第　５节是实验和分析；第６节是结论和进一步的工作．　ｐ（ｃ　（ｚ１，　２，…，ｚ　）一ｃ（ｘｌ，ｚ２，…，ｚ　））　一　ｍａｘ　｛ｐ（ｃｌ　２Ｃ１，Ｘ２，…，ｚ　）｝　‘　１’　２’…¨　ｊ　２连续属性贝叶斯分类器　—Ｐ　．　Ｐ（ｃ　（ｚ１，Ｘ２，…，ｚ　）一ｃ（ｘｌ，ｚ２，…，＿ｚ　））　用Ｘ　，Ｘｚ，…，Ｘ　，Ｃ表示连续属性和类，ｚ　，　一　（ａｒｇｍａｘ｛ｐ（ｃ　（ｚ１，ＣＣ２，…，－ｚ　））））　ｃ（ｘ１’　２’…¨　）　ｚｚ，…，ｚ　，ｃ为其值，Ｄ是具有Ｎ个记录的数据集，　数据随机产生于混合分布Ｐ，　（１　，１　ｍ　一Ｐ　∈｛Ｐ　，Ｐ　，…，Ｐ　ｃ｝，　Ｎ）和Ｃ　表示ｘ　和Ｃ在数据集Ｄ中第　个记录的　因此，Ｐ（ｃ　（　ｌ，　２，…，ｌｚ　）一ｆ（　１，　２，…，ｌｚ　））三三三　观测值．　Ｐ（ｃ　（Ｉｚｌ，ｚ２，…，　）一Ｃ（ｚ１，ｚ２，…，ｚ　）），从而　用Ｃ　（．ｚ　，ｚ。，…，－ｚ　）表示分类器Ｆ的分类结　ＣＲ（ｃ　（ｚ１，ｚ２，…，　））三三三ＣＲ（ｃ　（１ｚ１，ｚ２，…，ｚ　）），　果，ｃ（ｘ　，　ｚ，…，　）为真正的结果．　所以连续属性贝叶斯分类器是最优分类器．　证毕．　定义１．　对连续属性分类器Ｆ，称　虽然连续属性贝叶斯分类器在理论上是最优分　ｒ　ｒ　ＣＲ（Ｆ）一Ｉ…Ｉ√　Ｊ　　Ｐ（１ｚ　，　２，…，ｚ　）　类器，但直接计算满条件概率ｐ（ｃ　　ｆ，ｚ　，…，　）非　常困难．根据概率公式，可得　ｌ　Ｐ（Ｃ　（ｚｌ，ＪＣ２，…，ｚ　）≠ｃ（ｚ１，ｚ２，…，　））ｄｓｃ１…ｄｘ　（１）　（ｃＩｚ　，ｚｚ，…，ｚ　）一　詈妻　＿ｌ　为Ｆ的平均０—１损失（或风险），使ＣＲ（Ｆ）最小的分　一　！！　！＝三　！：：：！　！ｌ！！　，ｐ（ｘ１，　２，…，ｚ　）　类器称为最优分类器．　一ａｐ（ｃ）Ｐ（　１，　２，…，　ｌ　ｃ）　（３）　定义２．对概率分布ｐ（ｃ，ｚ。，　，…，．ｚ　），称使用　其中　是与ｃ无关的量．式（３）将满条件概率　满条件分布ｐ（ｃ　　ｌｚ　，ｚ。，…，　）进行分类的分类器　ｐ（ｃ　Ｉ　３Ｃ　，ｚ　，…，ｚ　）计算转化为类先验概率Ｐ（ｃ）与　ａｒｇｍａｘ｛Ｐ（ｃ『ｌｚ１，ｚ２，…，ｚ　））　（２）　“　１’　２’…’　ｎ，　属性条件联合密度Ｐ（ｓｃ　，ｚ　，…，　ｌ　ｃ）的计算问题．　为贝叶斯分类器．　由对ｐ（ｘ　，ｚ　，…，ｚ　Ｉ　ｃ）计算方式的不同便产生了下　定理１．　在０～１损失下，连续属性贝叶斯分类　面图１中列出的各种贝叶斯分类器的衍生分类器．　拟合数据程度增加　图１　贝叶斯分类器和它的衍生分类器　在ＮＢＣ结构中，属性结点除类父结点外没有属　性父结点（给定类时，属性之间条件独立），这样可以　ｐ（ｘ・，ｚｚ，…，ｚ　ｌ　ｃ）一ＩＩｐ（ｘ　ｌ　（ｚ　），ｃ），其中　（ｚ　）　ｉ＝１　是ｘ　的属性父结点ｇｐ（Ｘ　）的取值，得到的是链增强　得到ｐ（ｘ　，ｚｚ，…，ｚ　ｌ　ｃ）一ＩＩ　ｐ（ｘ　ｌ　ｃ）；当属性结点　ＮＢＣ当属性结点最多只能有一个属性父结点，但可　ｚ＝１　最多只能有一个属性父结点和一个子结点时，　以有多个子结点时，Ｐ（ｚ　，Ｘｚ，…，ｚ　ｌ　ｃ）一ＩＩｐ（ｘ　Ｉ　ｉ＝１　２１３２　计　算　机　学　报　２０１２年　７ｒ（ｚ　），ｃ），其中７ｒ（ｚ　）是Ｘ　的属性父结点Ⅱ（Ｘ　）的　取值，得到的是树增强ＮＢＣ；当属性结点可以有多　个属性父结点和子结点时（不能产生有向环），　ｎ　（ｚｉ，７Ｅ２…ｚ　Ｊｆ，Ｄ）一　１　ｐ（ｘ　，ｚｚ，…，　ｌ　ｃ）一ｌ　ｌ　ｐ（ｘ　ｌ　７ｒ　，ｃ），其中　是ｘ　的　ｉ＝１　其中Ｋ　（・）和ｈ　（ｉ一１，２，…，ｎ）分别是Ｘ　的核函数　属性父结点集Ⅱ　的配置，得到的是图（或网络）增强　ＮＢＣ；当属性结点之间构成完全有向无环图（不考虑　和平滑参数，ｓ　ｎ（ｃｍ）一｛１　’Ｃｍ＿　．　１Ｕ，　Ｃｍ≠Ｃ　条件独立关系），Ｐ（ｚ　，ｚ　，…，ｚ　Ｉ　ｃ）一Ｉ１　Ｐ（ｚ　Ｉ　—我们取Ｋ　（・）为高斯核函数（也可以取其它的　Ｉ　，ｚ。，…，ｚ　，ｃ），得到的是ＦＢＣ，这种分类器能够　核函数），即Ｋ　（　）一ｇ（ｘ　…ｈｉ），ｇ（ｘ　；　充分利用属性之间的条件依赖信息，但易于导致对　数据的过度拟合，需要对分类器与数据的拟合程度　进行控制．　３　连续属性ＦＢＣ　定义３．　对概率分布ｐ（ｃ，　。，－ｚ　，…，ｚ　），称分　类器　ａｒｇｍａｘ｛Ｐ（ｃ，ｚ１，ｚ２，…，　）｝　ｔ　１，　２’…＇ｊ－ｊ　”或　ａｒｇｍａｘ｛　（ｆ）　（ｚ１，　２，…，ｚ　Ｉ　ｃ）｝　（４）　ｃ（　１，　２　ｔ…，　）　为完全贝叶斯分类器．　推论１．　在０—１损失下，连续属性完全贝叶斯　分类器是最优分类器．∑一　　ＦＢＣ不施加任何条件独立性假设，这使得该分　类器的结构是一个完全有向无环图（所有的完全有　向无环图等价），如图２所示．　Ⅱ　Ｉ＝　图２　ＦＢＣ结构　与ＮＢＣ一样，ＦＢＣ也不需要结构学习，建立连　续属性ＦＢＣ的核心是属性条件联合密度估计与　优化．　３．１属性条件联合密度估计　我们采用统计多元核函数方法ｎ　来估计属性　条件联合密度，并在多元核函数中为每个属性引入　一个平滑参数，通过平滑参数的调整来控制分类器　与数据的拟合程度．　用ｐ（　－ｚ　…－ｚ　ｌ　ｆ，Ｄ）表示在数据集Ｄ基础上　的属性条件联合密度估计，基于统计多元核函数的　属性条件联合密度估计一般形式为　‰　，一　唧［一　］挪么　Ｐ（ｚｌｚ２…ｚ　ｌ　Ｃ，Ｄ）一　加　）　一删　（６）　其中Ｎ（ｃ）是训练集中Ｃ＝－ｃ的情况数量．　结合　（　）一　，具有多平滑参数的完全贝　叶斯分类器对Ｎ＋１情况的分类结果为　ａｒｇｍａｘ　ｃ（　ｌ（Ｎ＋１）ｔ　２（Ｎ＋１），…，　ｎ（～＋１））　｛∑［Ⅱｓｉｇ，ｚａ（ｃｍ）ｇ（ｚｆ（　，ｈｉ）］）（７）　除采用多元高斯核函数进行属性条件联合密度　估计外，还可以使用多元高斯函数、扩展的多元高斯　核函数和高斯Ｃｏｐｕｌａ函数（从计算效率和可靠性方　面考虑，扩展的高斯核函数中的平滑参数矩阵和高　斯Ｃｏｐｕｌａ函数中的协方差矩阵可采用三对角对称矩　阵）等来估计属性条件联合密度，在实验部分分别给　出了几种属性条件联合密度估计方法的对比实验．　３．２属性条件联合密度优化　基于多元高斯核函数估计属性条件联合密度的　优化有许多统计方法（但需要某种分布的假设，如联　合高斯分布等），我们通过对平滑参数的打分一搜索　来实现属性条件联合密度的优化．以分类器的分类　准确性为打分标准，搜索策略采用区间异步长划分　完全搜索．　分类准确性估计采用１Ｏ折交叉有效性（１０一　ｆｏｌｄ　ｃｒｏｓｓ—ｖａｌｉｄａｔｉｏｎ）验证方法，Ｋｏｈａｖｉ＿１　曾对各种　常用的分类准确性估计方法进行过综合实验与统计　分析，认为基于１ｏ折交叉有效性验证方法所进行的　分类准确性估计更加可靠．平滑参数决定着做叠加　的高斯函数曲线形状，因此能够控制所估计的属性　条件联合密度与数据的拟合程度．随着平滑参数接　近于零，所估计的属性条件联合密度会更加拟合数　王双成等：连续属性完全贝叶斯分类器的学习与优化　２１３３　据（也称为噪声估计），并会产生过度拟合现象（欠平　滑）；而随着平滑参数的增大，将使所估计的属性条　对确定的平滑参数ｈ　，属性条件联合密度估计需要　进行Ｎｎ次高斯函数计算．用Ｍ表示单平滑参数所　有可能的取值数量，那么，在多平滑参数优化的过程　件联合密度逐渐趋近于真实密度，直到取得最优平　滑参数（具有最佳分类效果的平滑参数）．如果平滑　中需要进行ＭＮｎ　次高斯函数计算，而Ｍ是一个与　Ｎ和，ｚ都无关的量，可以看做是一个常量，因此，建　立最优多参数ＦＢＣ的时间复杂度是Ｏ（Ｎｎ　）．　参数持续增大，所估计的属性条件联合密度对数据　的拟合程度将继续下降，以至于会出现欠拟合（过平　滑）现象．　对于单平滑参数（　一ｈ　一ｈ　一・一ｈ　）的完全　贝叶斯分类器，采用区间异步长划分完全搜索方法　发现最优平滑参数．一般根据实验确定平滑参数的　４　连续属性ＤＦＢＣ　ＤＦＢＣ是ＦＢＣ与时间序列的结合，能够有效利　用类的动态时序信息和时间片内属性之问的依赖信　息，是多变量时间序列预测的有力工具．分别用　界值ｈ　。　和ｈ…，十进位点将［　－ｎ，ｈ　］分成一些子　区间，在这些子区间中的步长依次记为△　，△ｚ，…　（为提高效率，步长可逐渐增加），这样便可得到平滑　参数的取值集合，通过以分类准确性为标准的遍历　Ｘ　［１］，Ｘ　［２］，…，Ｘ　［Ｔ］（１　ｉ三三三　）和Ｃ［１］，　ｃ［２］，…，Ｃ［Ｔ］表示属性和类序列，　［１］，ｚ　［２］，…，　．ｚ　［明和ｃ［１］，ｃＩ＝２］，…，　Ｔ］是具体的取值；ＤＥ１］，　Ｄ［２］，…，Ｄ［　是累计时间片数据集序列，Ｄ［１］（＝＝　Ｄ［２］（＝＝…ＣＤ［Ｔ］，Ｎ［１］，Ｎ［２］，…，Ｎ［Ｔ］是对应　时序数据集中的例子数量．　４．１分类器结构和表示形式　打分一搜索来发现最优平滑参数．对于具有多平滑参　数的情况，首先根据Ｑｕｉｎｌａｎ口　的信息增益率为属　性排序，其中的条件密度计算采用高斯核函数，平滑　参数使用Ｊｏｈｎ和Ｌａｎｇｌｅｙ的方法进行设置．采用单　平滑参数的优化方法依次进行多平滑参数的优化　（将单参数最优值作为多参数的初始配置），最终获　在ＤＦＢＣ结构中，类时间序列构成马尔科夫　链，给定一个时间片内的类时，所属的时间片属性与　其它时间片内的属性和类条件独立，图３给出的是　ＤＦＢＣ结构．　得所有平滑参数的局部最优配置．　３．３时间复杂性分析　建立ＦＢＣ的主要运算是计算高斯函数，因此，　图３　ＤＦＢＣ结构　依据贝叶斯网络理论、概率公式和图３中所蕴　含的条件独立性关系可得　ｚ　［　］，…，ｚ　［　］Ｉ　ｃ１＝　］）为时间片属性条件联合密度．　４．２分类准确性评价标准　（ｃ［￡］ｌ　ｃ［１］，ｃ［２］，…，ｃ［￡一１］，ｚ　［１］，ｚｅ［１］，…，　Ｅｌｉ，…，－ｚ　［ｆ］，ｚ　Ｅｔ］，…，ｚ　［ｔ－１）　一Ｐ（ｆ［　］Ｉ　ｃ［￡～１］，－ｚ　Ｅｔ］，　。Ｉｔ］，…，ｚ　［￡］）　（ｃ［￡］，ｃ［　一１］，ｚ　［￡］，ｚ　［ｔｌ，…，ｚ　［￡］）　（ｃ［　一１］，ｚ　Ｉｔ］，ｚ。［　］，…，　Ｉｔ］）　（ｃ［　］ｌ　ｃ［　一１］）　（　。［　］，ｚ　［　］，…，．ｚ　Ｉｔ］ｌ　ｃ［　］）　设有时序数据ｚ　［１］，ｚ　［１］，…，ｚ　Ｅｌｉ，ｃ［１］，…，　ｚ　ＩＴ］，ｚ　［Ｔ］，…，ｚ　［Ｔ］，　Ｔ］，选择一个界值　，　Ｔｏ的值可依据时间序列的大小Ｔ、类转移概率与条　件密度估计的有效性或实际需要来确定．用　ａｃｃｕｒａｃｙ（ｄｆｂｃ，ｐ，Ｄ［Ｔ］，Ｔｏ）表示ＤＦＢＣ的分类准　确率，ｐ一（１Ｄ　，ｌＤｚ，…　Ｐ　），ｃ　。　［　］是使用Ｄ［ｔ－－１］　进行训练，并依据Ｘ　Ｉｔ］，ｚ。Ｉｔ］，…，ｚ　Ｉｔ］的配置对　一　（８）　其中　是与ｃＩｔ］无关的量．　ＤＦＢＣ可表示为　ａｒｇｍａｘ　ｆ［　］（ｆ　～】］，　１［　・　２［　］，…，　［ｆ］）　ｃ［　］的预测结果，Ｃ　Ｉｔ］是真正的结果，那么　ａｃｃｕｒａｃｙ（ｄｆｂｃ，ｐ，Ｄ［Ｔ］，Ｔｏ）：　１　了、　｛ｐ（ｃ［ｔ－］ｌ　ｃ［ｔ一１］）　（ｚ　Ｉｔ］，ｚ。Ｉｔ］，…，ｚ　Ｉｔ］ｌ　ｃＥｔ］））　（９）　ｕ　ｒ　丁＾＋１　∑　ｉｇｎｂ（ｃ　Ｉｔ］　嘲）　（１０）　其中，Ｐ（ＣＩｔ］ｌ　ＣＩｔ一１］）是类转移概率，Ｐ（ｚ　［　］，　其中　计　算　机　学　报　ｓ　６　ｃｃ　。　［ｚ　，ｃ　＝＝｛　：　：：：：：　：：　．　５实验与分析　首先，在ＵＣＩ机器学习数据仓库中选择２８个　连续属性的分类数据集，删除具有丢失数据的记录，　对属性数据进行规范化处理，数据集中记录的位置　也进行随机初始化，从不同分类器之间的分类准确　性比较和平滑参数对分类准确性的影响两方面进行　ＦＢＣ的实验与分析；然后，再使用３个宏观经济指　标时序数据集进行ＤＦＢＣ的实验与分析．　５．１　ＵＣＩ数据集描述　在所选择的ＵＣＩ数据集中，对几个较大的数据　集顺序截取其中的一部分数据，打＊号的数据集为经　过截取的数据集，数据集的基本情况如表１所示．　表１　ＵＣＩ数据集描述　编号　１　２　３　４　数据集　Ａｅ　ｔｒａｉｎ　Ａｒａｂｉｃｄｉｇｉｔ　＿例子数量　属性数量　类数　７７４　７３６　６９９　１０６　编号　１　５　１６　１７　１８　数据集　Ｉｒｉｓ　Ｌｉｖｅｒ　ｄｉｓｅａｓｅ　ＭａｇｉｃＧａｍｍａｔｅｌｅｓｃｏｐｅ　—例子数量　属性数量　类数　１５Ｏ　３４５　７１８　２１５　１２　１３　１０　９　９　２　２　６　４　６　１０　５　３　２　２　３　Ｂｒｅａｓｔ　ｃａｎｃｅｒ　Ｂｒｅａｓｔ　ｔｉｓｓｕｅ　Ｎｅｗ　ｔｈｙｒｏｉｄ　５　６　Ｃａｒｄｉｏｔｏｃｏｇｒａｐｈｙ　Ｃｍｃ　７２６　１　３７６　２７　９　１０　２　１９　２０　Ｐａｒｋｉｎｓｏｎｓ　Ｐｉｍａ　１９５　７６８　４５６　２２　８　２４　２　２　３　７　８　９　Ｃｏｌｕｍｎ　３ｃ　ＣｏｎｎｅｃｔｉｏｎｉｓｔＢｅｎｃｈ　３１０　５２８　２９２　６　１０　５　３　１　１　４　２１　２２　２３　Ｓｅｎｓｏｒｒｅａｄｉｎｇ　—Ｓｐａｍｂａｓｅ　Ｓｔａｔｌｏｇ　６０１　１３１０　３０　ｌ６　２　７　Ｅｃｏｌｉ　１０　１１　１２　１　３　Ｇｌａｓｓ　Ｈｅａｒｔ　ｄｉｓｅａｓｅ　Ｈｏｒｓｅ　ｃｏｌｉｃ　Ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ　—２１４　２７０　３００　２０９　３４９　９　１３　２２　１　６　３３　６　２　２　７　２　２４　２５　２６　２７　２８　Ｔｒａｎｓｆｕｓｉｏｎ　Ｗｄｐｃ　Ｗｉｎｅ　Ｗｐｂｅ　Ｙｅａｓｔ　７４８　５６９　１７８　１９８　１４８４　４　３１　１３　３４　６　２　２　３　２　４　１４　Ｉｏｎｏｓｐｈｅｒｅ　５．２分类准确性比较　ＦＢＣ相对于其它１４个分类器具有优势的程度依次　是８．２３　、６．５７　、１８．９７　、１７．８９　、１４．３６％、　５．９８　、２．４３　、１Ｏ．５８　、４．８７　、２２．６９　、９．８４　、　经过实验发现，平滑参数的峰值一般在０．００１～　０．１之间．取ｈ…一０．００１，ｈ　一０．１，Ａ１—０．００１，　△　一０．００５，分别选择对连续属性离散化的ＮＢＣ和　６．８９　、４．８７　９／６和３．８７　，这显示了经过多参数优　ＴＡＮ分类器（ＤＮＢ，ＤＴＡＮ）、基于高斯函数估计属　性条件密度的分类器（ＧＮＢ）、Ｊｏｈｎ等人给出的分类　化的ＦＢＣ具有良好的分类准确性，在多类值的数据　集中尤其如此．总的来看，ＦＢＣ优于ＮＢＣ，这说明　器（Ｆｌｅｘｉｂｌｅ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ，ＦＬＢＣ）、Ｐ４ｒｅｚ等人建　立的使用ＭＩＳＥ标准优化平滑参数的分类器（Ｆｌｅｘｉｂｌｅ　Ｎａｉｖｅ　Ｂａｙｅｓ　Ｃｌａｓｓｉｆｉｅｒ，ＦＮＢＣ）、单参数和多参数优　化的朴素贝叶斯分类器（ＳＮＢ，ＭＮＢ）、使用高斯核　函数进行属性之间条件信息计算的朴素贝叶斯分类　器树结构依赖扩展分类器（ｃＴＡＮ）、Ｃ４．５、支持向　量机（ＳＶＭ）、基于具有三对角协方差矩阵多元高斯　函数的完全贝叶斯分类器（ＧＦＢＣ）、具有三对角平　滑参数矩阵的多元高斯核函数完全贝叶斯分类器　（ＫＦＢＣ）、具有三对角协方差矩阵Ｃｏｐｕｌａ函数的完　全贝叶斯分类器（ＣＦＢＣ）、基于多元高斯核函数的　具有单参数和多参数完全贝叶斯分类器（ＳＦＢ，　ＦＢＣ能够有效地利用属性之间的依赖信息，提高了　分类器的分类准确性．　使用表２中的数据所绘制的ＦＢＣ与其它分类　器，关于２８个数据集的分类错误率比较散点图如　图４所示．图中每一个点的坐标是用于比较的两个　分类器的分类错误率，在４５。线上方、下方和线上的　点分别表示经过多平滑参数优化的完全贝叶斯分类　器分类错误率小于、大于和等于用于比较的分类器．　从图４中的１４个比较图来看，多参数ＦＢＣ的　分类准确率优于其它分类器，在２８个数据集中分类　准确性占优的百分比依次是９２．８５　、７５．Ｏ（）　、　９６．４２　、９６．４２　、１Ｏ０．Ｏ０　、８２．１４　、５３．５７　、　８５．７１　、８２．１４　、ｉ００．Ｏ０　、８５．７１　、９２．８５　、　ＭＦＢ），采用１０折交叉有效性验证方法进行分类器　的分类错误率估计，分类器的分类错误率实验结果　如表２所示．　７８．５７　和８９．２８　．其中具有最小百分比的是　ＭＮＢ，可见，经过优化的ＭＮＢ也具有良好的分类　准确性．　从表２的总体平均值来看，经过多参数优化的　１Ｏ期　王双成等：连续属性完全贝叶斯分类器的学习与优化　０∞　２１３５　Ｚ　０　ＭＦＢ　ＭＦＢ　（ａ）ＭＦＢ对ＤＮＢ　（ｂ）ＭＦＢ对ＤＴＡＮ　（ｃ）ＭＦＢ对ＧＮＢ　Ｏ　５　０　４　Ｏ　３　，、ｌＨ　０　Ｏ　２　０　１　Ｏ　（ｄ）ＭＦＢ对ＦＩ　ＢＣ　０．５　（ｅ）ＭＦＢ对ＦＮＢＣ　（ｆ）ＭＦＢ对ＳＮＢ　０．４　Ｚ　０．３　《　０　０２　．０．１　Ｏ　（ｇ）ＭＦＢ对ＭＮＢ　（ｈ）ＭＦＢ对ＣＴＡＮ　（ｉ）ＭＦＢ对Ｃ４．５　（ｊ）ＭＦＢ对ＳＶＭ　（ｋ）ＭＦＢ对ＧＦＢＣ　（１）ＭＦＢ￥￣Ｊ－ＫＦＢＣ　（ｍ）ＭＦＢ对ＣＦＢＣ　（ｎ）ＭＦＢ对ＳＦＢ　图４分类错误率比较散点图　２ｌ３６　计　算　机　学　报　２０１２年　ＡｒａｂｉｃＤｉｇｉｔ　＿０．２７４０　０．２７９５　０．３４９４　０．３２４７　０．３４９４　０．３２４７　０．３１１Ｏ　０．２７２６　０．３２３３　０．２３１１　０．２７４０　０．２３９８　０．３２３３　０．２２２０　０．１９７３　０．０３５８　０．０４８６　０．０３７２　０．０２５８　０．０３７７　０．０２４３　０．０２４３　０．０５００　０．０６０１　０．０３７２　０．０５７２　０．０５５８　０．０２４３　０．０３７７　０．０２８６　０．２９００　０．３２００　０．３７００　０．６１００　０．５６００　０．２８００　０．２４００　０．３１Ｏ０　０．３４９１　０．５９３６　０．２９００　０．３７００　０．３１００　０．３０００　０．２４００　Ｂｒｅａｓｔｃａｎｃｅｒ　Ｂｒｅａｓｔｔｉｓｓｕｅ　Ｃａｒｄｉｏｔｏｃｏｇｒａｐｈｙ　Ｃｍｃ　０．２５４２　０．２３８９　０．５４２０　０．６２９２　０．５８２０　０．３２２３　０．２４１７　０．４３３３　０．２１１８　０．７１５８　０．３８２７　０．３６５３　０．３０８４　０．２７０９　０．１８８９　０．３２８５　０．３２７１　０．３５０４　０．３４０２　０．３４７５　０．３３９５　０．３３３６　０．３２７０　０．３１７６　０．３７２２　０．３７４５　０．３８８４　０．３２７８　０．３２１２　０．３１５４　０．２２５９　０．１８７１　０．５１６２　０．３２２６　０．２６７８　０．２３２３　０．１５８１　０．１６７７　０．１９３５　０．３３５５　０．１８３９　０．２２９１　０．２２９１　０．２３５５　０．１５４９　Ｃｏｌｕｍｎ３Ｃ　ＣｏｎｎｅｃｔｉｏｎｉｓｔＢｅｎｃｈ　０．４０３９　０．３８６６　０．３３８５　０．４２５１　０．２６３５　０．１８０８　０．１３８５　０．２２８８　０．２１０２　０．６５３５　０．５４２４　０．０２８９　０．１８２７　０．０２５０　０．０１３５　Ｅｃｏｌｉ　Ｇｌａｓｓ　Ｈｅａｒｌｄｉｓｅａｓｅ　０．１０３５　０．１０００　０．０７９４　０．０８６３　０．０６５６　０．０６５６　０．０４４９　０．０６８９　０．０９９４　０．１２３７　０．０７９４　０．０６９０　０．０４８３　０．０６２１　０．０５５２　０．３４２９　０．３０００　０．５０９６　０．５２３９　０．４６２０　０．３３３４　０．３１９７　０．５３３３　０．３５９９　０．６４２７　０．４６２０　０．４０００　０．２９５３　０．３４２９　０．３０９６　０．１３３４　０．１４４５　０．１４０８　０．１５９３　０．１６６７　０．１５５５　０．１４０８　０．１５５５　０．２２６０　０．１６６７　０．１５１９　０．１６６７　０．１５５６　０．１６３０　０．１４４５　．　．　．　．　．　．０　２８３４　０　２８３４　０　３４００　０　３３３４　０　３４００　０　３２６７　０．３０００　０．３６００　０．３１３３　０．３３００　０．２９３４　０．３０００　０．３０６７　０．２９６７　０．２３６７　Ｈｏｒｓｅ　ｅｏｌｉｅ　Ｉｍａｇｅ　Ｓｅｇｍｅｎｔａｔｉｏｎ　０　１４５０　０　．　．１　３５０　０　２３００　０　２８００　０　２３００　０　．　．　．　．１３００　０．０７５０　０．２２００　０．１１４５　０．４９７４　０．１５００　０．１９５０　０．１４００　０．１２００　０．１０００　Ｉｏｎｏｓｐｈｅｒｅ　Ｉｒｉｓ　０．２５７２　０．２８５８　０．５３７２　０．３５７２　０．３６２９　０．３５７２　０．３２５８　０．５２００　０．２３４９　０．３５８１　０．２８００　０．３３７２　０．２９７２　０．３６２９　０．２３１５　０．０４００　０．０４００　０．０４００　０．０４６７　０．０４６７　０．０３３４　０．０３３４　０．０２６７　０．０４６７　０．０６０１　０．０２００　０．０３３４　０．０３３４　０．０３３４　０．０２６７　Ｌｉｖｅｒ　ｄｉｓｅａｓｅ　ＭＡＧＩＣＧａｍｍａ　—０．３０００　０．２８８３　０．４４７１　０．３９４２　０．３７６５　０．３７６５　０．３４７１　０．４１１７　０．３２７６　０．４２２０　０．３０３０　０．３７３６　０．３３８３　０．３５３０　０．３５００　０．２５２２　０．２８１７　０．３７０９　０．３１９８　０．３１９８　Ｏ．３１９８　０．２８６２　０．３１９８　０．１８９４　０．２４２２　０．２９３０　０．３４７９　０．２４５１　０．２５０８　０．１９５８　０．０４５４　０．０４５４　０．０５００　０．１０４６　０．０８６４　０．０３１９　０．０２７３　０．０５４５　０．０９３１　０．１８５９　０．０８６４　０．０６８２　０．０４１０　０．０４１０　０．０４１０　Ｎｅｗ　ｔｈｙｒｏｉｄ　Ｐａｒｋｉｎｓｏｎｓ　Ｐｉｍａ　０．１６５０　０．１２００　０．３０５０　０．１９００　０．１６００　０．１１ＯＯ　０．０７５０　０．２６００　０．１２８３　０．２５００　０．１６００　０．０９００　０．１０５０　０．０７００　０．０３５０　０．２３９０　０．２３５６　０．２４８１　０．２６１１　０．２６１ｌ　０．２６１１　０．２３７７　０．２４４１　０．２６５７　０．２３８２　０．２７１５　０．２９４９　０．２３７７　０．２４０３　０．２３７７　　０．３６８８　０．０５７１　０．３８８３　０．３１５６　０．２６００　０．１８００　０．２４２３　０．１　５ｌ２　０．１　５５６　０．１２４５　０．３９３４　０．３３５６　０．３０６７　０．１７５６　０．１２６７Ｓｅｎｓｏｒ　ｒｅａｄｉｎｇｓ　Ｓｐａｍｂａｓｅ　Ｓｔａｔｌｏｇ　Ｔｒａｎｓｆｕｓｉｏｎ　Ｗｉｎｅ　０．１　６８４　０．１４１７　０．３９００　０．３８６７　０．３６００　０．１６５０　０．１３１７　０．１５６６　０．１６１０　０．３８９８　０．１８１７　０．１５５１　０．１６５０　０．２４１７　０．１５３４　０．１６５７　０．１２３０　０．１７６４　０．１２５２　０．０９３２　０．０７２６　０．０５６５　０．１７７０　０．０４９６　０．１１６８　０．１６４９　０．０８２５　０．０７２６　０．０３４４　０．０２５２　　０．２６４０　０．２２６７　０．２２４０　０．２２４０　０．２４１４　０．２０４０　０．２５０７　０．３１６Ｏ　０．３１６Ｏ　Ｏ．３１６Ｏ　０．２３４７　０．３１６０　０．２３００　０．２３８２　０．３０８１０．１　４１２　０．１２９５　０．０２９５　０．０５３０　０．０４１２　０．０２３６　０．０１７７　０．０１７７４　０．１０１２　０．０４４５　０．０５１８　０．００００　０．０２３６　０．０４１２　０．０２３６　Ｗｄｂｃ　Ｗｐｂｃ　Ｙｅａｓｔ　０．０４４７　０．０３７５　０．０６６１　０．０６６１　０．０５９０　０．０５９０　０．０４８３　０．０５８９　０．０７３９　０．０６５４　０．０１１８　０．０８２２　０．０５７２　０．０３２２　０．０２３３　０．４２００　０．３６５０　０．４２５０　０．２７００　０．２７５０　０．Ｉ８５８　０．１７６７　０．１５３２　０．２０７６　０．２３６２　０．２０００　０。２２００　０．２２５０　０．２３００　０．２３００　０．４５４８　０．４００７　０．４０８８　０．４７１０　０．４１１５　０．３２４７　０．３１１０　０．２７２６　０．３２３３　０．６ｉ５５　０．４１７６　０．３９ｉ９　０．３９８０　０．３７８４　０．３７１７　平均值０．１７６４　０．２３７１　０．１９５６　０．３１２４　０．２３２０　０．２１０８　０．１９５６　Ｏ．１８７８　Ｏ．１５６４　０．２２０６　０．２０８４　０．２９０９　０．２８４４　０．２６２３　０．２０４０　５．３　平滑参数变化对分类准确性的影响　选择Ｃｏｌｕｍｎ一３ｃ、Ｃｏｎｎｅｃｔｉｏｎｉｓｔ—Ｂｅｎｃｈ、Ｇｌａｓｓ、　ｓｅｎｓＯｒｒｅａｄｉｎｇ和ｓｐａｍｂａｓｅ这５个数据集，分别从　—峰值或高原区间．在０．００１～０．１范围内，对５个数　据集，分类准确率的最大变化跨度依次是３２．８７　、　５４．７５　、１８．５８　、３３．３３　和１３．６７　，可见单平滑　单参和多参变化两方面进行平滑参数对分类准确性　的影响程度计算与分析，如图５和图６所示，其中　ｎ１一Ｏ．００１，…，ｎ９一Ｏ．ＯＯ９，ｎ１Ｏ—Ｏ．Ｏ１，ａ１１＝＝＝　０．Ｏ１５，…，ｎ２８—０．１．　参数变化对分类器的分类准确性有较大的影响，因　为所描述的是所有属性对分类的影响．　（２）多平滑参数中单参数变化的影响　在５个数据集中，依次选择平滑参数　、矗　、　、　＾　和＾　。．对每一个数据集，除选择的平滑参数外，　（１）单平滑参数变化的影响　单平滑参数（　一矗　一　。一・一＾　）变化对ＦＢｃ　其它参数取单参数优化后的最优值，所选择的参数　变化对分类器分类准确性的影响情况如图６所示．　分类准确性的影响情况如图５所示．　平滑参数值　平滑参数值　图６多平滑参数中的单参数对分类准确性的影响　图５　单平滑参数对分类准确性的影响　从图５能够看到，随着平滑参数的变化，分类器　从图６的总体来看，多参数中的单参变化相对更　的分类准确率一般也在发生变化，曲线都有明显的　加平缓（个别情况变化较大），但它们的累积影响往往　１０期　王双成等：连续属性完全贝叶斯分类器的学习与优化　２１３７　大于单参数，也就是通过局部调整会使所估计的属性　条件联合密度更接近于真实密度，从而使经过优化的　实际有效汇率指数和能源消费总量，按照是否为时序　转折点（时序变化的上下局部极值点为转折点）进行　二值离散化作为类变量，进行动态分类准确性实验．　具有多平滑参数ＦＢＣ具有更好的分类准确性．　５．４　ＤＦＢＣ的分类准确性比较　选择与ＧＤＰ（Ｇｒｏｓｓ　Ｄｏｍｅｓｔｉｃ　Ｐｒｏｄｕｃｔ）、ＥＲＦ　（Ｅｘｃｈａｎｇｅ　Ｒａｔｅ　Ｆｌｕｃｔｕａｔｉｏｎｓ）和ＥＣ（Ｅｎｅｒｇｙ　Ｃｏｎ—　分别采用条件随机场（ＣＲＦ）ｌ＿】　，对基于高斯函　数、单平滑参数高斯核函数和多平滑参数高斯核函　数估计属性条件密度的动态朴素贝叶斯分类器　ｓｕｍｐｔｉｏｎ）相关的３个宏观经济指标集，从国家统计　局和相关数据源获取时序数据，时序数据记录数量依　（ＧＤＮＢ、ＳＫＤＮＢ和ＭＫＤＮＢ），具有多平滑参数的　动态完全贝叶斯分类器（ＭＫＤＦＢ）进行比较，　依　次选取后１１个时间点，情况如表３到表５所示．　次是２０、３１和２５．将３个数据集中的国内生产总值、　表３　ＧＤＰ波动转折点预测　从表３到表５综合来看，经过多参优化的动态　朴素贝叶斯分类器，在分类准确率方面优于前面的　态完全贝叶斯分类器具有良好的分类准确性．但以　分类准确性为标准的分类器优化对大数据集会存在　分类器，而经过多参优化的动态完全贝叶斯分类器　还要好于动态朴素贝叶斯分类器．可见，动态完全贝　叶斯分类器同样具有良好的分类准确性．　效率问题，而且多参数贪婪搜索也可能导致局部最　优的问题，我们进一步的研究工作是如何提高学习　效率和实现多平滑参数的全局优化．　参　考　文　献　［１］Ｃｈｏｗ　Ｃ　Ｋ，Ｌｉｕ　Ｃ　Ｎ．Ａｐｐｒｏｘｉｍａｔｉｎｇ　ｄｉｓｃｒｅｔｅ　ｐｒｏｂａｂｉｌｉｔｙ　ｄｉｓ—　ｔｒｉｂｕｔｉｏｎｓ　ｗｉｔｈ　ｄｅｐｅｎｄｅｎｃｅ　ｔｒｅｅｓ．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｈｅｏｒｙ，１９６８，１４（３）：４６２—４６７　６结论和进一步的工作　本文在使用具有多平滑参数的多元高斯核函数　来估计属性条件联合密度的基础上，建立了能够有　效利用属性之间条件依赖信息的完全贝叶斯分类器　和动态完全贝叶斯分类器，并给出了将分类准确性　［２］Ｆｒｉｅｄｍａｎ　Ｎ，Ｇｅｉｇｅｒ　Ｄ，Ｏｏｌｄｓｚｍｉｄｔ　Ｍ．Ｂａｙｅｓｉａｎ　ｎｅｔｗｏｒｋ　ｃｌａｓｓｉｆｉｅｒｓ．Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，１９９７，２９（２－３）：１３１　１６１　标准与平滑参数区间异步长划分完全搜索相结合的　分类器优化方法，使属性条件依赖信息利用和属性　［３］Ｇｒｏｓｓｍａｎ　Ｄ，Ｄｏｍｉｎｇｏｓ　Ｐ．Ｌｅａｒｎｉｎｇ　Ｂａｙｅｓｉａｎ　ｎｅｔｗｏｒｋ　ｃｌａｓｓｉｅｒｓ　ｂｙ　ｍａｘｉｍｉｚｉｎｇ　ｃｏｎｄｉｔｉｏｎａｌ　１ｉｋｅｌ｜ｈｏｏｄ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２ｌｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｉ　ｅａｒｎｉｎｇ，　条件密度估计优化能够统筹兼顾．使用ＵＣＩ机器学　习数据仓库中连续属性分类数据和宏观经济数据的　实验结果显示，经过优化的完全贝叶斯分类器和动　Ａｌｂｅｒｔａ，Ｃａｎａｄａ，２００４：３６ｌ　３６８　［４］Ｊｉｎｇ　Ｙ　Ｓ，Ｐａｖｌｏｖｉｅ　Ｖ，Ｒｅｈｇ　Ｊ　Ｍ．Ｂｏｏｓｔｅｄ　Ｂａｙｅｓｉａｎ　ｎｅｔｗｏｒｋ　ｃｌａｓｓｉｆｉｅｒｓ．Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，２００８，７３（２）：１５５　１８４　２１３８　计　算　机　学　报　２０１２年　Ｆｓ］　Ｗｅｂｂ　Ｇ　Ｉ，Ｂｏｕｇｈｔｏｎ　Ｊ　Ｒ，Ｚｈｅｎｇ　Ｆ　ｅｔ　ａ１．Ｌｅａｒｎｉｎｇ　ｂｙ　ｅｘｔｒａｐｏｌａｔｉｏｎ　ｆｒｏｍ　ｍａｒｇｉｎａｌ　ｔｏ　ｆｕｌｌ—ｍｕｌｔｉｖａｒｉａｔｅ　ｐｒｏｂａｂｉｌｉｔｙ　ｄｉｓｔｒｉｂｕｔｉｏｎｓ：Ｄｅｃｒｅａｓｉｎｇｌｙ　ｎａｉｖｅ　Ｂａｙｅｓｉａｎ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．　Ｍａｃｈｉｎｅ　Ｉ　ｅａｒｎｉｎｇ，２０１２，８６（２）：２３３—２７２　［６］　Ｊｏｈｎ　Ｇ　Ｈ，Ｉ　ａｎｇｌｅｙ　Ｐ．Ｅｓｔｉｍａｔｉｎｇ　ｃｏｎｔｉｎｕｏｕｓ　ｄｉｓｔｒｉｂｕｔｉｏｎｓ　ｉｎ　Ｂａｙｅｓｉａｎ　ｃｌａｓｓＩｆｉｅｒｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１ｌｔｈ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｕｎｃｅｒｔａｉｎｔｙ　ｉｎ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ（ＵＡＩ　１９９５）．　Ｓａｎ　Ｍａｔｅｏ，ＵＳＡ。ｌ９９５：３３８—３４５　［７］　Ｐ６ｒｅｚ　Ａ，Ｌａｒｒａｎａｇａ　Ｐ，ｌｎｚａ　Ｉ．Ｓｕｐｅｒｖｉｓｅｄ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｗｉｔｈ　ｃｏｎｄｉｔｉｏｎａｌ　Ｇａｕｓｓｉａｎ　ｎｅｔｗｏｒｋｓ：Ｉｎｃｒｅａｓｉｎｇ　ｔｈｅ　ｓｔｒｕｃｔｕｒｅ　ｃｏｒｎ—　ｐｌｅｘｉｔｙ　ｆｒｏｍ　ｎａｉｖｅ　Ｂａｙｅｓ．Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ａｐｐｒｏｘｉ　ｍａｔｅ　Ｒｅａｓｏｎｉｎｇ，２００６，４３（１）：１－２５　［８］　Ｐ６ｒｅｚ　Ａ．Ｌａｒｒａｎｇａ　Ｐ．１ｎｚａ　１．Ｂａｙｅｓｉａｎ　ｃｌａｓｓｉｆｉｅｒｓ　ｂａｓｅｄ　ｏｎ　ｋｅｒｎｅｌ　ｄｅｎｓｉｔｙ　ｅｓｔｉｍａｔｉｏｎ：Ｆｌｅｘｉｂｌｅ　ｃｌａｓｓｉｆｉｅｒｓ．Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ａｐｐｒｏｘｉｍａｔｅ　Ｒｅａｓｏｎｉｎｇ，２００９，５０（２）：３４卜３６２　［９］　Ｈｕａｎｇ　Ｓ　Ｃ．Ｕｓｉｎｇ　Ｇａｕｓｓｉａｎ　ｐｒｏｃｅｓｓ　ｂａｓｅｄ　ｋｅｒｎｅｌ　ｃｌａｓｓｉｆｉｅｒｓ　ｆｏｒ　ｃｒｅｄｉｔ　ｒａｔｉｎｇ　ｆｏｒｅｃａｓｔｉｎｇ．Ｅｘｐｅｒｔ　Ｓｙｓｔｅｍｓ　ｗｉｔｈ　Ａｐｐｌｉｃａ—　ｔｉｏｎｓ，２０１１，３８（７）：８６０７—８６¨　［１０３　Ｉ　ｉ　Ｘｕ—Ｓｈｅｎｇ，Ｇｕｏ　Ｃｈｕｎ—Ｘｉａｎｇ，Ｇｕｏ　Ｙａｏ—Ｈｕａｎｇ．Ｔｈｅ　ｃｒｅｄｉｔ　ＷＡＮＧ　Ｓｈｕａｎｇ－Ｃｈｅｎｇ，ｂｏｒｎ　ｉｎ　１９５８，　Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ　ｍａｉｎ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ａｒｔｉｆｉｃｉａｌ　ｉｎｔｅｌｌｉｇｅｎｃｅ，　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ，ｄａｔａ　ｍｉｎｉｎｇ　ａｎｄ　ｔｈｅｉｒ　ａｐｐｌｉｃａｔｉｏｎ．　Ｂａｃｋｇｒｏｕｎｄ　Ｔｈｅ　ｓｔｕｄｙ　ｏｆ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒ　ｆａｍｉｌｙ　ｗｉｔｈ　ｃｏｎｔｉｎｕｏｕｓ　ａｔｔｒｉｂｕｔｅｓ　ｉｓ　ｏｆ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｐａｒｔ　ｏｆ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ａｎｄ　ｄａｔａ　ｍｉｎｉｎｇ．Ａｔ　ｐｒｅｓｅｎｔ，ｔｈｅ　ｒｅｓｅａｒｃｈ　ｏｆ　Ｂａｙｅｓ　ｄｅｒｉｖａｔｉｖｅ　ｃｌａｓｓｉｆｉ—　ｅｒｓ　ｉｓ　ｒｅｓｐｅｃｔｉｖｅｌｙ　ｃｏｎｃｅｎｔｒａｔｅｄ　ｉｎ　ｔｈｅ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｏｆ　ａｔｔｒｉｂ—　ｕｔｅ　ｃｏｎｄｉｔｉｏｎａｌ　ｄｅｎｓｉｔｙ　ａｎｄ　ｄｅｐｅｎｄｅｎｃｙ　ｅｘｔｅｎｓｉｏｎ　ｔｏ　ｎａｉｖｅ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ．Ｉｎｔｅｇｒａｔｅｄ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｉｎ　ｔｗｏ　ａｓｐｅｃｔｓ　ｉｓ　ｎｅｅｄｅｄ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ　ｏｆ　ｃｌａｓｓｉｆｉｅｒｓ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｔｈｅ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ａｎｄ　ｄｙｎａｍｉｃ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ｗｉｔｈ　ｃｏｎｔｉｎｕｏｕｓ　ａｔｔｒｉｂｕｔｅｓ　ａｎｄ　ｍｕｌｔｉ　ｓｍｏｏｔｈｉｎｇ　ｐａｒａｍｅｔｅｒｓ　ａｒｅ　ｐｒｅｓｅｎｔｅｄ　ｏｎ　ｔｈｅ　ｂａｓｉｓ　ｏｆ　ｅｓｔｉｍａｔｉｎｇ　ｔｈｅ　ｃｏｎｄｉ—　ｔｉｏｎａｌ　ｊｏｉｎｔ　ｄｅｎｓｉｔｙ　ｏｆ　ａｔｔｒｉｂｕｔｅｓ　ｕｓｉｎｇ　ｍｕｌｔｉｖａｒｉａｔｅ　Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ　ｆｕｎｃｔｉｏｎ．Ｔｈｅｙ　ｃａｎ　ｅｆｆｅｃｔｉｖｅｌｙ　ｕｓｅ　ｃｏｎｄｉｔｉｏｎａｌ　ｄｅｐｅｎｄ—　ｅｎｃｙ　ｉｎｆｏｒｍａｔｉｏｎ　ｂｅｔｗｅｅｎ　ａｔｔｒｉｂｕｔｅｓ．Ｔｈｅ　ｃｏｎｄｉｔｉｏｎａｌ　ｊｏｉｎｔ　ｄｅｎｓｉｔｙ　ｅｓｔｉｍａｔｉｏｎ　ｏｆ　ａｔｔｒｉｂｕｔｅｓ　ｃａｎ　ａｌｓｏ　ｂｅ　ｏｐｔｉｍｉｚｅｄ　ｂｙ　ａｄｊｕｓｔｉｎｇ　ｓｍｏｏｔｈｉｎｇ　ｐａｒａｍｅｔｅｒｓ．Ｅｘｐｅｒｉｍｅｎｔ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｏｐｔｉｍｉｚｅｄ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ａｎｄ　ｄｙｎａｍｉｃ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉ—　ｆｉｅｒｓ　ｈａｖｅ　ｖｅｒｙ　ｇｏｏｄ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ．Ｔｈｒｏｕｇｈ　ｔｈｉｓ　ｓｃｏｒｉｎｇ　ｍｏｄｅｌ　ｏｎ　ｅｘｔｅｎｄｅｄ　ｔｒｅｅ　ａｕｇｍｅｎｔ　ｎａｉｖｅ　Ｂａｙｅｓｉａｎ　ｎｅｔ—　ｗｏｒｋ．Ｓｙｓｔｅｍｓ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｔｈｅｏｒｙ＆Ｐｒａｃｔｉｃｅ，２００８。２８　（６）：１２９—１３６（ｉｎ　Ｃｈｉｎｅｓｅ）　（李旭升，郭春香，郭耀煌．扩展的树增强朴素贝叶斯网络信　用评估模型．系统工程理论与实践，２００８，２８（６）：１２９—１３６）　［¨］　Ｓｉｌｖｅｒｍａｎ　Ｂ　Ｗ．Ｕｓｉｎｇ　ｋｅｒｎｅｌ　ｄｅｎｓｉｔｙ　ｅｓｔｉｍａｔｅｓ　ｔｏ　ｉｎｖｅｓｔｉｇａｔｅ　ｍｕｈｉｍｏｄａｌｉｔｙ．Ｊｏｕｒｎａｌ　ｏｆ　ｔｈｅ　ＲｏｙａＩ　Ｓｔａｔｉｓｔｉｃａｌ　Ｓｏｃｉｅｔｙ．　１９８１，４３（１）：９７－９９　［１２３　Ｋｏｈａｖｉ　Ｒ．Ａ　ｓｔｕｄｙ　ｏｆ　ｃｒｏｓｓ—ｖａｌｉｄａｔｉｏｎ　ａｎｄ　ｂｏｏｔｓｔｒａｐ　ｆｏｒ　ａｃｃｕ—　ｒａｃｙ　ｅｓｔｉｍａｔｉｏｎ　ａｎｄ　ｍｏｄｅｌ　ｓｅｌｅｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１４ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｉｎｔ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ　（ＩＪＣＡＩ）．Ｍｏｎｔｒ６ａｌ，Ｃａｎａｄａ，１　９９５：１１３７—１１４３　［１３］　Ｑｕｉｎｌａｎ　Ｊ　Ｒ．Ｉｎｄｕｃｔｉｏｎ　ｏｆ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅｓ．Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，　１９８６，１（１）：８１　１Ｏ６　［１４］　Ｉ　ａｆｆｅｒｔｙ　Ｊ　Ｄ，ＭｃＣａｌｌｕｍ　Ａ，Ｐｅｒｅｉｒａ　Ｆ．Ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄｓ：Ｐｒｏｂａｂｉｌｉｓｔｉｃ　ｍｏｄｅｌｓ　ｆｏｒ　ｓｅｇｍｅｎｔｉｎｇ　ａｎｄ　ｌａｂｅｌｉｎｇ　ｓｅｑｕｅｎｃｅ　ｄａｔａ／／Ｐｒ０ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１８ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒ—　ｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ（ＩＣＭＬ）．ＷＩｌｌｉａｍｓ　Ｔｏｗｎ，ＭＡ，　ＵＳＡ，２００１：２８２—２８９　ＤＵ　Ｒｕｉ－Ｊｉｅ，ｈｏｒｎ　ｉｎ　１９８０，Ｐｈ．Ｄ．，ｌｅｃｔｕｒｅｒ．Ｈｅｒ　ｍａｉｎ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ａｎｄ　ｄａｔａ　ｍｉｎｉｎｇ．　ＬＩＵ　Ｙｉｎｇ，ｂｏｒｎ　ｉｎ　１　９８０，Ｐｈ．Ｄ．，ａｓｓｏｃｉａｔｅ　ｐｒｏｆｅｓｓｏｒ．　Ｈｅｒ　ｍａｉｎ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｇｒａｐｈ　ｔｈｅｏｒｙ　ａｎｄ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ．　ｐａｐｅｒ，ｔｈｅ　ｄｅｒｉｖａｔｉｖｅ　ｃｌａｓｓｉｆｉｅｒ　ｆａｍｉｌｙ　ｏｆ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒ　ｃａｎ　ｂｅ　ｄｅｅｐｌｙ　ｕｎｄｅｒｓｔｏｏｄ．Ｂｕｔ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ａｎｄ　ｄｙｎａｍｉｃ　ｆｕｌｌ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ｈａｖｅ　ｂｒｏａｄ　ａｐｐｌｉｃａｔｉｏｎ　ｐｒｏｓｐｅｃｔｓ　ｉｎ　ｍａｎｙ　ａｒｅａｓ．Ｔｈｅ　ｃｏｎｔｅｎｔｓ　ｏｆ　ｔｈｉｓ　ａｒｔｉｃｌｅ　ｉｓ　ｏｆ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｐａｒｔ　ｏｆ　ＮａｔｉｏｎａＩ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ（Ｎｏ．１１１０１２８４），Ｈｕ—　ｍａｎｉｔｉｅｓ　ａｎｄ　Ｓｏｅｉａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　ｔｈｅ　Ｃｈｉｎｅｓｅ　Ｅｄｕｃａ—　ｔｉｏｎ　Ｃｏｍｍｉｓｓｉｏｎ（Ｎｏ．１０ＹＪＡ６３０１５４，Ｎｏ．１２ＹＪＡ６３０１２３），　Ｉ　ｅａｄｉｎｇ　Ａｃａｄｅｍｉｃ　Ｄｉｓｃｉｐｌｉｎｅ　Ｐｒｏｊｅｃｔ　ｏｆ　Ｓｈａｎｇｈａｉ　Ｍｕｎｉｃｉｐａｌ　Ｅｄｕｃａｔｉｏｎ　Ｃｏｍｍｉｓｓｉｏｎ（Ｎｏ．Ｊ５１７０２），　ａｎｄ　Ｉｎｎｏｖａｔｉｏｎ　Ｐｒｏｇｒａｍ　ｏｆ　Ｓｈａｎｇｈａｉ　Ｍｕｎｉｃｉｐａｌ　Ｅｄｕｃａｔｉｏｎ　Ｃｏｍｍｉｓｓｉｏｎ　（Ｎｏ．１　１　ＹＺ２４０）．Ｗｅ　ｈａｖｅ　ｍａｄｅ　ｄｅｅｐ　ｓｔｕｄｉｅｓ　ｔｏ　ｄｅｒｉｖａｔｉｖｅ　ｃｌａｓｓｉｆｉｅｒ　ｆａｍｉｌｙ　ｏｆ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒ　ｗｉｔｈ　ｄｉｓｃｒｅｔｅ　ａｔｔｒｉｂｕｔｅｓ　ａｎｄ　ｎａｉｖｅ　Ｂａｙｅｓ　ｃｌａｓｓｉｆｉｅｒｓ　ｏｐｔｉｍｉｚｅｄ　ｂｙ　ａｔｔｒｉｂｕｔｅ　ｓｕｂｓｅｔ　ｓｅｌｅｃｔｉｏｎ，Ｂａｙｅｓｉａｎ　ｎｅｔｗｏｒｋ　ａｎｄ　Ｍａｒｋｏｖ　ｎｅｔｗｏｒｋ　ｃｌａｓｓｉｆｉｅｒｓ，　Ｍａｒｋｏｖ　ｂｌａｎｋｅｔ　ｃｌａｓｓｉｆｉｅｒｓ，ｒｅｓｔｒｉｃｔｅｄ　Ｂａｙｅｓｉａｎ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｎｅｔｗｏｒｋｓ　ａｎｄ　ｓｏ　ｏｎ　ｈａｖｅ　ｂｅｅｎ　ｒｅｓｐｅｃｔｉｖｅｌｙ　ｄｅｖｅｌｏｐｅｄ．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

连续属性完全贝叶斯分类器的学习与优化