ISSN 1001-9081
CODEN JYIIDU2018-07-10
http: //www. joca. cn
DOI: 10.11772/j. issn. 1001-9081.2017123028
基于邻域值差异度量的离群点检测算法
袁钟,冯山
(四川师范大学数学与软件科学学院,成都610068)(*通信作者电子邮箱fengshanrq@ sohu. com)
摘要:针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的
问题,利用邻域粗輕集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归 一化并以混合欧氏重叠度量(HE0M)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对 象的邻域离群因子(N0F);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDM0D)算法,该算法在计算单 属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在据集上与现有离群点检测算法——
邻域离群点检测(NED)算法、基于距离的离群点检测(D
UCI标准数
IS)算法和足最近邻
(XNN)算法进行了实验对比、分析。实验结果表明,NVDM0D算法具有更好的适应性和有效性,为混合型属性数据集
的离群点检测提供了一条更有效的新途径。
关键词:离群点检测;邻域粗糙集;邻域值差异度量;混合型属性;数据挖掘
中图分类号:TP274 文献标志码:A
Outlier detection algorithm based on neighborhood value difference metric
YUAN Zhong, FENG Shan*
(College of Mathematics and Software Science, Sichuan Normal University, Chengdu Sichuan 610068, China)
Abstract: Aiming at the problems that symbolic attribute data set can not be processed effectively with traditional distance measure method and numerical attribute data set can not be processed effectively by classical rough set method, an improved method of Neighborhood Value Difference Metric ( NVDM) was proposed for outlier detection by utilizing the granulation features of neighborhood rough set. Firstly, with attribute values being normalized, the Neighborhood Information System (NIS) was constructed based on optimized Heterogeneous Euclidian-Overlap Metric (HEOM) and neighborhood radius with adaptive characteristic. Secondly, Neighborhood Outlier Factor ( NOF) of data object was constructed based on the NVDM. Finally, a Neighborhood Value Difference Metric-based Outlier Detection ( NVDMOD) algorithm was designed and implemented, which improves the traditional unordered one by one model via making full use of the idea of ordered binary and nearest neighbor search in computing Single Attribute Neighborhood Cover (SANC). The NVDMOD algorithm was analyzed and compared with existing outlier detection algorithms including NEighborhood outlier Detection (NED) algorithm, Distance- based outlier detection ( DIS) algorithm and ^-Nearest Neighbor (KNN) algorithm on UCI standard data sets. The experimental results show that NVDMOD algorithm has much higher adaptability and effectiveness, and it provides a more effective new method for outlier detection of mixed attribute data sets.
Keywords: outlier detection; neighborhood rough set; Neighborhood Value Difference Metric (NVDM); mixed attribute; data mining
〇引言
离群点是数据集中数据对象特征显著区别于其他数据对 象的数据对象[1],其出现往往隐含或预示具有特殊意义的事 件或现象发生。在人侵与欺诈检测、医疗处理、公共安全等领 域,离群点检测技术具有十分重要的应用[2<。
离群点检测研究最早出现于统计学领域[5]。后来,Knorr 等将其引人到数据挖掘领域。现有离群点检测方法主要 有三类:1)基于统计[5] ;2)基于邻近性[6_8] ;3)基于聚类[9]。 其中,基于邻近性的离群点检测有基于距离、基于网格和基于
密度三种方式。
符号型属性值是离散的,用传统距离法检测符号型属性 数据集的离群点效果并不理想。为此,人们引人了粗糙集下 的符号型属性离群点检测[1°],但它基于等价关系和等价类建 模,用于处理数值型属性数据集时要先对属性值离散化,既增 加了处理时间,还带来了明显的数据信息损失,影响检测精准 度。
为解决数值型属性的粗糙计算问题,结合邻域概念和邻 域关系,文献[11]建立了邻域粗糙集模型,它是属性约简、特 征选择、分类和不确定性推理研究中的重要工具[12];但是,利
基金项目:国家自然科学基金资助项目(61673285);四川省青年
收稿日期=2017-12-25;修回日期=2018-02-07;录用日期=2018-02-26。
科技基金资助项目(2017JQ0046);四川省教育厅自然科学重点基金资助项目(15ZB0029)。作者简介:袁钟(1991 一),男,四川井研人,硕士研究生,主要研究方向:粗糙集、数据挖掘;冯山(1967—),男,重庆丰都人,教授,博士,主 要研究方向:粗糙集、数据挖掘。
1906
计算机应用
第38卷
用邻域粗糙集模型进行离群点检测的研究并不多见,文献[13]进行了这方面的研究尝试,但是其邻域半径直接给定, 具有较强的主观性和随机性。
针对离群点检测中传统距离法不能有效处理符号型属性 和经典粗糙集方法不能有效处理数值型属性的问题,本文以 邻域粗糙集模型为基础,提出了改进的邻域值差异度量
(Neighborhood Value Difference Metric, NVDM)进行离群点检 测。该方法通过定义邻域值差异度量来构造表征对象离群程 度的邻域离群因子(Neighborhood Outlier Factor, N0F),从而, 设计并实现了基于邻域值差异度量的离群点检测
(Neighborhood Value Difference Metric-based Outlier Detection, NVDMOD)算法。所提算法拓展了离群点检测的传统距离法
和粗糙集法,在计算单属性邻域覆盖(Single
Attribute
Neighborhood Cover, SANC)时改进了传统的无序逐一计算模
式,使得算法时间复杂度降低到了对数级,明显优于现有传统
无序逐一比较模式。UCI标准数据集实验表明,改进算法能 有效分析和处理符号型、数值型和混合型属性数据集的离群 点检测问题,且适应能力更强。
1邻域粗糙集
设/S = (C/,4,F,/)是信息系统,C/ =丨%,;«2,…,;c„.丨是
非空有限数据对象集4是数据对象的非空有限属性集,F =
U K
是所有对象的属性值域K•的并,映射函数x 4 — F,
aeA
,C2,…人1和决策属性集构成时,/S称为决策系统™,
简记as = (t/,c (J DJ,/)。
对
v
%,:x,zE c/和s
ec
,关联于属性子集s的距离函数 dB:C/x [/^R+ (R+非负实数集)应满足以下条件:
1) ‘0,:X)奋
=〇(非负性);
2) ‘0,:x) =‘(:r,;》0(对称性);
3) <4(;^) 矣 m ),距离函数 的闵可夫斯基距离计算公式如下: di(x,y) = .\\/ xh = i 1 f(x>cJ 因等价关系和等价类只能处理符号型属性,可将距离函 数和邻域半径5结合并用来对论域中的数据对象粒化,形 成具有相似性特征的邻域关系和邻域类,进而构建可同时处 理符号型属性和数值型属性的邻域信息系统(Neighborhood Information System, NIS ) 〇 定义1 邻域。对c/,sec 和s奋在属性集 s 上的&邻域定义为: nB(x) = \\y\\ dB{x,y) « s,y g U\\ (1) 定义2 邻域关系。对VSGC 和s奋0,称=丨(', ')丨 e f/且;1 为 f/上的 邻域关系。 显然,邻域关系是相似关系,它刻画了对象间的距离相似 性或不可区分性。实际上:是f/上最细等价关系,适于处理 符号型属性# 0)是[/上最粗等价关系,适于处理数值 型属性。它们是相似关系的特殊情形。 定义3 邻域覆盖、邻域类和邻域知识。对 VS £ C和 s 奋0,f//n rj构成C/的一个邻域覆盖,它对应一个邻域类,也 称为[/上的一个邻域知识。 定义4邻域信息系统。假设是f/上的邻域关系, ■ ec = K:S £ C丨是[/上的全体邻域关系,则WS = ([/, 是关于《的邻域信息系统,相应地,MW = (C/, [J flJ ,/)称为邻域决策系统。 以邻域信息系统为基础,可以利用邻域粗糙性引起的邻 域间的值差异度量对论域中对象之间的差异性或离群性进行 度量,从而发现离群点。 2 基于邻域值差异度量的离群点检测 2.1 基于邻域值差异度量的离群点检测方法 用邻域粗糙集进行数据处理时通常会存在数据描述的量 级和量纲差异。为使不同数据类型的表述都得到有效的数据 处理结果,需要对数值型属性值进行归一化、标准化处理。本 文采用的最小一最大法归一化的计算公式如下: _ f(Xj,Cj) - minCj maxc. - minc. ⑵ 其中:和为[/中对象关于属性&的最大取值和最小取值。显然,标准化属性取值区间为[〇,1]。 为同时有效度量数值型和混合型属性值的差异,可用混 合欧氏重叠度量(Heterogeneous Euclidian-Overlap Metric, HE0M )[14]进行邻域距离度量。 定义5 混合欧氏重叠度量。对E C/,x和y 的混合 欧氏重叠度量定义为: HE0MB(xyy) = ^ ^^cjh(x^r)2 (3) 其中: h ^= '0,如果cA是符号型属性且/(>,&) =/(;>•,c>A )1,如果cA是符号型属性且/(>,) _ /(;x,c>A ) \\f(x,cjh) -f(j,cjh) I, L 如果&是数值型属性 对象邻域半径的设定一般由专家根据经验确定,具有较 强的主观性和随机性。减少邻域构造判定算法对专家所定参 数的敏感度,是提升离群点检测算法准确率的客观基础。能够 将数据对象的属性取值分布信息和专家知识融合的邻域半径 参数确定法更加合理、有效。为此,本文提出了 X在属性上 的邻域半径设置新方法,它具有很好的自适应特征: e _ r〇, 如果属性c;.为符号型属性 ⑷ 〜_ U d (C;)/A,如果属性&为数值型属性 其中是^,属性的取值标准差,用于衡量$的均值分散 程度大表示大部分数据对象在&上的取值与其均值 间的差异大, 小表示数据对象在&上的取值与均值接 近。A是专家预设的用于调整邻域半径大小的参数,A < 1时 邻域半径应大于属性值标准差;A =1时邻域半径即属性值标 准差;A > 1时邻域半径应小于属性值标准差。这种主、客观融 合的邻域半径调节法兼顾了专家经验和属性取值分布特征对 对象离群性的影响,为有效的自适应离群点检测奠定了基础。 通过对象邻域及其距离度量可刻画对象间的相似性或不 第7期袁钟等:基于邻域值差异度量的离群点检测算法 1907 可区分性。值差异度量(Value Difference Metric, VDM)[15]是 度量符号型属性距离的一种有效的非加权函数。假定%和T是 ^中对象,F是的特征集,~和:》是%和;x在/上的取值, 3,0,,')是' 和' 的距离。对象%和;x的VDM可定义如下: VDM{x,y) = ^df{xf,yf) /sF 其中:心(',:>>)=(P(>/) -*P(:r,))2,*P(>/)和是%和 :x在/上的取值概率。 以此类推,为度量数值型属性取值的离群程度,可通过对 象邻域概念将给定对象的邻域半径内的对象集成,进而对数 值型属性取值进行离群度量。为此,可定义邻域值差异度量 (NVDM)、邻域离群因子(N0F)及邻域离群点概念如下。定义6邻域值差异度量。给定A > 0,对e [/,', '的邻域值差异度量为: NVDMix^Xj) = ^d^x^xj) (5) c e C其中:= (| 心(>;)|/| \"卜 |%〇;)|/|[/|)2; | • |是集合•的势。 实际上,对象离群程度可用邻域离群因子度量,可将文献 [13]的邻域离群因子开平方以加大对象离群程度的变化对 其离群特性的正面影响。 定义7 邻域离群因子。对V ' e C/,'的邻域离群因子 的计算公式如下: N0F{Xi) = X ^NVDM{Xi,Xj) (6) 定义8基值差异度量的离群点。令;a为给定的 离群点判定阈值,对V% e [/,如果AWW ,称为[/中基于邻域值差异度量的离群点。 2.2基于邻域值差异度量的离群点检测算法 基于邻域和值差异度量概念,本文提出了基于邻域值差 异度量的离群点检测(NVDMOD)算法(算法2)。它在单属 性邻域覆盖(SANC)(算法1)计算时采取有序二分近邻搜索 模式,效率较传统无序逐一比较模式有显著提升。在数据结 构设计上,新算法用数组首行存放f/中对象按属性q升序排 列的结果,数组第二行存放对象在f/中的原始顺序号。 算法1单属性邻域覆盖(SANC)算法。 输人必^^义刀一和人其中丨^卜〜输出:单属性邻域覆盖f//nr丨y。 1) U/nre{cjl ■(—0 /* 初始化 */ 2) N ■*— 0 3) Ranklndex[ 1.. ti] [ 1.. 2] <— Ascend_sort( U) /*f/ 中对象按〇;升序排列* /4) for i = 1 to ^ do 5) k <— i 6) while k>0 do 7) if HE0Mjcjl (Ranklndex[i] [ 1 ],Ranklndex[ fc] [ 1 ] ) ^ 8) k^k-19) else10) break11) end if12) end while 13) a ■*— k + 1 / * a:对象邻域的下限顺序号* / 14) fc — i + 1 15) while k < n do 16) if HE0M[cjl (Ranklndex[ i] [ 1 ], Rankfndex [ /r ] [ 1 ] ) ^ ^cj17 ) k <— k + l18) else19) break20) end if21) end while 22) b — fc-1 / * 6:对象邻域的上限顺序号* / 23 ) N <— Ranklndex [ 〇• ■ ^ ] [ 1 ]24) U/nr^ [ (Ranklndex[ i] [2] ) ] [ ] N/ *将邻域W存 人丨的第[2]行* / 25 ) end for26) return U/nr8^SANC算法第3)步采用堆排序[16],第4) ~ 25)步的频 度为n,第6) ~ 12)及15) ~ 21)步的频度为n,理论时间复 杂度〇U2)与传统无序逐一比较算法相同,但由于SANC算 法第3)步进行了属性值的预排序,计算对象的单属性邻域时 可以利用该有序性进行二分近邻搜索。由于邻域中的对象都 分布在邻近位置,对给定对象的邻域搜索比较次数会比n小 很多,故 SANC算法的实际计算复杂度远低于0( )。假定对 象属性的取值等概率均匀分布,此时小,有序二分近邻搜索 的复杂度将接近〇(n)。综上,SANC算法的实际时间复杂度 为0(n log n),明显低于传统的无序逐一比较算法。 算法2基于邻域值差异度量的离群点检测(NVDMOD) 算法。 输人:/S = (yj,/),阈值//,A,其中丨t/丨=?1,丨Cl = m。 输出:基于邻域值差异度量的离群点集〇S( Outlier Set)。 1)0S —0 2) for j -<—1 to m do 3)\\m U/nry / *由SANC算法计算* /4)end for 5) for i •<— 1 to n do6) for 7 •<— 1 to n do1) for A: •<— 1 to m do8) if j ^ j 9)计算…W (^,〜) 的单属性距离* / 10)end if11)end for12) end for 13)计算W皿/*的邻域值差异度量* / 14)计算継⑷ /*对象A的邻域离群因子 15) ifN0F(Xi) > (i16)OS ^ OS |J j a:, i 17)end if18)end for19) return OS 对于NVDMOD 算法,由于 SANC 算法的复杂度为 〇U log 〃),它重复m次,同时,第5) ~ 18)步的频度为 m xn2,因此,NVDMOD算法的时间复杂度为0(臟2),空间 复杂度为〇(mn)。3 实验结果及其分析 本章对NVDMOD算法、邻域离群点检测(NEighborhood outlier Detection, NED)算法[13](邻域半径直接给定)、基于距 1908 计算机应用 第38卷 离的离群点检测(DIStance-based outlier detection,DIS)方 法[6](传统距离检测方法)和尺最近邻(K-Nearest Neighbors, XNN)算法[17](传统距离检测方法)的性能进行实验比较,验 证NVDM0D算法的有效性和适应性。 3.1实验环境 为测试 NVDM0D 算法的有效性,选取 Annealing和 Wisconsin Breast Cancer两个数据集进行实验。 首先从UCI机器学习库中获得上述数据集[18]。实验平 台配置:处理器Intel Core i5-2400;主频3.10GHz;内存4GB; 操作系统Windows 7;编程环境Matlab R2015b。 为增强实验结果的可比性,本文采用文献[19]中的离群 点检测方法评价体系以给定数据集上找出的离群点占比衡量 算法的有效性。3. 2 Annealing 数据集 Annealing数据集有798个数据对象、37个条件属性和1 个决策属性。其中,条件属性包括30个符号型和7个数值 型。数据对象分为5类,类3以外的数据对象均为离群点,共 190个离群点。Annealing邻域信息系统记为邻域半径 参数=0.2。4种算法的实验结果如表1所示。 表 1 邻域信息系统上的实验结果 Tab. 1 Experimental results in NISA 离群程 对属于离群点的对象数覆盖率/% 度前M 象NVD 的对象数MOD NED DIS raN NVDMODNEDDISKNN 10.038064513321 33.6826.8417.3711.0513.161057567443039.4735.2623.1615.7917.541408181614142.6342.6332.1121.5821.931758584775844.7444.2140.5330.5326.19 209 99 92 84 62 52.11 48.42 44.21 32.63 其中:离群程度前的对象(对象数)是指将数据对象 按离群程度值由高到低排序后,用于对比分析的对象子集比 例(前^%)及其对象数;属于离群点的对象数是指离群度前 的对象中属于离群点的对象数;覆盖率是指属于离群点 对象数占离群点总数的比例。 Annealing数据集是混合型属性数据集。由表1可见, NVDM0D 算法准确率明显高于其他3种算法,如离群程度前 10.03%的80个数据对象中,它能检测出64个离群点,而 NED、XNN 和 DIS算法只分别检测出了 51、33和 21个。由此 可见,NVDM0D算法适用于混合型数据集,且优于其他算法。 图1离群点数随Aj变化的折线图(离群程度前10.03% ) Fig. 1 Line chart of number of detected outliers change with (where the top outlier degree is 10. 03% ) 离群程度前10. 03%的对象中,NVDMOD算法检测出的 离群点数随t变化如图1所示,当^ = 0. 2时效果最好。 0 矣2时,NVDMOD算法总体优于其他3种算法,而其余 情形时优于DIS和XNN算法,接近NED算法。 3. 3 Wisconsin Breast Cancer 数据集Wisconsin Breast Cancer数 据集有699个对象,分成 benign (65. 5% )和 malignant ( 34. 5 %)两类,对象的描述由 9 个数值型属性完成。为形成不均勻分布数据集,仿照Harkins 等提出的方法[2°]移去了一些属于malignant类的对象,最终 的数据集包含了 483个对象,其中39个属于malignant类。 将 malignant类作为离群点,数据集的邻域信息系统记为 ,邻域半径参数= 0.4。在上实验结果如表2所 〇 表2 邻域信息系统上的实验结果 Tab. 2 Experimental results in NISW 离群程对属于离群点的对象数覆盖率/% 度前象NVD 的对象 数MOD NED DIS TON NVDMODNEDDISXNN0.83 4 4 44410.2610.2610.2610.261.66 8 8 77720.5117.9517.9517.953.3116161414 13 41.0335.9035.9033.334.9724241921 20 61.5448.7253.8551.286.63322826282771.7966.6732.2969.238.28403331323284.62 79.4982.0582.059.944839363638100.0092.31 92.31 97.44 11.595639383939100.0097.44 100.00 100.00 13.25 64 39 39 39 39 100.00 100.00 100.00 100.00 从表2可知,在Wisconsin Breast Cancer数据集中, NVDMOD算法具有最好性能,通过对离群程度前9. 9 4%的 48个数据对象进行检测,即可检测出所有离群点。该数据集 的9个属性全为数值型属性。由此可见,NVDMOD算法处理 数值型数据对象问题也能取得很好的效果。离群程度前9. 94%的48个数据对象中,NVDMOD算法 检测出的离群点数随/W变化的规律如图2所示,当A。= 0. 4 时效果最好;Aw為0. 4时NVDMOD算法大致具有稳定性和优 化性。 45 150 1 2 3 4 5 图2离群点数随变化的折线图(离群程度前9.94% ) Fig. 2 Line chart of number of detected outliers change with A^( where the top outlier degree is 9. 94% ) 4结语 针对传统距离法不能有效处理符号型属性和经典粗糖集 方法不能有效处理数值型属性问题,通过归一化预处理、 HE0M距离选取和具有自适应特征的邻域半径设定,本文构 建了基于邻域关系和邻域类的邻域信息系统,利用邻近多数 类的不确定性颗粒性质,以对象邻域值差异度量为基础进行 离群点检测,较好地融合和拓展了传统距离法和粗糙集方法, 能够更有效地处理符号型、数值型和混合型属性数据集。实 验结果表明,所提算法在各类属性组合情形下都有更好的适 应能力。本文的研究是针对邻域粗糙集方法及其应用的拓 第7期 袁钟等:基于邻域值差异度量的离群点检测算法 1909 展。后续研究中,可以考虑通过属性序列和属性集序列[1<1]集 成离群因子,以提高算法检测结果的有效性和算法效率。另 外,还可以考虑将各类属性取值的离群特征信息融合到对象 的离群度量模型中,进一步提高算法效率;以及引人统计检验 进一步分析各算法的性能优劣。参考文献(References) [13] [1] HAWKINS D. Identification of Outliers [ M]. London: Chapman and Hall, 1980: 1 -2. [2 ] 王习特,申德荣,白梅,等.BOD: — [12] rough sets [C]// Advances in Machine Intelligence and Soft-Computing. Durham: Department of Electrical Engineering, 1997: 132 -155. HU Q H, YU D R, LJU J F, et al. Neighborhood rough set based heterogeneous feature subset selection [ J]. Information Sciences, 2008, 178(18): 3577 -3594. CHEN Y M, MIAO D Q, ZHANG H Y. Neighborhood outlier detection [J]. Expert Systems with Applications, 2010, 37( 12): 种高效的分布式离群点检测 [14] 8745 -8749. WILSON D R, MARTINEZ T R. Improved heterogeneous distance functions [ J]. Journal of Artificial Intelligence Research, 1997, 6 (1): 1 -34. [15] STANFILL C, WALTZ D. Toward memory-based reasoning [ J]. Communications of the ACM, 1986, 29(12): 1213 -1228. [16] WILLIAMS J W J. Algorithm 232 ( heapsort) [ J]. Communications of the ACM, 1964, 7(6): 347 -348. [17] RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large datasets [ C]// Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 427 -438. [18] BAY S D. The UCI KDD repositoiy [ EB/OL]. [2017-05-12]. http: //kdd. ics. uci. edu. [19] AGGARWAL C C, YU P S. Outlier detection for high dimensional data [ C] // Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2001: 37 -46. [20] HARKINS, HE H X, WILLIAMS G J, et al. Outlier detection using replicator neural networks [C]// Proceedings of the 4th International Conference on Data Warehousing and Knowledge Discovery. Berlin: Springer, 2002: 170-180. 算法[J].计算机学报,2016,39( 1): 36 - 51. (WANG X T,SHEN D R, BAI M, et £il. BOD: £in efficient algorithm for distributed outlier detection [ J]. Chinese Journal of Computers, 2016, 39(1): 36 -51). [3 ] 邹云峰,张昕, 宋世渊,等.基于局部密度的快速离群点检测算法 [J].计算机应用,2017,37( 10): 2932 -2937. (ZOU Y F, ZHANG X, SONG S Y, et al. Fast outlier detection algorithm based on local density [ J]. Journal of Computer Applications,2017,37 ( 10): 2932-2937.) [4] HAN J W, KAMBER M, PEI J. Data Mining: Concepts and Techniques [M]. 3rd ed. San Francisco: Morgan Kaufmann, 2011: 543 -583. [5] ROUSSEEUW P J, LEROY A M. Robust Regression and Outlier Detection [ M]. Hoboken: John Wiley and Sons, 1987: 1 - 18. [6] KNORR EM, NG R T, TUCAKOV V. Distance-based outliers: algorithms and applications [J]. The YLDB Journal, 2000, 8(3): 237 -253. [7] KNORR E, NG R. A unified notion of outliers: properties and computation [C]// Proceedings of the 1997 International Conference on Knowledge Discovery & Data Mining. Press, 1997: 219-222. [8] BREUNIG M M, KRIEGEL HP, NG R T, et al. LOF: identifying density-based local outliers [C]// Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 93 -104. [9] JAIN A K, MURTY M N, FLYNN P J. Data clustering: a review [J]. ACM Computing Surveys, 1999, 31(3): 264 -323. [10] JIANG F, SUI Y F, CAO C G. An information entropy-based approach to outlier detection in rough sets [ J]. Expert Systems with Applications, 2010, 37(9): 6338 -6344. [11] LIN T Y. Neighborhood systems-application to qualitative fuzzy and Menlo Park, CA: AAAI This work is partially supported by the National Natural Science Foun- dation of China (61673258), the Sichuan Youth Science and Technology Foundation (2017JQ0046), the Scientific Research Project of Sichuan Pro- vincial Education Department (15ZB0029) • YUAN Zhong, FENG Shan, bom in 1991, M. S. candidate. His research inter ests include rough set, data mining. bom in 1967, Ph. D. , professor. His reseeirch inter ests include rough set, data mining. ( 上接第19〇4页) RIVERO C R, JAMIL H M. Efficient and scalable labeled subgraph matching using SGMatch [ J]. Knowledge and Information Systems, 2017, 51(1): 61 -87. This work is partially supported by the National Natural Science Foun- dation of China (61371090). 25(2): 292 -296. [16] [17] HE H, SINGH A K. Graphs-at-a-time: query language and access methods for graph databases [ C]// SIGMOD 2008: Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 405 -418. GUAN Haoyuan, ZHU Bin, bom in 1993, M. S. candidate. His research in terests include intelligent information processing. bom in 1969. M. S., associate professor. His research [18] HOFFART J, SUCHANEK F M, BERBERICH K, et al. YAG02: a spatially and temporally enhanced knowledge base from Wikipedia [J]. Artificial Intelligence, 2013, 194: 28 -61. [19] FELLBAUM C, MILLER G. WordNet: an electronic lexical database [J]. Library Quarterly Information Community Policy, 1998, interests include intelligent information processing. LI Guanyu, bom in 1963, Ph. D., professor. His research inter ests include intelligent information processing. ZHAO Ling, bom in 1993. M. S. candidate. Her research interests include intelligent information processing. 因篇幅问题不能全部显示,请点此查看更多更全内容