信息化技术
0引言
在电子政务网站评价模型的研究中,评价算法对评价效果具有重要影响。传统的评价模型中,多采用量化的指标对政务网站各方面进行度量[1-3],重视指标科学度量以及结果量化。然而人类思维具有不确定性,用定性的语言值来表达度量结果可能比用精确数值表达更加自然。如何处理语言值与数学符号的转换变成一个重要课题。
语言值与数学符号最大的区别是,语言中有太多的不确定性。对于不确定性的研究,有多种方法。最早的、最成熟的是概率理论,描述了事件发生的必然性和偶然性;之后又有模糊集合论和粗糙集理论,提出了隶属度、上下近似集的概念等。这些方法在一定程度上实现了知识的模糊性表示,但由于边界条件约束过于清晰导致了某些局限性。例如:概率论的排中律,使得A与
王熠,阿不来提・吉力力,王锁柱:基于云模型的电子政务网站评价系统模型研究
2009,30(4)901
专家协同人机接口
系统边界
云规则发生器KDR表RDR表
案例库
云规则库案例库管理器
云推理机
待测
数归云推理器1
评数据一评价结果管理器
云推理器2据集
预化处处理
理
云推理器n
评价结果
专家交互人机接口
图1CMBES系统模型
range,KDR)和结果描述阈值表(resultdescriberange,RDR),分别存放着专家根据经验知识设置的软化阈值标准。如:语言值“好”对应软阈值云为D(100,10,0.0005),那么所有在阈值间内的数字由“好”表示。该发生器负责对照标准对案例数据库进行规则提取,并且将有意义的定性规则采用云变换,转换为可以计算的云规则形式存储在云规则库中。
(3)云规则库:存储来自云规则发生器生成的规则,供云推理机进行检索和匹配。
(4)云推理机:读入经过预处理和归一化的待测评数据集合,利用多个云推理器检索规则库中每一条规则,计算待测数据对规则的匹配程度,选择最佳规则进行匹配。将测评后结果送入结果管理器。
(5)评价结果管理器:如果云推理机检索到匹配的规则,那么测评结果管理模块直接将计算过的规则后件结果输出。如果推理机没有检索到匹配的规则,需要调用专家交互人机接口,由专家组返回其评定的结果,并启动案例更新。
(6)案例库管理器:主要负责管理案例数据库,进行日常的维护。当启动案例更新进程后,由该组件对案例数据库的数据进行更新。
2CMBES系统机理及工作流程
云模型是CMBES系统的理论基础。在该系统中无论是将案例库中案例转换为定性规则,还是利用云规则发生器将定性规则量化为云形式[5],包括云推理机的推理匹配过程,都是云理论某一个原理在电子政务评价过程中的应用。
2.1云模型概述
设U是一个用精确数值表示的定量论域,C是U上的定
性概念,若定量值x∈U,且x是定性概念C的一次随机实现,x对C的确定度
:U→[0,1]
(x)
定性概念的整体特性可以用云的3个数字特征期望Ex、熵En和超熵He来表征,即D(Ex,En,He)。其中Ex是云的重心位置,代表了该概念量化的最典型样本。En反应了定性概念的不确定性度量,即论域空间中可以被接受的云滴取值范围。He是指代熵的不确定性度量,反应了云滴的离散性。云
发生器通过输入这3个数就形成合乎条件的云滴,从而将一个定性概念通过不确定性转换模型定量的表示出来。
如今,云理论已经在知识开采、数据挖掘和系统评价等方面得到广泛应用,例如:电子产品可靠性的评价[6]、网络安全评测[7]等。云变换、正向发生器及逆向发生器为电子政务评价过
程定性定量概念的自然转换提供了有效工具。
2.2CMBES云规则发生器
在电子政务网站评价过程中,规则的表示和产生决定了
系统的评价能力。而在实际的推理过程中,人们不可能给出精确的被评价系统的数学模型,只可根据专家经验和知识给处许许多多的精确的输入条件下的精确得分,然后由这些情
况构成经典案例。如某案例为:“如果信息公开指数为0.785,在线办事指数为0.675,公众参与指数为0.920,则综合得分为80.625”。单纯通过对比典型案例,实现推理的方法,称为CBR。这种方法的思想是通过检索、匹配案例库中的案例,得到相应输出,如无法完全匹配时,需要通过某种方法进行调整比如求相似度Sim(Ci)。但此法的缺点是只给出点的控制结果,无法覆盖所有。
人类思维具有不确定性,用定性的语言值比如“低”“一般”“高”来表达规则可能比用精确数值表达更加自然,而且覆盖所有可能。然而在计算机系统中,无法直接计算语言概念,
云规则发生器采用云变化,根据专家给定的软阈值,将指标描述和推理结果进行软划分,用云模型量化出相应的语言概念。
假设某个待评价电子政务的指标数据为Ai∈[0,1],i=1,2,…,n。设置规则库前件的定性概念的云表示,以信息公开指数A1为例,将其程度分为高、较高、一般、较低、低5个语言等级分别用A11,A12,A13,A14,A15表示。
C{1xA11=
D其它CA12=D(0.55,0.1/3,0.003)
CA13=D(0.65,0.05/3,0.003)
CA14=D(0.75,0.1/3,0.003)
C=
{D其它A151x类似的,给出规则后件,即综合得分值B∈[0,100]的定性概念的云表示。
CB1=D(0,10,0.0005)CB2=D(30,20/3,0.0005)CB3=D(50,10/3,0.0005)CB4=D(70,20/3,0.0005)CB5=D(100,10,0.0005)
这些语言概念的云表示都放置在KDR表和RDR表中。由云规则发生器,根据两个表内的云描述,进行云变换,得到
由云模型量化的云规则。最后抽取出这些规则存入规则库。例如上文提到的案例可转换为定性规则:IF信息公开指数较高,在线办事指数较高,公众参与指数高,THEN综合得分高。其云规则为:IFCA12,CA22,CA31,THENCB1。
2.3CMBES云推理机
云推理机是CMBES系统的一个重要组成部分,负责将输
9022009,30(4)计算机工程与设计ComputerEngineeringandDesign
如(
i2
入数据与云规则进行匹配和测评结果输出功能。其推理的机理是建立在单条件单规则推理器的机理之上的。
一个单条件规则形式化描述为:IfAthenB。A和B分别对应于论域U1和U2上的概念C1和C2。例如:IF信息公开指数高then综合得分高。前件云发生器CGA代表信息公开指数较高的云概念CA14=D(0.75,0.1/3,0.003),后件云发生器CGB代表综合得分高的云概念CB5=D(100,10,0.0005),按图2进行连接,构造成为一个基于云模型的单规则推理器。当输入某一特定的值x0刺激CGA时,CGA随机地产生一个值
i)。如果输入值激活规则前件上升
沿,则规则后件也选择上升沿,反以亦然。得到的y0值即为规则输出值。需要说明的是,通过生成器产生的云滴和输出值是随机函数产生的,都不是惟一的,也不是确定的,从而实现了不确定推理。
)i
X0
ExB
EnBHeB
CGB
)i
,
一个多条件单规则描述为:IFA1,A2,…,AnTHENB。多条件单规则可分解为多条单条件单规则形式:
IFA1THENB;IFA2THENB;……
IFAnTHENB
对比单条件单规则和多条件单规则,可发现,多条件单规则的后件是相同的,因此将单条件单规则推理器的前件增加为多个云发生器CGAi,i=1,2,…,n,在连接同一个后件云发生器CGB,通过SG选取确定度,激活后件云发生器产生输出,如图3所示。
ExA1
EnA1HeA1ExA2EnA2HeA2ExAnEnAnHeAn
CGA1
i
CGA2…CGAn
2
ExBEnBHeB
CGB
Cdrop(Yo)
图3多条件单规则发生器
假设输入一组代测评的指标值(x1,x2,x3),在云推理机中分别计算指标值对规则库中每条云规则i前件的确定度(i2,
直接用多条件单规则i1,i3)只激活第i条规则,发生器生成输出。
如果不只一个规则被激活,可采用Mamdani法,最小激活度法,本文采用求最大模法。
i1
,
i3
)|=maxi最为最大激活
度,它激活的规则i作为输出。
王继生,王一莉:面向主题的元搜索引擎
关键词数组
关键词一关键词二
关键词一关键词二
二元向量
a1a2
2009,30(4)911
网页的相关信息
关键词nOutLayerY1Y2
HiddenLayer
an
InputLayer
3结束语
由于采用了基于神经网络的检索结果的排序方法,元搜
索引擎的效率得到了很大的提高,具体表现在检索覆盖率大,
Yn
≡1
BasicNeuron
检索结果的相关度较高,同时响应时间没有太大的变化,在主题检索性能方面强于任何一个成员引擎。此外系统的强壮性还有待提高,当它的成员引擎系统的执行性能较差时,元搜索引擎的执行性能也随之变差,性能还有待提高。
图4对网页进行相关性判断的流程
网络输出的结果还是二元向量,在对神经网络进行训练时,相关性样本对应的理想输出是“1”,和相关性样本相似度越高的输入,得到的输出也越接近于理想输出,也就是说输出向量中的“1”越多,输入网页的相关性也越高,输出向量中的“0”越多,输入网页的相关性也越低,总之,输入网页的相关性可以通过神经网络输出向量中的“1”的个数来衡量。
参考文献:
[1][2][3][4][5][6][7]
王铮,胡永杰.元搜索引擎的设计与实现[J].河北师范大学学报(自然科学版),2001(2):51-57.
李广建,黄山昆.元搜索引擎及其主要技术[J].情报科学,2002,20(2):175-179.
王津涛,兰皓.面向主题元搜索引擎的设计与实现[J].计算机工程,2005,31(7):168-173.
张廷华.Web元搜索引擎的改进[J].计算机应用,2002,22(2):105-107.
李小兵,杨一平,刘曙光.面向主题的概念检索研究[J].计算机工程与应用,2005,41(34):168-171.
刘洁清,吴京慧.面向主题的个人实时搜索引擎的设计和实现[J].现在图书情报技术,2006(5):40-43.
XueGui-Rong,YangQiang,ZengHua-Jun,etal.Exploitingthehierarchicalstructureforlinkanalysis[C].8thAnnualInterna-tionalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR'05),2005.[8]
KakS.Ongeneralizationbyneuralnetworks[J].InformationSciencesl,1998,11:293-302.
2性能对比
元搜索引擎在返回结果数目相同的情况下对于有用信息
的覆盖率通常要高于独立搜索引擎(特别是前十条至二十条结果),考虑到用户的查询习惯通常只会查看前20条记录,因此这是元搜索引擎的一个优势。
元搜索引擎有这么高的命中率,是由其实现机制决定的。元搜索引擎处理信息的来源是标准搜索引擎,就像站在别人的肩膀上,当然排序算法也很重要,基于神经网络的排序算法在训练样本选择上是基于统计算法,充分利用该算法的去干扰能力,将单个搜索引擎犯错误的概率降到最低。
在本系统中选取了将康、新闻、校园、娱乐几个主题进行检索与百度、Google和Yahoo这几个独立的搜索引擎进行比较,可以从表1中看出本系统检索结果的相关度较其它搜索引擎较高,具有明显的优势。
(上接第902页)
[2][3]
米爱中,钟诚,杨锋,等.面向用户的电子政务门户网站评估方法[J].微机发展,2004,14(9):122-124.
LucioPicci.Thequantitativeevaluationoftheeconomicimpactofe-government:Astructuralmodelingapproach[C].Informa-tionEconomicsandPolicy,2006:107-123.
[7][8][6]
161-164.
宋远骏,李德毅,杨孝宗,等.电子产品可靠性的云模型评价方法[J].电子学报,2000,28(12):74-76.
寇红召.基于云模型的自适应网络安全通讯系统[J].计算机工程,2006,31(10):147-148.
AmericanSocietyforPublicAdministration.BenchmarkingE-government:Aglobalperspective[R].DivisionforPublicEco-nomicandPublicAdministrationFun,2002:121-123.
[4][5]
范定国,贺硕,段富,等.一种基于云模型的综合评判模型[J].科技情报开发与经济,2003,13(12):157-159.
柴日发,曾文华.定性规则的云表示[J].计算机工程,2002,28(7):
因篇幅问题不能全部显示,请点此查看更多更全内容