您的当前位置:首页正文

“互联网+”环境下数据可信度量方法研究

2020-04-04 来源:易榕旅网
总688期第二十六期

河南科技

2019年9月

HenanScienceandTechnology

信息技术

“互联网+”环境下数据可信度量方法研究

李阿芳

(山东信息职业技术学院,山东

潍坊261061)

摘要:大数据在生产活动中扮演着越来越重要的角色,不可信数据给大数据的应用带来了很大的麻烦,如

何筛选出真实可信的数据成为大数据应用的重要课题。本文阐述了当前数据可信计算方法和模型,并分析其优缺点,提出了“互联网+”环境下的数据可信度量方法及其评价方法。该数据可信度量方法依据发布信息的主体、数据源以及数据自身的相关属性,计算数据的主观可信度、全局可信度以及本地可信度。试验结果表明,本方法在电子商务数据可信度计算方面有较好的效果。关键词:互联网+;大数据;可信度计算中图分类号:TP393.09

文献标识码:A

文章编号:1003-5168(2019)26-0017-04

ResearchonDataCredibilityMeasurementLIAfang

in\"Internet+\"Environment

(ShandongCollegeofInformationTechnology,WeifangShandong261061)

Abstract:troubleBigdataplaysanincreasinglyThisdisadvantages,paperforbigexpoundeddataapplications.environment.TheanddataproposedthecurrentHowtrustedametricdatadatatocredibilitytrustworthyfilterimportantoutauthenticroleinproductionactivities,anduntrusteddatahascausedgreatmethodcalculatesmeasurementcomputingdatathesubjectivemethodmethodsbecomesandandancredibility,itsevaluationmodels,importantandtopicglobalmethodanalyzedinbigdataapplications.credibilityunderitsandtheadvantageslocal\"Internetandcredibil⁃

+\"itydataofKeywords:itself.thedataTheaccordingtothemainbodyofthepublishedinformation,thedatasourceandtherelatedattributesoftheInternettestresults+;bigshowdata;thatdatathecredibilitymethodhasmeasurementagoodeffectonthereliabilitycalculationofe-commercedata.新时代,大数据呈现出规模大、流转快、类型多等特接可信度两部分[5],根据实际情况,人们可以对两者分别点,在数据生成和传播过程中不可避免地产生数据不一进行加权,得到两实体之间的可信度。假设直接可信度致、数据缺失等问题,导致大数据的可信度受到质疑[1],为DR,间接可信度为IDR,则两实体之间的可信度为低可信度[2]的数据对大数据应用造成了很大的麻烦。

wDR+(1-w)IDR,

其中w表示权重,且满足w∈[0,1]。针对上述问题,本文提出了“互联网+”[3]

环境下基于

权重的大小取决于两实体之间交互记录的多少,如果交大数据处理技术的可信度量方法[4]

。该方法依据发布信

互记录多,则w值越大,否则w值越小。如果两实体之间息的主体、数据源以及数据自身的相关属性,计算数据的没有直接交互记录,需要引入第三实体,且第三实体与前主观可信度、全局可信度以及本地可信度,具体来说,通两个实体之间都需要有交互记录,如图1所示。

过用户与数据源之间的交互记录计算主观可信度,通过数据源发布或者产生数据的交互记录计算全局可信度,B

通过历史数据来计算本地可信度。试验结果表明,本方法在电子商务数据可信度计算方面有较好的效果。

DR(B,A)

DR(C,B)DR(A,B)DR(B,C)

1

数据可信度计算方法

A

IDR(A,C)

1.1数据可信度

IDR(C,A)

C

在数据源可信度计算模型中,可信度包括直接和间图1直接信任和间接信任

收稿日期:2019-08-16

作者简介:李阿芳(1979—),女,硕士,讲师,研究方向:计算机应用技术。

·18·

“互联网+”环境下数据可信度量方法研究

第26期

图1中,A和B之间、B和C之间都有交互记录,因此任度,如数据源的所有者、数据源取得的认证信息、满足可以计算出两者的直接信任度,而A和C之间没有交互的标准等。

记录,因此只能通过B来计算A和C的间接信任度。

数据可信度综合计算就是针对主观可信度、全局可信“互联网1.2可信度计算模型

度以及本地可信度,采用加法原则,根据数据可信度的侧+”环境下,数据可信度主要包括动态和静态重点加以权重。假设用户User在t时刻对数据源DS的主两种计算模型[6],基本可以划分为基于交易反馈的可信观可信度为ST(User,DS,t),数据源DS在t时刻的全局可信模型、基于关系的可信模型和基于兴趣的可信模型。

度为GT(DS,t),数据源DS的本地可信度为LT(DS),则此上述三种模型并非相互独立,每种模型各有优点和缺点,在计算可信度过程中,人们经常需要运用多个模型时数据源发布的数据D的可信度可用如式(1)计算:

共同计算。从上面三种模型可以看出,影响数据可信度T(User,DS,D,t的因素主要有三个,即主体本身、数据源和数据,因此在“互联网+”环境下计算数据的可信度需要从上述三个方式中,()=αSTUser,DS,tβ,λ分别为三种信任度的权重系数,)+βGT(DS,t)+λLT(DS)(1)

α,且面入手。

α+β+λ=1。在对待不同的数据类型时,可以动态调整

2

大数据可信度量方法系数的大小。

2.12.2

主观可信度从本质上来说是一种直接可信度,主观可信度计算

是通大数据环境下有各种数据源和用户,大数据可信计算模型

为了方便计算,过用户和数据源之间的交互历史记录来计算的。假设用户人们需要将数据源和用户分别抽象为节点,数据源和用与数据源的交互记录为T,T={T1,T2,…,Tn},其中

户之间的互动就可以抽象出5个交互数据,即用户、数据Ti=(Di,Si,ti源、时间、结果以及数据内容,分别用符号User、DS、time、成功、交互时间。一般来说,),

三者分别表示交互信息的内容、人们倾向于相信能够持续提供交互信息是否在大数据可信计算模型中,Res和Data表示,结果表示用户对该次交互的是否认可。

准确信息的数据源,因此交互记录中成功交互可以作为计首先通过网络爬虫获取用户算主观可信度的依据。在数据预处理过程中,依据是否可和数据源的交互记录,并对这些交互记录进行预处理,删信,人们需要将交互记录划分为可信子序列

除重复和无效的数据,然后对每条记录提取交互五元组fsT(User,DS,time,Res,Data),之后对五元组进行可信度的计

CTS=ts1,ts2,…,tsp1,fs2,…,fsp}。

算,具体计算流程如图2所示。

在主观可信度计算过程中,{}和不可信子序列CFS={本文采用直接可信计算

在数据可信度计算过程中,用户对数据源之间的交的PeerTrust算法,以记录开始时间t为准,距离t越长的交互记录主要包括用户对数据源发布的信息的评论,主要互,即最新的交互的可信程度越高,交互次数越多,交互用于计算数据源的全局可信度,也就是说,通过分析全体的可信程度越高,因此可信交互计算公式为:

用户对该数据源的评价,获得关于该数据源的客观评tsi价。主观可信度表示单个用户对数据源发布消息的信任式中,

CTrustt(User,DS,t)=count()/n(2)

i为交互序列tsi发生的时间;∑p

ti-t

i=1e

×count(tsi序列ts)为交互度,与全局信任度不同,主观可信度表示个人对数据源的i中交互的次数。

信任程度。本地可信度是基于数据源本身特点计算的信

不可信交互计算公式为:

网络爬虫

获取数据源对用户交互信息获取用户对数据源交互信息获取数据源发布数据记录

数据预处理

主观可信度计算全局可信度计算本地可信度计算

数据可信度综合计算

图2数据可信度计算过程

第26期

“互联网+”环境下数据可信度量方法研究

·19·

CNTrust(User,DS,t)=∑l

ti-t

i=1l2×count(tsi为了避免在交互过程中“网络水军”对正常交互过程)2e

/n2

(3)

新,其可信度在本地可信度中占比越大。假设数据源DS发布的历史记录为D={Dt1,Dt2,…,Dtn},该序列按时间顺的干扰,在计算可信交互和不可信交互的过程中,需要对序排列,每条记录的格式为Dti={dti1,dti2,…,dtim},

dtim表交互的用户主体进行评分,评分以用户主体的个人信息示记录Dti的第m个主题,每个主题包括两个Title和Val⁃完成程度为标准,如是否提供年龄、职业、通信方式等,以用户个人信息为空和提供了完整信息为准,将用户主体的ue两部分内容,因此本地可信度的计算公式如下:

信息完整程度归一到[0,1]的区间,即0<w(User)<1,因LTrust(D∑n-1j-1

n

)=

sim(n

Dn,Dj)×LTrust(Dj)j=1此用户User对数据源DS的主观可信度ST(User,DS,t)为:

sim(Da,Db)(6)

STUser,DS,t式中,

sim(D∑n,DjDn与Dj的相似度。=λ()w(User)CTrust

(4)

相似度的计算公式为:

)函数表示记录mUser

w(User)CTrust+(1-w(User))CNTrustbim

(7)

式中,

λsim(Da,Db)=

User为用户节点的独立参数。∑∑i=1

dai

×d

1

2ai

i=1

d2bi

2.3全局可信度计算

(mi=d)×()式中,

m表示在两个记录D∑a、Db中相同主题的个数。全局信任来自数据源与所有用户的交互记录,假设当前数据源与用户和其他数据源的交互记录为T,3试验仿真

T={T1,T2,…,Tn},其中Ti=(Vi,Di,Si,ti),

Vi表示数据源在本仿真试验的目的是检验方法的正确性,试验的数网络中的标识,其他符号与主观可信度计算中的意义相据集采用社会化电子商务网站Epinions.数据集,包含用同。由于全局可信度是由所有用户对该数据源的信任度户对项目的评分信息和用户之间的信任信息。为了方便决定的,一般来说,对该数据源的信任度特别高或者特别计算,其间对数据集进行归一化处理,将数据集的信任低的用户的评价通常有较强的主观性,因此需要弱化该值使用TTmax转化到[0,1]区间内,数据集的统计特征部分用户的信任度在全局可信度计算中的比例。在t时如表1所示。

刻,全局可信值用GTrust(DS,t)表示,则有

计算过程中,用户和数据源可抽象为节点Entity,实GTrust(DS,t)=

∑m体之间的交互记录记为Data,Data的记录中有多个主题,m

1(5)

i=1

ST(User,DS,t)涉及数据源之间的参数如表2所示。

2.4本地可信度计算

在试验过程中,首先根据大数据可信度计算方法计本地可信度是指数据源自身的可信度,该值的大小算出数据的可信值,然后通过实际的数据可信值与数据取决于其所有发布信息的可信度,且消息的发布时间越

集中预先计算好的信任值进行比较。在计算过程中,根据式(1)、式(4)、式(5)和式(6)分别计算其信任值,并对

表1

数据集的统计特征

数据集

BasicmetaUsercontextUsersDataRatingDensityUsersLink训练集8326954181712550.043%7453185463测试集

1674

11732

28535

0.035%

1203

29954

表2

仿真试验中参数默认值

参数默认值描述α0.5主观可信度权重β0.1全局可信度权重γ0.4本地可信度权重λU0.95节点独立系统μg(t)

eti-t

可信时间衰减系数

·20·

“互联网+”环境下数据可信度量方法研究

第26期

表3数据集不同算法的准确度对比

迭代次数准确度EigenTrustPeerTrust本文算法500MAE0.93110.89160.8543RMSE1.23981.12561.00231000

MAE0.91040.88920.7423RMSE

1.2247

1.1147

0.9067

比迭代次数为500和1000的计算结果。本文采用传统现,本算法在准确度上明显高于其他算法。

的EigenTrust算法、PeerTrust算法与本算法的计算结果进行对比,并使用平均绝对误差MAE和均方根误差RMSE参考文献:

两种指标来衡量三种算法的性能,计算结果如表3所示。

[1]李刚,李天琦,程晓荣,等.大数据可信性度量方法[J].从表3可以看出,随着迭代次数的增加,基于大数据计算机工程与设计,2017(3):652-658.

的数据可信度计算方法在计算准确度上明显高于其他两[2]李淑慧.C2C电子商务信用评价体系研究:以淘宝网为例[J].山西农经,2019(3):11-12.

种算法,本文提出的算法在MAE和RMSE两个指标上分[3]赵阳,朱全银,胡荣林,等.基于自编码机和聚类的混合别提升了13.1%和9.5%,明显高于其他两种算法。

推荐算法[J].微电子学与计算机,2018(11):52-56.

4

结语

[4]戚耀元,戴淑芬,葛泽慧“互联网+”.环境下企业创新系统耦合研究:技术创新与商业模式创新耦合案例分析[J].科技本文研究了大数据、社会学中的信任理论和各种可进步与对策,2016(23):76-80.

[5]林泓,辛海涛,谢嘉楠.基于直接和推荐可信度的P2P综信度分析模型,然后提出了“互联网+”环境下基于大数据合信任模型[J].武汉理工大学学报(信息与管理工程版),2011处理技术的可信度量方法,根据实际情况,分别计算用户(6):887-891.

对数据源的主观可信度、数据源的全局可信度和本地可[6]中国科学院信息工程研究所.一种基于动态信任模型信度,然后通过权重加成的方式获取最终的可信度。在的IP定位数据库可信度评估方法:中国,CN201710092867.8Epinions.数据集上与其他可信度计算算法对比,结果发

[P].2017-08-01.

因篇幅问题不能全部显示,请点此查看更多更全内容