您的当前位置:首页正文

一种基于LSTM模型的网络舆情预警方法[发明专利]

2022-09-20 来源:易榕旅网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 111831895 A(43)申请公布日 2020.10.27

(21)申请号 201910331564.6(22)申请日 2019.04.19

(71)申请人 天津科技大学

地址 300222 天津市河西区大沽南路1038

号计算机学院(72)发明人 马永军 陈海山 刘伟鑫 (51)Int.Cl.

G06F 16/9535(2019.01)G06N 3/04(2006.01)G08B 31/00(2006.01)

权利要求书2页 说明书4页 附图2页

(54)发明名称

一种基于LSTM模型的网络舆情预警方法(57)摘要

本发明涉及一种基于LSTM模型的网络舆情预警方法,其主要技术特点是基于网络舆情预警指标体系和长短时记忆网络模型,本发明提出包括主题属性、传播扩散等5个维度的指标体系,并在此基础上提出Re-LSTM(Regularization Long Short Term Memory,长短时记忆网络)模型,使用正则化方法约束网络中各单元输入权重并用softsign函数替代tanh激活函数。本发明设计合理,与其他经典模型对比,此次构建的模型不仅能够提高预警准确率,而且能够更好的避免梯度消失和过拟合问题。

CN 111831895 ACN 111831895 A

权 利 要 求 书

1/2页

1.一种基于LSTM模型的网络舆情预警方法,其特征在于包括以下步骤:步骤1:网络舆情数据集下指标体系的构建。以网络舆情的主题属性、舆情来源、舆情内容要素、舆情受众、舆情传播扩散为一级指标构建网络舆情预警指标体系,使用网络舆情数据集结合末级指标具体的量化表达式计算出各指标的量化值。

步骤2:网络舆情数据预处理过程。利用本次发明中的网络舆情数据集对各指标进行预处理即使用该数据所包含的字段初始化指标体系的各末级指标值。对于搜索程度、声像资料数量、累计浏览数量、累计评论数量、累计转载数量、平均访问停留时长等定量指标可以通过数据集中相应的字段值结合步骤1中的量化公式直接计算,其中主题类型、发布者影响力、是否有谣言、舆情信息内容敏感程度等属于定性指标,通过设计调查问卷初始化,主题内容属于长文本数据使用词向量表示。将网络舆情预警结果分为一般、较重、严重、特别严重4个等级,将网络舆情数据集针对每类选出1500个样本,构成一个包含6000个样本的数据集,使用此数据集来训练优化本发明构建的Re-LSTM模型。

步骤3:Re-LSTM模型构建过程。预处理之后的数据xt与前一个隐藏层的输出ht-1作为遗忘门的输入,其输出为ft,是一个0到1之间的数字,0代表完全舍弃单元状态中的信息,1代表完全保留单元状态中的信息。其次xt和ht-1经过单元的输入门,通过sigmoid函数来控制需要更新的参数值,并结合softsign层产生一个新的候选状态值

由于softsign函数具

有反对称、去中心、可微分的特点,其更平坦的曲线与更慢的下降导数表明它可以更高效的学习,因此采用softsign激活函数替换以往的tanh激活函数,更好的解决梯度消失问题。输入门的表达式为it,最后通过it和

创建一个新的状态值向量Ct。经过单元的输出门ot结

合单元状态值Ct得出隐藏层单元的输出值ht。最后根据ht计算出Re-LSTM模型的输出值进而构造Re-LSTM模型的均方误差函数MSE。为了解决LSTM模型过拟合问题,采用正则化方法约束网络中的输入权重处理MSE函数,L1范数正则化可使模型具有稀疏性,从而控制模型的过拟合问题,L2范数正则化可以使模型抗扰动能力强,因此结合L1范数和L2范数优点将L1范数和L2范数线性组合作为一个正则项加入MSE函数,进而得到Re-LSTM模型的目标函数E,最后通过Adma算法最小化目标函数及更新模型参数进而使网络最优。

步骤4:实际数据应用过程。由于Adma算法能够基于训练数据迭代地更新神经网络权重,因此选用Adma算法最小化目标函数并不断更新模型中的参数,进而使网络最优。待Re-LSTM模型训练完成之后,将测试数据作为该模型的输入,则Re-LSTM模型的输出值即为网络舆情的预警结果。

2.根据权利要求1所述的一种基于LSTM模型的网络舆情预警方法,其特征在于:所述步骤3中遗忘门输出ft计算公式为:

ft=σ((||Wf||1+||Wf||2).[ht-1,xt]+bf)其中σ表示sigmoid激活函数,Wf表示遗忘门权重,bf表示遗忘门偏置。3.根据权利要求1所述的一种基于LSTM模型的网络舆情预警方法,其特征在于:所述步骤3中输入门表达式it、输入门当前状态

it=σ((|Wi||1+||Wi||2)[ht-1,xt]+bi)

t和输入门新状态Ct计算公式为:

2

CN 111831895 A

权 利 要 求 书

2/2页

其中,用Wi表示输入门权重矩阵,Wc为输入单元状态权重矩阵,bi为输入门偏置项,bc为输入单元状态偏置项,softsign为激活函数。

4.根据权利要求1所述的一种基于LSTM模型的网络舆情预警方法,其特征在于:所述步骤3中输出门ot、ht表达式以及网络的最终输出计算公式为:

ot=σ((||Wo||1+||Wo||2)[ht-1,xt]+bo)ht=otsoftsignCt

其中,Wo代表更新输出的权重矩阵,bo为更新输出的偏置项,ht表示输出门的输出部分,σ表示softmax函数,wy为输出权重,by为输出偏置项。

5.根据权利要求1所述的一种基于LSTM模型的网络舆情预警方法,其特征在于:所述步骤3中网络的最终均方误差MSE和Re-LSTM模型的目标函数E计算公式为:

其中,λλ本发明使用L1范数和L2范数线性组合对LSTM网络中的输1和2表示正则化参数,

入权重w进行正则化处理构建Re-LSTM模型。

3

CN 111831895 A

说 明 书

一种基于LSTM模型的网络舆情预警方法

1/4页

技术领域

[0001]本发明属于网络舆情算法分析领域,尤其是一种基于LSTM模型的网络舆情预警方法(method on early warning of network public opinion based on long short term memory model)。背景技术

[0002]网络舆情是网民通过互联网手段对舆情事件表达传播的各种态度、情绪和观点的集中体现。其中,交流信息中不乏出现主观臆测甚至虚假信息,而这些信息在网络中的传播,必然会对政府公信力、社会稳定发展等造成巨大的影响。如何把控网络舆情的发展趋势尤为重要。总之合理的构建网络舆情预警指标体系和舆情预警模型,可以有效地预判舆情发展趋势、而且能够提高网络舆情预警正确率和准确度。

[0003]网络舆情预警问题主要从网络舆情预警指标体系构建以及根据网络舆情数据集选择并优化预警模型两方面进行研究。针对网络舆情预警指标体系构建方面,以往学者提出网络舆情评估指标体系并运用层次分析法和德尔菲法定量计算指标的权重并利用模糊互补判断矩阵构建评价模型。为了预测和评估微博平台网络舆情问题,有学者提出以信息源指数(ISI)、地理指数(GI)、主题指数(SI)和行业指数(II)为一级指标的微博舆情指标体系,采用不同的定量方法提供更客观、全面的评价和分析。网络舆情预警模型主要分为两大类,一类是以数学物理方法为基础的预警模型,例如利用层次分析法和系统动力学理论建立了网络舆情预警机制的系统动力学模型,从定量和定性两个方面对网络舆情预警机制进行研究;一类是以现代科学理论和数据挖掘为基础的预警模型,包括贝叶斯网络、隐马尔可夫过程、神经网络等模型。

[0004]目前的网络舆情指标体系对舆情主题属性和舆情传播扩散指标考虑较少,可能会导致预警准确率不高。目前的网络舆情预警模型取得了较好的效果,但不能很好的考虑网络舆情数据不同特征之间的相互联系。[0005]综上分析,为了改善目前指标体系存在的问题,此次构建指标体系需要重点突出主题属性和传播扩散指标,以提高指标体系的完善性;为了更好的提高提高网络舆情预警准确率,此次采用LSTM算法进行建模,此算法可以很好的考虑网络舆情数据不同特征之间的相互联系。

发明内容

[0006]本发明的目的在于克服目前的指标体系和网络舆情预警模型存在的问题,综合考虑了目前指标体系和预警模型的优缺点,为了提高网络舆情预警准确率,本发明在指标体系构建方面重点突出了主题属性和传播扩散指标的重要性;在预警模型构建方面基于LSTM算法进行Re-LSTM模型构建。[0007]为实现上述目的,本发明的技术方案是:一种基于LSTM模型的网络舆情预警方法,包括以下步骤:

4

CN 111831895 A[0008]

说 明 书

2/4页

步骤1:构建以网络舆情的主题属性、舆情来源、舆情内容要素、舆情受众、舆情传

播扩散为一级指标的网络舆情预警指标体系,阐述各级指标的具体含义并给出各末级指标具体的量化表达式。[0009]步骤2:网络舆情数据预处理过程。利用python爬虫技术从微博和新浪新闻上面爬取网络舆情数据,该数据集主要包含标题、内容、搜索量、转发数、赞数、评论数、点击数、发帖数等字段。标题和内容属于文本数据,首先使用python结巴分词工具进行中文分词,其次通过Skip-Gram模型对分词进行词向量表示。[0010]步骤3:Re-LSTM模型构建过程。首先根据步骤1的量化方式和步骤2的网络舆情数据预处理方法,对此次构建的网络舆情指标体系的各末级指标量化后组成微博向量或新闻向量。其次是将预处理之后的向量xt与前一时隐藏层输出ht-1首先通过遗忘门产生一个0到1的ft值,用于决定是否允许上一时刻的单元状态值Ct-1通过此单元。接着xt和ht-1经过单元的输入门,通过sigmoid函数并结合softsign层产生一个新的候选状态值

最后通过it和

共同决定单元新的状态值Ct。然后单元的输出门ot结合单元状态值Ct得出隐藏层单元的输出值ht。根据ht计算出Re-LSTM模型的输出值

进而构造Re-LSTM模型的均方误差函数

MSE,然后正则化处理MSE函数,得到Re-LSTM模型的目标函数E,最后通过Adma算法最小化目标函数及更新模型参数进而使网络最优。[0011]步骤4:实际数据应用过程。通过以上步骤训练完成后,将测试数据作为Re-LSTM模型的输入,则Re-LSTM模型的输出值即为食品安全网络舆情的预警结果。[0012]本发明的优点和积极效果是:[0013]相较于现有的网络舆情预警算法技术,本发明的有益效果:指标体系更完善、更科学;Re-LSTM模型更好的解决过拟合和梯度消失问题,且模型很好的提高了网络舆情预警准确率且得到的迭代次数和准确率的曲线更为平滑。

附图说明

[0014]图1为本发明算法在Kaggle平台公开网络舆情数据集下实验结果。Kaggle平台网络舆情数据集主要包含标题、内容、来源、转发数、赞数、评论数等字段,图1描述了在该数据集下本发明模型Re-LSTM和CNN、RNN、LSTM、C-LSTM模型迭代次数和网络舆情预警准确率对比结果。

[0015]图2为在Kaggle平台数据集下是否使用指标体系的对比实验图。在Kaggle平台数据集下,使用本发明提出的指标体系的末级指标作为Re-LSTM模型的输入和仅使用数据集中的标题、内容、来源、转发数、赞数、评论数等字段作为Re-LSTM模型的输入进行对比实验,图中实线为使用指标体系的预警准确率曲线。

[0016]图3为此次网络爬虫采集的数据集下实验结果对比图。此次采集的新闻和微博数据集与Kaggle平台公开的网络舆情数据集字段一样,使用同样的方法对数据预处理。图3阐述了该数据集下本发明Re-LSTM模型和CNN、RNN、LSTM、C-LSTM模型的迭代次数和预警准确率结果对比。

[0017]图4为此次网络爬虫数据集下是否使用指标体系的实验对比图。在该数据集下,使用本文指标体系的末级指标作为Re-LSTM模型的输入和仅使用数据集中的标题、内容、来

5

CN 111831895 A

说 明 书

3/4页

源、转发数、赞数、评论数等字段作为Re-LSTM模型的输入进行对比实验,图中实线为使用指标体系的预警准确率曲线。

具体实施方式

[0018]以下结合附图对本发明实施例做进一步详述:[0019]一种基于LSTM模型的网络舆情预警方法,包括以下步骤:[0020]相关定义:[0021](1)指标体系是指由若干个反映网络舆情事件特征的相互独立又相互联系的信息指标所组成的有机整体,其中指标体系的末级指标是指各类指标的最末子指标。[0022](2)结巴分词是基于python的中文分词工具,其是国内使用最多的中文分词工具包,分词效果相对较好,具有三种模式,分别是精确模式、全模式和搜索引擎模式。[0023](3)Skip-Gram模型是word2vec的一种模型,该模型的功能给定目标词的情况下预测其周围的词,即模型输入是wi,输出是wi-2,wi-1,wi+1,wi+2。[0024](4)过拟合是指为了得到一致假设而使假设变得过度严格,避免过拟合是分类器设计中的核心任务。[0025](5)梯度消失是指当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层的数目增加,分类准确率反而下降了,此种现象即是梯度消失问题。[0026]步骤1:网络舆情数据集下指标体系的构建。[0027]以网络舆情的主题属性、舆情来源、舆情内容要素、舆情受众、舆情传播扩散为一级指标构建网络舆情预警指标体系,使用网络舆情数据集结合末级指标具体的量化表达式计算出各指标的量化值。[0028]步骤2:网络舆情数据预处理过程。[0029]利用本次发明中的网络舆情数据集对各指标进行预处理即使用该数据所包含的字段初始化指标体系的各末级指标值。对于搜索程度、声像资料数量、累计浏览数量、累计评论数量、累计转载数量、平均访问停留时长等定量指标可以通过数据集中相应的字段值结合步骤1中的量化公式直接计算,其中主题类型、发布者影响力、是否有谣言、舆情信息内容敏感程度等属于定性指标,通过设计调查问卷初始化,主题内容属于长文本数据使用词向量表示。将网络舆情预警结果分为一般、较重、严重、特别严重4个等级,将网络舆情数据集针对每类选出1500个样本,构成一个包含6000个样本的数据集,使用此数据集来训练优化本发明构建的Re-LSTM模型。[0030]步骤3:Re-LSTM模型构建过程。

[0031]预处理之后的数据xt与前一个隐藏层的输出ht-1作为遗忘门的输入,其输出为ft,是一个0到1之间的数字,0代表完全舍弃单元状态中的信息,1代表完全保留单元状态中的信息。其次xt和ht-1经过单元的输入门,通过sigmoid函数来控制需要更新的参数值,并结合softsign层产生一个新的候选状态值

由于softsign函数具有反对称、去中心、可微分

的特点,其更平坦的曲线与更慢的下降导数表明它可以更高效的学习,因此采用softsign激活函数替换以往的tanh激活函数,更好的解决梯度消失问题。输入门的表达式为it,最后通过it和

创建一个新的状态值向量Ct。经过单元的输出门ot结合单元状态值Ct得出隐藏

6

CN 111831895 A

说 明 书

4/4页

层单元的输出值ht。最后根据ht计算出Re-LSTM模型的输出值进而构造Re-LSTM模型的

均方误差函数MSE。为了解决LSTM模型过拟合问题,采用正则化方法约束网络中的输入权重处理MSE函数,L1范数正则化可使模型具有稀疏性,从而控制模型的过拟合问题,L2范数正则化可以使模型抗扰动能力强,因此结合L1范数和L2范数优点将L1范数和L2范数线性组合作为一个正则项加入MSE函数,进而得到Re-LSTM模型的目标函数E,最后通过Adma算法最小化目标函数及更新模型参数进而使网络最优。[0032]在本步骤中遗忘门输出ft的表达式为:[0033]ft=σ((||Wf||1+||Wf||2).[ht-1,xt]+bf)[0034]其中σ表示sigmoid激活函数,Wf表示遗忘门权重,bf表示遗忘门偏置。

[0035][0036][0037][0038][0039]

在本步骤中输入门表达式it、输入门当前状态it=σ((|Wi||1+||Wi||2)[ht-1,xt]+bi)

和输入门新状态Ct的表达式为:

其中,用Wi表示输入门权重矩阵,Wc为输入单元状态权重矩阵,bi为输入门偏置项,bc为输入单元状态偏置项,softsign为激活函数。

在本步骤中输出门ot、ht表达式以及网络的最终输出表达式分别如下所示:ot=σ((||Wo||1+||Wo||2)[ht-1,xt]+bo)

ht=otsoftsignCt

[0040][0041][0042][0043]

其中,Wo代表更新输出的权重矩阵,bo为更新输出的偏置项,ht表示输出门的输出

部分,σ表示soft max函数,wy为输出权重,by为输出偏置项。

[0045]在本步骤中MSE表示网络的最终均方误差和E表示Re-LSTM模型的目标函数,其表达式为:

[0046][0047]

[0044]

其中,λλ本发明使用L1范数和L2范数对LSTM网络中的输入权1和2表示正则化参数,

重w进行正则化处理构建Re-LSTM模型。[0049]步骤4:实际数据应用过程。

[0050]由于Adma算法能够基于训练数据迭代地更新神经网络权重,因此选用Adma算法最小化目标函数并不断更新模型中的参数,进而使网络最优。待Re-LSTM模型训练完成之后,将测试数据作为该模型的输入,则Re-LSTM模型的输出值即为网络舆情的预警结果。[0051]需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

[0048]

7

CN 111831895 A

说 明 书 附 图

1/2页

图1

图2

8

CN 111831895 A

说 明 书 附 图

2/2页

图3

图4

9

因篇幅问题不能全部显示,请点此查看更多更全内容