第39卷 第5期数字技术与应用第 39 卷 数字技术与应用 www.szjsyyy.com2021年 5月Digital Technology &ApplicationVol.39 No.5May 2021设计开发DOI:10.19695/j.cnki.cn12-1369.2021.05.52基于数据挖掘的校园网络舆情监测系统研究与设计邝楚文(惠州经济职业技术学院,广东惠州 516001)摘要:数据挖掘技术在大数据时代面临着重大挑战和变革,能够针对大型复杂数据进行高速、实时地处理,由于受到大数据的影响,数据挖掘技术的变化是科学方法在大数据时代变化的重要体现。互联网上传播着越来越多的信息,学校师生普遍通过网络平台获取校园舆论信息。学校及上级单位有关部门需要针对校园网络舆情监测现状及时了解,妥善处理相关信息,实现学校相关部门实时监测校园网络信息,实现对校园网络信息的有效监控,维护网络信息的正确导向。本文通过对大数据背景下数据挖掘技术面临的问题进行分析,研究大数据为校园网络舆情监测带来的机遇,探究利用大数据挖掘技术对校园网络舆情监测。在此基础上,本文分析了当前网络系统架构,基于数据挖掘技术构建校园网络舆情信息分析框架,在对系统业务需求进行分析的基础上,给予了设计方法,并设计了校园网络舆情监测系统。关键词:数据挖掘;大数据;校园网络;舆情监测;系统设计中图分类号:TP393文献标识码:A文章编号:1007-9416(2021)05-0158-040 引言由于网络本身所具有的随意性、隐蔽性和虚拟性等特点,将自己的真实想法通过网络表达出来日渐受到人们的欢迎。网络舆情能够反映社情民意的重要表现和某些社会群体或阶层的社会政治态度,是社会舆情的重要组成部分[1]。在学校范围内的网络舆情,其主体主要包括校内学生、教育工作者、与学校各类事项和教育密切联系的群体。校园网络舆情主要通过学校新闻网、学校贴吧等移动通讯工具进行传播。大量外部信息、社会舆论导向通过社交网络浸入校园,对校内学生的思想行为产生影响。从整体上看,校园网络舆情是集合学校相关联的一切网络八卦讨论整体。互联网的虚化世界具有隐蔽性,造谣诽谤等侵权行为层出不穷[2]。由于监管难以面面俱到,导致互联网色情暴力对学生的身心健康产生严重影响。大数据背景下,基于数据挖掘技术设计校园网络舆情监测系统具有重要意义。用方法包括分类、聚类、回归分析、关联规则、Web页挖掘等[3]。数据挖掘流程如图1所示。1.2 大数据挖掘技术为应对动态变化的海量数据,数据挖掘技术的并行计算和分布式处理能力逐步得到提升。这些大数据挖掘技术可以构造网络分析、文本分析等数据挖掘模型。在社交网络中,文本是大数据的非结构化部分的重要内容,校园网络舆情监测是文本挖掘技术的典型应用[4]。1.3 全文检索技术全文检索主要包括两方面的功能,是校园网络舆情监测系统的重要组成部分;它能够针对数据库中的网络舆情数据快速构建全文索引,并且通过主题相关性分析的方式筛选网络舆情信息[5]。用户需要对主题关键词进行自定义,全文检索根据库存文档进行检索匹配,并根据主题关键出现的频率、顺序等特征,构建索引文档并进行记录。数据预处理按照规则分析数据1 大数据时代的数据挖掘技术1.1 数据挖掘技术方法通过对海量数据中潜在的模式进行刻画,并根据数据的潜在模式预测,从而得到数据模型与规律。数据挖掘过程包括数据预备、数据挖掘和解释评估三部分。利用数据挖掘进行数据分析的常收稿日期:2021-03-24海量无规则数据数据准备数据挖掘数据解释与评估有使用价值的数据集图1 数据挖掘流程Fig.1 Data Mining Process作者简介:邝楚文(1984—),男,广东珠海人,硕士,讲师,研究方向:计算机科学与技术。158Copyright©博看网 www.bookan.com.cn. All Rights Reserved.邝楚文:基于数据挖掘的校园网络舆情监测系统研究与设计2021年第 5 期全文检索技术包括索引和检索两个重要模型。其中,索引模型对组织存储结构进行表达,检索模型提供文档和度量查询的相似度检索方法。根据主题关键字词或字的相似程度判断文档与查询的相关度。相关度和相似度呈正比。从本质上看,全文检索是分析用户查询主题关键词和计算机语料库中文档的相似度。1.4 基于敏感信息的数据挖掘该数据挖掘方法主要是聚类分析和关联分析等技术,系统能够把敏感词相关联的信息返回给用户。在国内,研医学等领域已经广泛应用改善的关联规则。通过关联规则挖掘,能够获得海量数据中隐藏的有用信息。结合自然语言处理和数据挖掘方式,我们利用关联规则实现对敏感词的关联词自动发现,对敏感信息进行推演,为实现校园网络舆情监测中发现与追踪主题功能提供条件[6]。在搜索引擎的支持下,基于关联分析的方法具有较高的效率,但是在一些情况下,难以保证允许系统在短时间内发送大量查询[7]。如果用户所关注的内容不限敏感词以及与其相关性较强的短语或者词,通过设置阈值进行聚类,对语义的涵义进行分析。文本挖掘的基础是文本表示。通常情况下,文本由大量词汇构成,将会映射出较高维度的向量空间,从而增加计算机分析的运算时间。一般采用文档特征提取的方式,即将分类贡献较小的词汇去除,筛选特征词汇,以提高程序运行的速度和效率。这些平台的数据量足能够表征整个网络的舆情情况。微信公众号。由于它是腾讯微信的附属产品,拥有大多数的微信用户,其用户数量十分庞大。微信公众号不具备较强的交互性,但是具备较强的引导性和传播性[9]。新浪微博。新浪微博属于开放式,集成化的网络社交平台,经过多年累积,已拥有大量用户群体。每个用户都允许在平台上发布文章与评论,还可以选择关注其他用户,创建好友关系。百度贴吧。百度贴吧属于互动性、开放性的网络信息账号,方便用户使用该平台。百度贴吧的内容由特定用户进行管理,发布的内容容易受到该用户的管控。百度贴吧的用户量十分庞大,值得我们关注。天涯论坛。天涯论坛属于互动性、开放性和匿名性的网络信息交流平台,其用户数量庞大。天涯论坛具有较多内容种类,不同种类的风格各有差异,其内容涉及学术研究以及社会生活的方方面面。各类网民基本都能找到自己感兴趣的论坛和板块,获得相关信息。匿名性是该论坛的典型特性,该论坛允许用户在没有注册账号的情况下,在论坛内发表言论。使得恶意注水与造谣的成本大大降低[10]。我们设计校园网络舆情监测系统设计时,选择对这些主流网络站点进行监测,为校园网络舆情监测系统提供数据。校园问卷调查表明,学生用户对新闻网站的网络舆情内容非常感兴趣,由于新闻网站的网络舆情产生量不足不做监测。2.3 校园网络舆情监测系统功能性需求分析校园网络舆情用户管理。用例图能够更加深透地了解系统或类的行为,为系统开发人员提供更加详细的设计素材。校园网络舆情监测系统的用户主要有系统操作员、教师及学生用户。其中,校园网络舆情人员管理用例主要包括查询舆情信息、查询人员信息、发布通知、管理文件、修改文件、清除文件、查询通知、退出系统几个部分。校园网络舆情信息收集模块。校园网络舆情监测系统从主流媒体收集相关信息。其监测信息流程如图2所示。校园网络舆情检索功能。在校园网络舆情监测系统中,摒弃传统的网络舆情信息管理方式,采用现代化的网络舆情信息管理方式,使学校负责校园网络舆情监管的部门信息能够共享信息,并且及时联动更新信息,避免信息更新不及时导致对校园网络舆情信息的管理带来失误。现代化的校园网络舆情信息检测系统能够减少相关工作量,降低校园网络舆情监测成本,在学校内部各个院系之间实现信息共享,更加方便准确地传输校园网络舆159它具有丰富多样的内容,与百度搜索引擎共用究人员不断优化关联规则挖掘技术。在各个方面如金融、交流平台。2 校园网络舆情监测系统需求分析2.1 校园网络舆情概述校园网络舆情属于整体概念,是学生利用网络传递和表明自己的想法、情感等的集合。多数情况下,学生主要从论坛、新闻客户端、博客等公共信息平台发布的文章及评论等渠道获取网络信息。互联网时代为校园网络人群提供更大的情感宣泄空间,同时,也会带来潜在的校园网络舆情爆发。随着互联网的快速发展,对校园网络用户也会带来更加严重的影响。校园网络舆情不仅是个别老师、学生的思想碰撞以及学校论坛贴吧里热议的话题新闻,而是包含所有与学校涉及相关网络流传的言论总和。[8]2.2 校园网络舆情监测目标需求分析当前情况下,校园网络舆情可能在多个网络平台发布,但是,通常情况下,校园网络监测系统难以对每个网络平台的信息都进行全面监测。在本文基于数据挖掘的校园网络舆情监测系统中,主要监测几个主流媒体网站,Copyright©博看网 www.bookan.com.cn. All Rights Reserved.第 39 卷 数字技术与应用 www.szjsyyy.com情信息,提高网络舆情监测效率。需要建立统一的校园网络舆情信息共享体系,对学校各单位通过各自的门户网站、呼叫中心、单位办公系统、领导信箱等各种方式的校园网络舆情监测受理工作进行整合,实现统一管理,重点协调和监督及时处理信件,提高办理质量。校园网络舆情干预功能。在基于数据挖掘的校园网络舆情监测系统设计中,实现网络舆情信息的统一监测是难点之一。因此,需要在网络舆情监测业务建模的基础上开展详细设计工作,制定网络平台信件的合理处理流程,确保能够灵活调整业务流程,实现校园网络舆情监测业务归口统一。之间的相互关系。对比B/S和C/S架构,可以直接将B/S架构安放在广域网中,满足多用户访问,其交互性强、灵活性高,具有较低的维护成本。因此,在本系统设计时采用B/S结构。网络舆情监测系统架构如图3所示。其中,前端采集模块主要负责对基础数据的采集工作;后台数据分析部分实现相似关联、特征提取,最终实现跟踪或者发现校园网络舆情事件;用户交互部分实现定制或者统计用户的实际业务需求,根据不同的监测要求发出监测预警指令。3.2 校园网络舆情收集功能设计校园网络舆情监测系统主要由四部分构成,包括信息采集,信息检索,信息分析及服务。校园网络舆情监测信息收集模块设计如图4所示。3.3 校园网络舆情信息检索模块设计信息检索主要完成将检索的校园网络舆情信息发布到的数据采集服务器,信息数据采集爬虫根据任务的描述进行工作,在服务器中存储最终的采集结果。校园网络舆情监测信息检索模块设计如图5所示。3 基于数据挖掘技术的校园网络舆情监测系统设计3.1 校园网络舆情监测系统架构设计校园网络舆情监测系统的体系结构庞大,用户量众多,在设计物理架构时,需要考虑架构的适用性以及维护成本。在系统体系结构中,描述了调用服务器数据生成用户界面的过程,包括系统执行所经过的层次以及各层次汇总舆情信息规划舆情信息舆情信息分析信息决策通过网络报送舆情信息舆情信息报警图2 校园网络舆情监测信息流程Fig.2 Information flow of public opinion monitoring oncampus network前端数据采集网络图4 校园网络舆情监测信息收集模块设计Fig.4 Design of Information Collection Module of PublicOpinion Monitoring in Campus Network网络爬虫、页面清洗中文分词、信息过滤后台数据分析特征提取、关联分析监测预警热点发现主题追踪用户交互图3 基于数据挖掘技术的校园网络舆情监测系统架构Fig.3 Architecture of Campus Network Public OpinionMonitoring System Based on Data Mining Technology图5 校园网络舆情监测信息检索模块设计Fig.5 Design of information retrieval module160Copyright©博看网 www.bookan.com.cn. All Rights Reserved.邝楚文:基于数据挖掘的校园网络舆情监测系统研究与设计2021年第 5 期挖掘技术,对校园网络敏感信息进行分析挖掘,设计能够自动发现关键词的相关检索词方法,实现校园网络舆情监测中热点信息发现、主题追踪的功能,最终达到较为完整的网络舆情监测过程。由于时间限制,本系统设计存在一些不足之处,需要在后续工作中进一步完善和细化。参考文献[1] 徐淑彩.建立基于Solr平台的环境污染网络舆情监测系统[J].信息安全与技术,2013,4(10):89-91.[2] 赵永升.基于微格式的分布式网络舆情监测系统[J].计算机工程,2013,39(11):272-275.图6 校园网络舆情监测舆情分析管理模块设计Fig.6 Design of Analysis and Management Module of PublicOpinion Monitoring in Campus Network[3] 孙培梁,林枫,昌志泷.大数据时代的政府网络舆情监测系统研究[J].数字技术与应用,2014(3):78-79.[4] 郑岩.高校网络舆情监测系统的目标定位、评判依据与运行保障研究[J].情报科学,2015,33(6):81-85.[5] 刘小强,苟元琴.网络舆情监测系统的设计与实现[J].宁波职业技术学院学报,2015,19(3):65-68.[6] 刘文.网络舆情监测系统设计及实现[J].指挥信息系统与技术,2015,6(5):56-61.[7] 张军玲.我国网络舆情信息挖掘研究综述[J].情报科学,2016,34(11):167-172.[8] 陈建英,朱晖,刘小芳.基于灰色关联计算的网络民族舆情事件监测模型研究[J].情报杂志,2017,36(12):126-131+179.[9] 聂琼,陶杰,吴凡.浅谈高职网络舆情监测系统的设计[J].现代计算机,2019(32):88-90.[10] 陈涛,栾禹鑫,谭英杰,等.基于爬虫技术的校园网络舆情分析和监测系统[J].网络安全技术与应用,2018(12):54-55.3.4 校园网络舆情分析模块设计在舆情监测系统中,热点发现功能能够使用户及时、迅速地对网络热门话题有所了解和把握,提供有效掌握网络舆情的办法。在校园网络舆情监测系统中,用户可以根据实际需要,分别针对不同的舆情事件设置追踪命令,系统从釆集的网络信息中找到与当前主题相关的网页文本信息,并按照任务等级进行呈现。校园网络舆情分析模块设计如图6所示。4 结语互联网时代,数字化信息化发展十分迅速,需要加快信息化建设以便对网络舆情有效监管。在校园网络舆情监测管理过程中,构建完善的网络舆情监测系统能够在很大程度上提高校园网络舆情信息监管的运行效率。基于数据Research and Design of Campus Network Public Opinion Monitoring SystemBased on Data MiningKUANG Chu-wen(Huizhou Economics and Polytechnic College, Huizhou Guangdong 516001)Abstract:Data mining technology faces significant challenges and changes in the era of big data, and is capable of processinglarge and complex data at high speed and in real time. Due to the influence of big data, changes in data mining technology are animportant reflection of the changes in scientific methods in the era of big data. More and more information is disseminated on theInternet, and it is common for school teachers and students to obtain information about campus public opinion through onlineplatforms. Schools and relevant departments of higher-level units need to understand the current situation of campus networkopinion monitoring in a timely manner, handle relevant information properly, realize real-time monitoring of campus networkinformation by relevant school departments, realize effective monitoring of campus network information, and maintain the correctorientation of network information. By analyzing the problems faced by data mining technology in the context of big data, this paperstudies the opportunities brought by big data for campus network opinion monitoring and explores the use of big data miningtechnology for campus network opinion monitoring. On this basis, this paper analyzes the current network system architecture,constructs a framework for analyzing campus network public opinion information based on data mining technology, gives designmethods based on the analysis of system business requirements, and designs a campus network public opinion monitoring system.Key words:Data mining;Big data;Campus network;Public opinion monitoring;System designCopyright©博看网 www.bookan.com.cn. All Rights Reserved.161