在线环保监测系统中的大数据分析研究
2024-08-28
来源:易榕旅网
大数据信息与电脑China Computer&Communication2016年第3期在线环保监测系统中的大数据分析研究高贵康 戴博文 肖明波(杭州电子科技大学,浙江 杭州 310018)摘 要:在电力行业的废弃物中,SO2的排放是最令人头疼的,为了更好地降低总量排放,笔者通过数据挖掘技术中的关联规则算法,经过数据预处理,利用经典关联规则算法中的a priori算法,评价算法选择CFS,搜索方法选择Best First,提出了脱硫监测数据参数波动模型和参数预测模型,有效地寻找出数据之间的联系,为“智慧环保”提供可靠依据。笔者最后结合实际所监测到的数据对模型进行论证,验证了模型在实际脱硫设施中具有良好的作用,其提高了脱硫效率,降低了污染物排放。关键词:智慧环保;数据挖掘技术;关联规则算法;脱硫监测中图分类号:TP311.52 文献标识码:A 文章编号:1003-9767(2016)03-032-03我国的物联网技术以及智能平台仍处于初始期[1],然而1.2 数据挖掘阶段关于“智慧环保”物联网的相关案例和技术都取得突破性进该阶段主要包括以下四步:展[2],如山西、无锡等地区引进的先进环境监测系统[3],湖第一,确定怎样产生假设。南的“智慧湘潭”工程[4],南水北调水质监测预警工程等。第二,选择数据挖掘过程的合适算法。目前存在的不足有以下几点。第一,具有自行监测能力第三,获取数据的知识。的平台数量不足,不能及时获取全面准确的信息。第二,我第四,验证获得的知识具有有效性。国目前环境信息化工作才刚刚起步,部门信息化建设不完善,1.3 挖掘结果的表达和解释阶段导致无法充分地共享信息,使得环境信息难以得到高效利用对数据集通过数据挖掘后所获得的知识进行评估是很有[5]。这说明我国的环境保护工作目前还处于发展和摸索阶段,必要的,因为有时候数据挖掘产生的结果也许实用价值很小或对于“智慧环保”物联网的应用,挑战和机遇共存[6]。根本没有实际意义,甚至可能会歪曲数据的实际意义,所以本文研究目的主要有两个,一个是提高信息资源共享水就需要剔除用户不感兴趣的知识,采用降低冗余模式的方法,平和能力,另一个是提高环境监管和应急防范能力。把对用户而言有实用价值和实际意义的知识给保留下来,修剪1 数据挖掘技术或删除对用户而言没有价值和意义的信息,最后通过决策支持工具把保留下来的信息传递给决策者,对其决策提供支持。一般情况下,数据挖掘技术需要经过问题定义、数据收集、数据预处理、数据挖掘算法等阶段[7],其过程如图1所示。2 关联规则算法关联规则用于海量数据的分析和处理。假设数据项集X⊂I,B、XA分别是事务集D中包含X、Y的事务数目,那么数据集的支持度定义如下[11]: support(X)=B)关联规则X support(X⇒⇒A (1Y)Y的支持度记作:=support(X∪Y)=P(X∪Y) (2)图1 数据挖掘过程图1.1 数据准备阶段关联规则X⇒Y的置信度记作:这一过程,也可以分为三个不同的阶段:数据的选择、confidence(X⇒Y)=support(XY)集成以及预处理。 support(X) (3)=P(YX)基金项目:浙江省重点实验室建设基金(项目编号:No.GK130907208001);杭州电子科技大学启动基金项目(项目编号:No.KYS085612006)。作者简介:高贵康(1991-),男,江西赣州人,硕士研究生在读。研究方向:数据挖掘。戴博文(1991-),男,江苏徐州人,硕士研究生在读。研究方向:GPS欺骗。肖明波(1971-),男,湖南沅江人,博士,教授,博导。研究方向:无线通信、通信网络、数字版权保护、过程控制与优化。— 32 —信息与电脑2016年第3期China Computer&Communication大数据在实际操作中,把挖掘流程分为如下两个程序:第一步,事先找出事务数据项集当中所有的频繁数据,这是主要步骤,是衡量关联规则挖掘算法的主要标准;第二步是通过第一步产生的频繁项目集来得出强关联规则。 3 数据挖掘技术在智慧环保系统中的应用研究3.1 选取数据和预处理本文选取的数据集来自上海一家环境科技有限公司对某这个是脱硫监测设施的参数波动模型。其是由电厂脱硫地电厂脱硫设施进行监测的数据,在电厂脱硫设施工序中设设施1号机组所获得的脱硫监测数据产生的,同时利用WL_置了4个监测点,分别为WL_DC_01、WL_DC_02、WL_DC_02、WL_DC_03、WL_DC_04这三个机组获得的数据,DC_03、WL_DC_04。600MW是电厂脱硫设施机组的容量,验证参数波动模型,也得出当脱硫监测设备同时满足以上4电厂脱硫设施采用的是石灰石石膏湿法进行脱硫处理。在不个条件时,脱硫监测设备正常运行,因此可以得出参数波动同时间对4个监测点进行数据监测,其时间间隔为1小时。模型的有效性。脱硫监测设施运行是否正常,可以利用这个本次监测时间跨度为3个月,分别为2015年5月、2015年6月、模型得知。一旦发现非正常工作状态,可以在第一时间做出2015年7月。应对,大大提高脱硫效率以及降低污染物的排放。从具体的工况进一步筛选出主要监测参数数据,进而3.2.2 建立参数预测模型把FGD出口处二氧化硫的浓度以及脱硫的效率当作过滤属依照脱硫效率做出分类,利用关联规则的属性进行参数性和分类属性的子集,把FGD进口处二氧化硫浓度、吸收选择,其中评价算法选择CFS,而搜索方法选择Best First。塔PH值等14个属性作为主要的研究对象,并且为了方便将得到的与脱硫效率有关的7个属性参数通过多元线性回归研究,把这14个属性设置为A1/A2/A3/A4/A5/A6/A7/A8/方程进行计算,进而预测脱硫设备的脱硫效率。A9/A10/A11/A12/A13/A14,关于这14个参数的设置,具体见表1。表1 脱硫监测参数设置 (4)机组负荷A1FGD出口烟气二氧化硫的浓度A2FGD旁路挡板出口的压力A3式(4)中,Z是预测的脱硫效率值。将式(4)定义为FGD烟气进口的氧气浓度A4脱硫监测数据参数的预测模型,可以将实际监测的数据通过FGD烟气出口的温度A5该预测模型得出脱硫效率的预测值,然后与脱硫效率实际值脱硫塔出口处的烟气量A6FGD烟气出口的氧气浓度A7进行比较,看是不是在允许的误差范围里。如果是,那说明FGD升压风机前温度A8脱硫设施运行正常,否则脱硫设施可能存在故障,得及时做FGD旁路挡板进口的压力A9出检查,避免污染物排放量过高。FGD进口烟气二氧化硫的浓度A103.3 预测结果与应用性评价增压风机的电流A11燃煤量A12对于脱硫效果,从电厂脱硫设施1号机组WL_DC_01吸收塔的PH值A13所获得的脱硫监测数据,通过预测模型所得的预测结果和实浆液循环泵的电流A14际所监测的数据进行对比的散列图,如图2所示。确定表1中的14个属性作为主要研究对象,清理掉其他的属性参数,这种做法主要两个好处:首先使得数据的范畴得到了削减,大大简化了数据的繁杂程度,对数据挖掘的实际操作提供了很大方便;其次,通过降低数据处理所要完成的工作总量,来达到提高工作效率的目的。3.2 脱硫设施的数据结构模型的建立3.2.1 建立参数波动模型对于每个参数属性的单个计算来说,互相之间的关联性图2 WL_DC_01数据预测结果和实际监测结果对比散列图缺少一定的联系。利用经典关联规则算法中的a priori算法,对14个参数互相之间的相关性进行分析。通过对电厂脱硫图2中,绿点代表脱硫效率的实际值,红点代表脱硫效设施WL_DC_01获得的数据进行预处理之后,经过差值计算,率的预测值。通过图2可以看出,在脱硫设施正常运行的情可以得出脱硫监测设备在同时满足下面4个条件时是正常工况下,脱硫效率高于95.5%,同时可以看出脱硫效率的预测作的:值与实际值相差最大为4.0%,由此可知参数预测模型是有效并且有实际意义的。— 33 —大数据信息与电脑China Computer&Communication2016年第3期从电厂脱硫设施2号机组WL_DC_02,3号机组WL_相应的参数模型,为环境保护部门和电力公司做出决策提供DC_03,4号机组WL_DC_04,预测结果和实际监测结果进准确根据,最终实现社会、经济、环境多方面效益共同提升。行对比的散列图如图3、图4、图5所示:4 结 语本文利用数据挖掘中的关联规则算法对脱硫监测数据进行处理,提出了脱硫设施参数波动模型、参数预测模型,并且说明了模型的可行性和有效性,起到了提高脱硫效率的作用。尽管本文对电厂脱硫监测数据运用关联规则算法进行数据分析,取得了良好的成效,在解决实际问题中起到了重要作用。但此过程涉及到了繁杂的数据,在数据处理中,除了图3 WL_DC_02数据预测结果和实际监测结果对比散列图参考专家的建议和环境保护部门的意见之外,与此同时不考虑一些目前短时间不关心甚至无序和杂乱的数据,对脱硫设施中的脱硫监测数据采取了简单的手段,这样操作可能会影响到结果的完整性。参考文献[1]尹晓远,李红华,杨竞佳.智慧环保物联网及技术应用示范[A].《2012中国环境科学学会学术年会论文集(第二图4 WL_DC_03数据预测结果和实际监测结果对比散列图卷》[D].2012.[2]吴勇,张红剑.基于大数据和云计算的智慧环保解决方案[J].信息技术与标准化,2013:38-41.[3]刘锐,詹志明,谢涛,等.我国“智慧环保”的体系建设探讨[J].环境保护与循环经济,2012:9-14.[4]张新权.智慧环保体系建设及以湘潭市为例的实证研究[D].湘潭:湘潭大学,2013:1-66.[5]徐敏,孙海林.从“数字环保”到“智慧环保”[J].图5 WL_DC_04数据预测结果和实际监测结果对比散列图环境监测管理与技术,2011(4):5-7.通过图3、图4和图5可知,所得预测结果和实际监测数据的对比散列图与图2一致,都可以看出脱硫效率预测值[6]Parisa Rashidi,Student Member,IEEE,&Diane 与实际值相差最大为4.0%,所以验证了参数预测模型是有效J.Cook,Fellow,IEEE&Lawrence B.Holder,Senior 的,并且是有实际意义的。Member,IEEE&Maureen Schmitter-Edgecombe.Discovering 本文所得出的参数波动模型和预测模型对于上海这家环Activities to Recognize and Track in a Smart Environment[J].境科技有限公司对电厂脱硫设施进行智能化管理有明显的效IEEE TRANSACTIONS ON KNOWLEDGE AND DATA 果,对其他脱硫设施也许不是很吻合,因为电厂脱硫设施中ENGINEERING,2011(4):527-539.影响设备是否正常运行存在很多因素,是特别繁杂的,如果[7]朱建平,张润楚.数据挖掘的发展及其特点[J].统计与决策,2002(7):71-72.[31]朱世武.数据挖掘运用的理论与技要开展最为精准的分析活动,除了对脱硫设施中的各项数据术[J].统计研究,2003(8):45-51.参数指标的含义以及特点做到完全掌控,对于参数彼此之间的关系和互相间的影响也要有全面的了解。如果更换脱硫处[8]Mon-Fong Jiang,Shian-Shyong Tseng,Shan-Yi Liao.理方法,改变机组大小,那么脱硫效率会发生很大变化。对Data Types Generalization for Data Mining Algorithms[C].IEEE 于其他脱硫监测设备,可以采用本文的方法和模式,来得出Smc 99 Conference IEEE International Conference on Systems,Man,&Cybernetics,1999:928-933.— 34 —