基于Web的数据挖掘技术研究
2024-06-09
来源:易榕旅网
! Q:丝 Science and Techn0IOgy Innovetion Herald 1枝朱 基于W e b的数据挖掘技术研究 戴凌肖 (浙江省台州市椒江职业中专 浙江台州 31 8000) 摘要;当前网络发展迅速,各种网站此比皆是 但在竞争日益激烈的网络经济中,作为一个同站的管理员或拥有者,只有知道网站哪些 部分最为用户喜爱,哪些让用户感到厌烦,才能最终赢得竞争的优势,而基于Web数据挖掘技术正能满足这些需求。本文介绍了基于Web的 数据挖掘的定义、分类以及xML在W e b数据挖掘中的应用。 关键词:Web数据挖掘 定义 分类XML 中图分类号:TP3 1 l 文献标识码:A 文章编号:1674—098x(2o1 o)o8(c)一0035—02 1 Web数据挖掘定义 Web数据挖掘是指在万维网上挖掘有趣 构的Web结构挖掘还有助于用户找到相关主 题的权威站点和网页,对网络资源检索结果的 容的含义,这也使得搜寻结果更有意义。 (2)内容的独立性。由于MXL是自描述的, 的、潜在的、蕴藏的信息以及有用的模式。原始 排序也有很大的意义。另外,每个Web内部也 使得XML可以脱离具体应用来描述保存在异 数据可以是结构化的,如关系数据库中的数 据,也可以是半结构化的,如文本、图形、图像数 据,甚至是分布在网络上的异构型数据。web 上的数据不同于传统的数据库的数据,它具有 半结构化等特点。因此,面向Web的数据挖掘 有或多或少的结构,通过对Web内部结构的研 构环境中的各种数据,其它系统应用能直接对 究,发现可以利用给定的Web页面的集合得出 这些自描述的XML文件中的数据进行操作。 一定的规则,寻找到相关的其它页面。 (3)可扩展性。XML可以在不破坏现有结 构和系统的情况下增加新的数据字段。应用服 务器利用现L对所有数据建模,若改变数据模 2.3 Web使用记录挖掘 Web使用记录挖掘的主要目标则是从访 比面向单个数据仓库的数据挖掘要复杂的多。 Web数据挖掘将数据挖掘的思想和方法应用 到Web上,进行Web挖掘,挖掘出有用的信息, 问记录中抽取感兴趣的模式。万维网中的每个 型只需改变数据模式定义,如文档类型定义 服务器都保留了访问El志,记录了关于用户访 等,不需要重新编码现有的对象。 问和交互的信息。分析这些数据可以帮助理解 (4)显示的多样性。XML一个及其鲜明的 特点是把数据的显示格式和数据的表示分离。 在XML中,可以用格式文件 ̄HXSL(Extensible 可以利用HTML作为XML的显示模板,把 并将其应用到电子商务等领域。它可以帮助网 络服务提供商改善站点的服务质量,优化站点 拓扑结构和页面之间的超链接关系,构建智能 化Web站点;在Web上开展电子商务活动,为 用户提供个性化眼务,也可以为个人用户提供 用户的行为,从而改进站点的结构,或为用户 提供个性化的服务。这方面的研究主要有两个 录追踪。一般的访问模式追踪通过分析使用记 方向:一般的访问模式追踪和个性化的使用记 Style Language)来定义XML的显示格式,也 录来了解用户的访问模式和倾向,以改进站点 MXL数据以数据岛的形式内嵌到HTML页面 的组织结构。而个性化的使用记录追踪则倾向 导航工具帮助他们管理网络上的信息。 中。这种分离可以实现不同数据源数据的无缝 于分析单个用户的偏好,其目的是根据不同用 连接。各种数据可以在中间件上转换为XML格 式,使得数据很容易地进行在线交换和传输。 (5)粒度级的更新。XML可以实现当数据 的一部分改变时,或者需新增数据时,不必重 新发送全部数据,仅需要将改变的内容或新增 的信息从服务器发送到客户端。 XML给基于Web的数据挖掘技术赋予了 2 Web数据挖掘的分类 根据挖掘的对象不同,现今最流行的对 户的访问模式,为每个用户提供个性化的定制 站点。 web数据挖掘可分为:web内容挖掘、web结构 挖掘、Web使用记录挖掘。 3 XML与Web数据挖掘 3.1 XML的定义 2.1 Web内容挖掘 Web内容数据挖掘是从Web数据中抽取 知识,以实现web资源的自动检索,提高web 数据的利用效率。Web数据分布范围很广,有 XML是可扩展标示语言。XML与HTML 3.3 XML在Web数据挖掘中的应用 一样都是从SMGL(标准通用标记语言)衍生而 来,XML与HTML是两个独立但并不对立的标 准。HTML的目的在干标示数据以便于在浏览 器中显示,而XML的目的在于标示数据以便机 强大的功能和灵活性,在数据的集成、发送、处 理和显示的各环节中无不表现出其卓越的性 能。 3.3.1实现异构数据的集成 从某种意义上说,XML就是一种半结构化 的数据模型,而且我们很容易就可以将其和关 FTP上的、Gopher中的、数字图书馆中的,还有 企业自己Web网站上的,也有隐形的私人数据 和动态查询的结果。Web内容挖掘就共挖掘内 器处理,特别强调数据的语义与元素之间的关 容而言可将其分为web文本挖掘: ̄l:lWeb多媒体 挖掘。Web文本文档包括Text、HTML、XML等 格式,多媒体文档包括图像、音视频等类型。 系。对计算机来说从xML文档中提取数据比从 HTML文档来得容易。因此,当Web上出现更 多的XML内容时,Web搜索的精确程度也必定 的标记语言,取消了HTML的显示样式与布局 描述能力,突出了数据的语义与元素结构描述 系数据库中的属性一一对应起来,实施精确地 2.2 Web结构挖掘 Web结构挖掘是从万维网的组织结构和 链接关系中推导知识。由于文件之间的相连, 会有很大的提高。它是一种完全面向数据语义 查询与模型抽取。因此,XML解决了搜索多样 的不兼容的数据库的问题,它使得不同来源的 非结构化数据可以很容易地结合在一起。这 样,软件代理商可以在中间层的服务器上对从 后端数据库来的数据进行集成,然后,再将麴 据发送到客户或其他服务器作进一步的集成、 万维网能够提供除了文件内容以外的有用信 能力,从而帮助人们解决协同工作、信息重用 息。目前Web的结构挖掘主要是针对链接结构 模式。这种思想源于引文分析,即通过分析一 个网页链接和被链接数量以及对象来建立 Web之间的链接结构模式。这种模式可以应用 于网页的归类,并且可以由此获取有关不同网 页间相似度及关联度的信息。这种基于链接结 中面临的许多问题。 3.2 XML的特点 (1)内容的自描述性。XML是面向内容的 处理和分发。而在XML出现之前,如果要在异 标记语言,在XML中的标记语言一方面限定了 义。在XML的搜寻结果中由标记就可知道内 质数据库之间进行搜索,就必须了解每个数据 (下转42页) 元素的层次结构,另一方面也说明了元素的含 库的构建情况,这在实际应用中是不可能的。 科技创新导报Science and Technology Innovation Herald 35 ! Q:垫 Science and Technology Innovation Herald T技术 2短声,常规错误。应进入C M 0 S 2.2.4初始化文件遭破坏导致死机 由于Windows 9x启动需要读取System. 中出现意外断电,那么你的系统可能无法启 型号。如果你所使用的BIOS升级工具可以对 动。所以在升级BIOS前千万要搞清楚BIOs的 SETUP,重新设置不正确的选项。 1长l短声,RAM或主板出错。 1K:2短声,显示器或显示卡错误。 l长3短声,键盘控制器错误。 1长9短声,主板FlashRAM或EPR0M错 ini、Wm.ini和注册表文件,如果存在Config. sys、Autoexec.bat文件,这两个文件也会被读 死机,特别是System.ini、Win.ini、User.dat、 System.dat这四个文件尤为重要。 2.2.5动态链接库文件(DLL)丢失导致死 当前BIOS进行备份,那么请把以前的BIOS在 取。只要这些文件中存在错误信息都可能出现 磁盘中拷贝一份。同时看系统是否支持BIOS 恢复并且还要懂得如何恢复。 2.2.8软件升级不当导致死机 误(例 ̄nBIOS被CIH破坏)。 大多数人可能认为软件升级是不会有问 不间断长“嘟”声,内存未插好或有芯片损 机 题的,事实上,在升级过程中都会对其中共享 坏。 在Windows操作系统中还有一类文件也 的一些组件也进行升级,但是其它程序可能不 不停响声,显示器未与显示卡连接好。 相当重要,这就是扩展名为DLL的动态链接库 支持升级后的组件从而导致各种问题。 文件,这些文件从性质上来讲是属于共享类文 2.2.9非法卸载软件导致死机 4结语 件,也就是说,一个DLL文件可能会有多个软 不要把软件安装所在的目录直接删掉,如 上述分析就是常见的造成电脑死机的原 件在运行时需要调用它。如果我们在删除一个 果直接删掉的话,注册表以及Windows目录中 因。然而,尽管造成死机的原因很多,但它万变 应用软件的时候,该软件的反安装程序会记录 会有很多垃圾存在,久而久之,系统也会变不 不离其踪,其原因始终都脱离不开硬件与软件 它曾经安装过的文件并准备将其逐一删去,这 稳定而引起死机。 两方面的问题。掌握了电脑死机的原因和解决 时候就容易出现被删掉的动态链接库文件同 2.2.10使用盗版软件导致死机 的方法,当电脑死机时,我们就不会不知所措, 时还会被其它软件用到的情形,如果丢失的链 因为这些软件可能隐藏着病毒,一旦执 手忙脚乱,而是根据不同的现象,采取不同的 接库文件是比较重要的核心链接文件的话,那 行,会自动修改你的系统,使系统在运行中出 解决方法,让电脑更好的为我们工作! 么系统就会死机,甚至崩溃。我们可用工具软 现死机。 件如“超级兔仔”对无用的DLL文件进行删除, 参考文献 这样会避免误删除。 3计算机自检声音信息与故障部位关系 【l】周观民,王金岗.计算机组装与维修教程. 2.2.6硬盘剩余空间太少或碎片太多 电脑开机自检时,机内小喇叭会发出各种 航空工业出版社. 对于一些大型应用程序运行时需要大量 “嘟”声,其实,这是在向我们报告自检信息。不 【2】史晓燕.实战微机故障2000例.机械工业出 的内存,如果物理内存不足就需要使用硬盘上 同的BIOS,“嘟”声的含义也不同。下面列出两 版社. 的虚拟内存,此时如果硬盘的剩余空间太少的 种常见BIOS的开机自检声音信息。 【3】王竹青.跟我学硬盘故障怎么检查.电脑报 话,那么就有可能会引起死机现象。另外,如果 (一)、AMI BIOS 【4】周铭.多媒体计算机硬件教程一一安装、调 电脑长时间没有整理硬盘碎片的话也会使系 1短声,内存刷新失败。 试及维护指南.北京希望电子出版社. 统资源紧张而死机,当然,如果硬盘中的垃圾 2短声,内存EcC较验错误。 1999. 文件过多的话,也会造成硬盘寻找文件的困难 3短声,系统基本内存(第1个64K)自检失 [5】邹宁.计算机组成与结构.清华大学出版 而造成死机现象。此类故障的表现也是比较特 败。 社. 殊的—一通常都是在硬盘连续“疯狂”进行读、写 4短声,系统时钟出错。 【6】中国电脑教育报.微机故障常见的检测方 盘操作时会突然定格或蓝屏死机。 5短声,CPU出错。 法. 所以,你最好是把虚拟内存设置到剩余空 6短声,键盘控制器错误。 [7】Microsoft.计算机教学与实践24学时教 间比较大的分区中,而且要定期清理各种垃圾 7短声,系统实模式错误,不能进入保护模 程.人民邮电出版社. 文件和定期整理磁盘碎片。 式。 【8】李甬.新编计算机维护维修教程.冶金工业 2.2.7BIOS升级失败导致死机 8短声,显示内存错误(如显示内存损坏)。 出版社. 应备份BIOS以防不测,但如果你的系统需 9短声,主板Flash RAM或EPROM检 要对B10S进行升级的话,那么在升级之前最好 验错误(例 ̄nBIOS被CIH破坏)。 确定你所使用BIOS版本是否与你的PC相符 (二)、Award BIOS 合。如果BIOS升级不正确或者在升级的过程 l短声,系统正常启动。 (上接35页) 据的逻辑结构和含义,这使得XML成为一种程 经济,2009(19). 3.3.2易于作数据交换 序能自动理解的规范。 【2】王学丽,李嘉森.我国近年数据挖掘研究分 在Web数据挖掘过程中,客户经常需要在 析[J].中国统计,2008(11). 不同结构的数据源之间进行业务数据传递。与 4结语 【3】魏秀然,李建芳,刘安民,闾素红.基于web 旧的电子数据交换(E1ectroniC Data 未来随着XML的兴起,大量的Web页面用 的数据挖掘技术及应用【J】.华北水利水电 Interchange,EDI)格式相比,XML提供了许 XML书写,WebN面会蕴含更多的结构化和语 学院学报,2009(2). 多优点。观L的自定义性及可扩展性足以标示 义信息,便于设计和实现基于Web的信息搜索 f4】刘艳慧,雷英杰.基于Web数据挖掘技术研 各种类型的数据,自然也可以描述从各站点搜 和知识发现语言,有利于促进不同Web,. ̄i点间 究【J】.现代电子技术,2007(9). 集到的Wet,页中的数据纪录。客户接收到数据 的信息交换和多层次Webgt据库的信息、存取。 【5】霍丽峰.XML在Web数据挖掘中的应用 后可以进行处理,也可以在不同数据库间进行 Web挖掘工作将变得更为有效,也更为容易。 [J].太原科技,2007(6). 传递。总之,在这类应用中,XML解决了数据 【6】孙兴富.基于Web的数据挖掘技术及应用 的统一接口问题。但是,与其他的数据传递标 参考文献 问题探讨[J].中国新技术新产品,2009(3). 准不同的是,XML并没有定义文件中数据出现 【1】张晓敬,姚家奕.基于Web数据挖掘的企业 的具体规范,而是在数据中附加标志来表达数 知识管理系统模型框架[J].内蒙古科技与 42 科技创新导报Science and Technology Innovation Herald