山西大学学报(自然科学版)25(2):115~119.2002 Journal of Shanxi Universlty(Nat.Sci Ed) 文章编号:0253—2395(2002)02叽1 5-05 基于构词法的网络新词自动识别初探 郑家恒,李文花 (山西大学计算机科学系,山西太原030006) 摘要;网络新词语的自动识别是中文信息处理中的一个热点研宄课题。文章在对加工过的网上文皋语料统计的 基础上.根据汉语构词法建立规则库,通过调用“互斥性字串”过滤规则和构词规则来确定新词语。设计并实现了网 络新词语的自动识别实验系统.妊封闭删试.准确率为91.2 ,召回率为g5 。 关键词:网络词语;汉语构词法;新词语自动识别 中图分类号:TP312 文献标识码:A 0引言 随着计算机网络的发展.网络正迅速地改变着人的工作.购物、娱乐、交际等各个方面,大量的网络术语和网络新词语也 应运而生 根据我们对150万网上语料的统计结果.网上新词语在语料中占有相当的比例,网络词语的存在与运用已具有普遍 性。 汉语自动分词是中文信息处理的一项基础工程,由于网上新词语的出现,使得分词软件对ⅣE 文本进行分词时,出现过 多的“散串 ,影响了分词的正确率,新词语的识别已成为中文信息处理领域的瓶颈问题。目前对新词语识别的研究主要集中 在新词语的外形特点及外部环境中,而忽略了词本身的内部结构问题 研究汉语的构词法,了解词的结构规律.对于新词语的识别具有一定的意义。比如“战友”是一个旧词,根据构词法中对词 语的判定规则可知, 战友”这个词结台得非常紧密,当中不窨许加^“的”这个虚词.叉因为“友”字有名词的特性,因此t可以确 定“战友”是一个名词 叉比如 网友”是一个新词,根据上述推理,“同友”之间也不能加人。的”,成为“阿的友”,因此,“网友”也 是一个结台紧密、使用稳定的词。由于构词法的帮助,对于‘网友”这个新词有一个很好的识别依据。因此运用构词法对于确定 网络新词语是很有帮助的 本文在对加工过的阿上文本语料统计的基础上,首先用Ⅳ元递增分步算法,获取古新词语的汉字串,按照“功能字”、“功 能词”剔除噪声字串:1];其扳根据汉语构词法建立规则库,通过调用“互斥性字串”过滤和构词规则确定新词语。设计并实现 了新词语的自动识别实验系统1经划试,准确率为91 2%,召回率为95%。 l 网上文本中新词语现象分析 w ̄Y,w是Internet的基于超文本文件的交互式浏览检索工具,它为用户提供了一个信息网,几乎包古了各个方面信息一如: 新闻”、“经济”、“法律”、 教育”、 体育”、“医疗”、“科技”、“文学”等 同时,网络也是~个进行信息交流的自由场所t网民可以 在网上自由的发表自己的文章及各种观点,这样,就为新词语的产生提供了一个更为自由的空间。本文语料的来源主要是从 网站中下载,内容包括:经济 计算机、环保、法律、科技及网民发表的各类杂文、网页内容等,共计150万字。 1.1新词语词长现象分析 本文用分词软件对所选取的窭验语料进行了初加工,然后通过手工标注,抽取网络词语,共抽取双字词885个.三字词 收稿日期:2002—01 1 0 基金项目:国家863项目(2001AA114031) 作者简介:郑家恒(1 948),女,湖南省宁远县人,山西大学计算机科学系教授,硕士研究生导师 维普资讯 http://www.cqvip.com
西大学学报(自然科学版) 273个.四宁词74个.所抽取的新词语词长现象如下: ●双字词语:新词语巾的双音节词都集c 在连续的 7串上。 例:1/元左右/的/上/同/成本/实在/ik/网 友 羡慕 不/已 ●_宁词语:新词语中的一音节捌.冉些足由初加工语料中的双音节刊与其相邻的单宁构成,也有些是由连续的单字串组成。 例:网络/股/沉寂/几时 ●四字词语:新词语巾四音节词出现情况较多.有些由连续的单字构成.有些由相邻的双音节词组成.而有些又是由单音侧与 其相邻的 字构成 倒:同,上棚 爱 属,柏拉 图式/的 精神 恋爱 田此,从 上对新闻语词长的组成分析来看,它可以足二元组、三元组、四元组的字串 1.2新词语构词分析 通过对实驻语料巾新词语结构的分析,可 看出,新词语的拘词规则有两种类型: 1.2.1符合常规的构词规则 大部分的新词语的词性结构仍然遵循常有的构词蟓则:名词与名词、动词.形容词的结合力仍然很强.侧:网宅=丽(名 阋】+宅(名词);丽恋一网(名词)+恋(动词);新经济=新(形容词)+经济(名词)等。 1.2.2特殊的构词规则 由于网络的发展,人类 身对埘语的创造性,使得某些特殊词性的字在新词语中有了特殊的意义。从而形成了新的构词 规则.如: ①介词具有丁构词能力,介词“在 可以和名词结音形成“在线”; @语气助词“吧 的特殊意义: 吧”在原有的构词中没有什幺特殊的含义,只是位于名阋束的虚词.但在现实生活中却有 r一个实际的含上。可“当作一十名闻来用,表示一个体息娱乐的场所,与另一名词结合.形成一十新词,如“网吧”,“水吧”, “冰吧”{ @区别词“黑”原表示的是一种分类标准,一种状志.但在网络却具有了特殊的吉义.可 和名词、介词、动词构成新的词 语+如:“黑客”、 被黑”.“防黑 ; ① 卜 、 下”是一种表示方位的词,是单独使用的.但在新词语中具有了新的意义,如“楼上”、 楼下”用于表示网络中电子 公告栏中 面的贴于”、“下面的贴子”; @在新词语中还出现r一种量词与量词相结合构成新的词语。如:“页面”; 通过新词语的词性分析可知.枉新词语构成中存在着许多新的构词原则。新词语的组成成份除一部分遵循常规的构词原 则外,夼词、方位词、语气助词等都具备了新的拘词能 。 L 3对初分词后结果的分析 本文对150万语料经过分词软件初加工后,切分碎片为262155趺(古重复累计数)。其中连续的 散串”共计118740次。占 切分碎片的45 3%.通过对切分碎片进行分析.得出: 在构成碎片的单字中,3158个单字出现次数从1——4103不等。其中存在着大量的宴词部分,其中动词、名词、形容词所占有的 比例也很大。在31 8十单字中。名同、动闻、形容词这三大基本实词共计2434个,占总单字数的77%。具体数据如图所示 45 00% 在对“散串 中的词性观察过程中.散串中存在着许多实词.而且还 40 00% 有许多实词相邻的现象。 35 00% 侧: 当时l丁我lRl怀疑lⅣl是否,]自己R点Q错 了 30 00% 25 00% [ 链lⅣl接y。lⅣl 20 00% 袁1是构成二元组首字是名词而尾字也是实同的部分新词统计 15.00% 情况: 10 0o% 从上述数据可m看出当分词软件对基于WEB的文率进行处理 5.0o% 0 0o% 时。出现分词碎片过多.而且碎片中包含了大量的实词部分。我们知 2 3 4 道宴词具有较强的构词能力。因此有必要对碎片中出现的连续的单 宁即”散串”进行分析处理。 其中:1袁币名词。2表示功阐.3表示形容词 2构词法 4代表其它词性 图1 “散串”中三大基本侧统计表 在介绍什么是构词法之前.我们首先看 下例句,注意有加重 的同 t1)快过“五一”节r。各十车站的人艾会多起米丁 ‘2)2000年一批收人在数亿元以t的电子商务同站 现。 维普资讯 http://www.cqvip.com
郑家恒等:基于构词法的网络新词自动识别韧探 ‘。 在一些娱乐场所'堡墅反而成了一个必不可少的组成表】 二元组中名词与部分实词相邻情况统计表 部分。 (4)我每天上网,都会常去13BS站和聊天室果上一会儿。 名词+名词 名词+动词 名词+形容词 (5)一车名叫《知本家风暴》的书最近摆到了书摊上.引来人 数目 848 424 l2l 们的普遍关注。 网站网友 同恋链接 台独通胀 从(1)、(3)我们可以知道,“车站”、“休息室”是我们已认可的 举例 中美世贸 音效网聊 调高年总 词,分别是以“站”和“室”为主构成的词,而“网站”、‘聊 室”却是 股价网路 主审回放 价急封死 新词,从大的结构方面束看.“网站”“车站”、和 聊天室”、“休息室 是一样的,它们的构造法不是新的,它们都是按照老的构词方法造出来的,都是以词中的一个单位为主而构成的词,它们都是 口一口这种构词方式。 改革开放使中国社会日新月异.出现了大量反映社会变化的新词 例如: 家”除了家庭的意思之外,还可以表示 经营 某种行-II=或具有某种身份的^.如 资本家”、“店家”、 行家 ,其构词模式为; 臣 臣 这但从些词的(5)中构,成出方现了式都一是个一新词样的,“知都本家有一 个中,由于网心词络经“家”济 的发展,“知本 家”这个从中关村的创业者中引发出的新名词,是每年衩语新出现的8OO 个新名词里的一个。它散发着一个让人心动的消息:中国新兴知识分子一 靠知识创造财富,其构词模式亦为: 因此,我们说,构词法作为一门科学,就是研究语言中词的构造规律的学问。产生新词的时候,新词的结构大都是按照构 词法产生的。 3规则库的建立 我们以现代汉语构词法为原则,以信息处理用现代汉语构词规范为标准,建立了构词规则库,对网上新词语进行识别。规 则的来源主要是从两个方面,一方面是以构词法的知识为基础,建立新词语识别的常用构同库;另一方面是从对同上词语的 特点出笈,建立特殊构词规则库。按照规砌所起的作用可将它们分为“互斥性字串”过滤规则、常规构词规砌、特殊构词规则 为叙述方便,特作如下约定:设A、B、C、D代表四个任意汉字,则二元组可表示为AB、三元组可表示为ABC、四元组可表 示为ABCD。 3.1常规构词规则库 常规构词规则的产生主要是从现代汉语构词方式出发.考虑如下几种形式的组台:“名词+名词 ,“形容词+形容词”, 动 词+动词”,“形容词+名词”,“动词一名词 , 形容词+动词”,“名词+动词 .“名词+形容词 , 名词+量词”,“动词+形容 词”等l0种组合形式。下面是部分规则示例: ①名词的构词规则: ・ wordtype(A)=’N’and(wordtype(B))=’N’or tt ̄rdtype(B)=’V’。r z ̄ ̄rdtype(月);’A’)then ne'w(AB)=’N9’ 谈规砌表示;如果twowordtabte中的构成二元组中A为名词.而B为名词或动词或形容词,戢5将该二元组做标记.认为是 新词。 ・ zoordtype(A)=’N’and zoordtype(B)=’0’then "(一 )一’N9’ 该规则表示:如果twow ̄dtable中的构成二元组中一为名词,而 为量词,则将该二元组做标记一认为是新词。 ・ wordtype(AB)=’N’and ̄rdtype(C)=’N’then㈣(ABC)一’N9’ 该规则表示:如果threewordtabte中的构成三元组的形式为A +c型.且满足AB、C分别为名词,则将该三元组做标记- 认为是新词。 ②形容词的构词规则 ・ifwordtype(A)=’A’and zoordtype( )=’N’then new(AB)=’N9’ 该规则表示:如果tz ̄ordtctble中的构成二元组中^为形容词,而B为名词.卿将该二元组做标记,认为是新词。 ・ifwordtype(A):’A’and ̄Jrdtype(BC)=’N’then new(ABC)=’N9’ 该规则表示:如果thre rdtabt 中的构成三元组的形式为A+村型.且满足 为形容词、BC为名词,则将该三元组做 标记,认为是新词。 ・ u r ( )=’A’and wordtype( )=’V’then F (AB)=’N9’ 该规则表示:如果f删r㈣clt bt 中的构成二元组中A为形容词.而B为动词,则将该二元组做标记,认为是新词。 维普资讯 http://www.cqvip.com
118 山西大学学报(自然科学版) 25(2)2002 @动词的掏词规则: ・ wordtype(A)一’V’and zoordtype(BC)一’N’then n ̄zx,(ABC)一’N9’ 该规则表示:如果threewordtable中的构成三元组的形式为 +BC型,且满足A为动词、BC为名词性的二字词,则将该 三元组做标记,认为是新词。 ・ifwordtype(A)一’V’andwordtype(B)=’V’andA=Bthen new(AB)一’N9’ 该规则表示:如果twowordtable中的构成二元组中A、B均为动词,且A、B为相同的字,则将该二元组做标记,认为是新 词,该规则主要用于收集重叠词。 3 2特殊构词规则库 由于网上新词语的产生有一定的人为因素,因此在新词语中存在许多不台常规掏词法的新词语,同时网络经挤的特殊 性,产生了许多新的网络活动.特殊构词规则主要是从网上新词语的特殊性出发,建立新的构词规则,根据对网上新词语的分 析,人工获得规则,共有规则二十余条。下面是部分规则示侧 特殊规则l: 五rstwordtype(A)一’B’ and secondwordtype(B)=’N’then new(AB)一’N9’ 该规则表示:若二元组中的第一十字的词性是区别词,第二个是量词,则认为该二元组为新词; 特殊规则2:iffirstwordt)Te(A)一’N’and secondword(B)=’吧’then new(AB)一’N9’ 该规则表示:若二元组中的第二个字是。吧”,且第一个单字词为名词,则认为该二元组为新词j 特殊规则3:if^rstword(A)=’网’and secondwordtype(B)一’N’then new(AB)一’N9’ 该规则表示:若二元组中的 为“同”,且B为名词,则认为该二元组为新词; 在分词规范中,四字词的结构是一个非常复杂的问题,本文针对性地对特殊的四字网珞词语做了部分小结,抽取了由 网 络、电子、虚拟、网上、在线”等开头,后接名词性的双音节词t有规则如下: 特殊规则I:if(firstpartvL,ord(AB)一’网络’OK firstpartzoord(AB)一’在线’or firstpartzoord(AB)=’虚拟’or 疗㈣tp rtword(AB)=’电子’07"五r“户4rf ( B)=’网上’)and secondwordtype(CD)=’N'then new(ABCD)一’N9’ 该规则表示:若四元组ABCD中AB为“网络、在线、虚拟、电子、网上”等其中之一,且其后接名词性双音节词,则认为该 四元组是新词。 3.3“互斥性宇串”的过滤规则 定义1:所谓 互斥性”是指根据构词法的有关原则,组成候选词条各部分的词性具有明显的不成词成份,将其去除。 按照分词规范中对于介词、量词、副词、代词等需要进行单独切分原则,我们将这类词进行了归类t建立了功能字库,但是 对于有些既可以做虚词又可 做实词的这部分兼类字.我们在功能字表中没有处理,“互斥性字串”的过滤规则主要考虑对于 单字兼类词的处理,同时也结台了分词规范中对于需要单独切分的一些词类的处理。规则的获取主要是人工得到,下面是部 分规刚示倒: 过滤规则l: flrst ̄oordtype(A)=’D’then delword 该规则表示:若Ⅳ元组中第一字的词性为副词,则将该字串去除。 过滤规则2:if exitwordtype=’C’then delword 该规则表示:若Ⅳ元组中古有连词,则将该宇串去除。 地滤规则3:ifwordtype(A)=’Q’且wordtype(B)◇’Q’then ddword 该规则表示:若 为量词,且B为非量词,则将该字串去除; 过滤规则4:if wordtype(A)一’P’and wordtype(B)<>’N’then delword 该规则表示:若A为介词,B为非名词类,则将该字串去除。 4实验及分析 我们对所选用的150万语料进行测试=在对使用规则进行别除后的Ⅳ元组 共有二元组6734个,三元组7709个,四元组 6375十,首先使用特殊规则进行部分新词语的召回,然后再利用互斥性过滤规刚去除不符台分词规范的Ⅳ元组[1],最后利 用构词规则进行新词语的召回。其中正确召回的二元组796个,蒲识别的89个,错误召回的78个,正确召回的三元组246个, 漏识别的27个,错误召回的为35个,正确召回四元组66十新词语,蒲识别为8十。系统准确率为91 2%,召回率为955 以下是部分召回正确的新词语: 卫lⅣ视 网lⅣ站Ⅳ 世lN贸Ⅳl 引y资Ⅳl 欧 Ⅳ盟lⅣl 欧Ⅳl元lQl 网lⅣl友Ⅳ 网lⅣl路Ⅳ 跨l l国Ⅳ.在lPl线N 油lⅣl价N 端lⅣ口N 视l l窗lⅣl域lG1名Ⅳ 股lQl价N 新lAl股l l 炒l l作lⅣl 宽lⅣl带lⅣl 回,0 调JⅣJ黑J J客JⅣJ 台JO J独JD J盘JO J活J J持J1,J股JⅣ: 网JⅣJ吧y J 维普资讯 http://www.cqvip.com
郑家恒等:基于掏词法的网络新词自动识别初擐 配i 股lⅣl 帐Ⅳ户INl 果 帐NI 期【Q权NI 豪 l宅lN 贩毒 案lGl天然lN水Ⅳ 承租l l权lN 农业NI户lⅣl产权lNl房Ⅳ 新f^f概念Ⅳ 创业lⅣl者Ⅳ 配偶N权lNl 纯净lAl水lN【广告N商lⅣl 水IⅣl市场Ⅳ 网培。Nf外遇Ⅳ 网络Lv J爱情 同络IN J恩维ⅣI 电脑J J网络IⅣI 同络INI警察lⅣl 电子lⅣ商务lNl 电子lN产品lNl 电子【N 刊物lN【 网培N1时代IN 虚拟 世界lN【 虚拟fVf婚姻Ⅳ 虚拟 ● 法庭Ⅳ 虚拟 Vf社区Ⅳ 大多数新词语的结合是符合构词规则的,实词中三大基本词性名词、动词、形容词的构词能力很强,但是也存在褥召和错 召的现象。如:语句 “灌NI水和N5造INI砖lNl是V BBS QT上IFl的lul常用 l词汇lⅣl 其中的“灌永”是网民的生 造的新词语.但由于分词错误.将“水和 当地名处理,因此,漏掉了对“灌水”的召回;有时由于词性的兼类问题也会造成新词语 的褥召=如:语句 申iN2【购 新lA股lⅣl的lf,l数量NI应为l li0000lM1股Q整数【N.倍D”中的将“申”做为姓氏 处理.因此漏掉了对“申购 的召回。又如语句: 却Ⅳ充满lV【着ul使 人lⅣl心仪INl神往l 的lU【神秘lAl与lPl美丽 lAl” “第一lⅣl滴【V【网NI泪lⅣl 中的“滴l l网lNl”、“使l 1人lN ”符合构词规则一被错误的召回。 构词法的研究是一个非常复杂的系统工程。虽然我们很容易获得构词的规则,但是这种形式较为单一=由于许多词存在 词性兼类问题,因此,对于每个语索的构词能力也是构词法研究的主要内容。同时,应加大语料规模,进一步获得字串结合的 紧密程度.从而提高系统的性能. 参考文献: [11郑家恒、李文花 新词语自动识别方法研究_A .自然语言理解与机器翻译 M:.北京:清华大学出版社,2001. [2]刘开瑛中文文本自动分词和标注[M] 北京:商务印书馆,2000. [3 NIE Jian—yun,MARIE—LOUISE HANNAN,Unknown word detection and segmentation of Chinese using statistical and heuristic knowledgeU].C ofCOLIPS,1 995,5(2)DEL,69—77 :4] 陆志苇.现代汉语构词法(修订本)IM] 北京:中华书局,1975. A Study on Automatic Identification for Internet New Words According to Word-Building Rule ZHENG Jia—heng,LI Wen—hua (Department of Comput ̄Science,Shanxi UmverMty,Taiyuan 030006,China) Abstract.The automatic identi ̄cation to lnternet words is one of the hot topics recent1)r in the Chinese information processing This article bases on the statistics to the process words net corpus—according to the ruler databases of Chinese word building,applies fiher ruler and found ruter of words exclusive to recognize new Internet words Based Otl the above ideology.we also design and achieve the Internet words automatic identification system.Cruse testing—correct rate;91・ 2 .recall rate:95 . Key words:internet words ̄Chinese word building ̄ne%v words automatic identification
因篇幅问题不能全部显示,请点此查看更多更全内容