“计算语言学”及其近义术语详解*
(北京大学)◇邵艳秋
摘要:本文介绍了计算语言学的起源及其发展历史,对该领域的一些相近术语概念及其各概
念之间的关系进行了详细的解释,包括计算语言学、自然语言处理、自然语言理解、人类语言技术、语言信息处理、中文信息处理等等。
关键词:计算语言学;自然语言处理;自然语言理解;人类语言技术;中文信息处理;术语
ADetailedExplanationofComputationalLinguisticsanditsSynonyms
SHAOYanqiu
Abstract:Theoriginanddevelopmentofcomputationallinguisticsareintroducedinthispaper.Somesynonymousterminologiesofcomputationallinguisticsareexplainedindetails,includingComputationalLinguistics,NaturalLanguageProcessing,NaturalLanguageUnderstanding,HumanLanguageTechnology,ChineseInformationProcessingandsoon.
Keywords:computationallinguistics;naturallanguageprocessing;naturallanguageunderstanding;humanlanguagetechnology;Chineseinformationprocessing;term
人提出要用机器来代替人进行不同语言之间的翻译。前苏联发明家特罗扬斯基设计了一种1933年,真正用于翻译的机器,但是并没有成功。事实上,的机器翻译研究是在计算机发明之后开始的,美国Georgetown大学与IBM公司合作开发1954年,
了世界上第一个机器翻译的原型系统,当时的目的主要是将其用于美俄之间军事情报的翻译工作,该系统首次通过机器将俄语翻译为英文并取得了初步的成功。这项工作使学者们备受鼓舞,也吸引了政府大量资金的注入,计算语言学的研究也开始了其萌芽时期。初期的机器翻译系统大都是以词典驱动,直接采用词对词的模式匹配的翻句法都存在很译方式,由于不同的语言之间词法、大差异,显然,这样的翻译结果不会令人满意。机器翻译的研究在当1966年,ALPAC报告中指出,时的条件下并不具备很好的前景,不宜给予大力支持。另外,后来有学者认为,虽然“计算语言学”一词之前早已出现,但作为术语第一次正式提出
一、计算语言学的起源及其发展
从世界上第一台电子计算机诞生至今,计算机的功能已经远远超出了最初的数值计算范围,进入到了更广泛的非数值领域,例如语言处理领域。而在计算机出现之前,对语言的研究大都是由语言学家来完成的。利用计算机这一现代计算工具来研究语言,仿佛给计算机赋予了更多的智能“计算语言学”化色彩,而(ComputationalLinguis-tics,CL)这一语言学和计算机科学的交叉学科此时则应运而生。当然,在计算语言学的研究过程中,还涉及到数学、认知科学、逻辑学、心理学等许多其他学科。
实际上,“计算语言学”这一术语是伴随着“机器翻译”这一应用而出现的。传说中,上帝为阻止人类建造通天塔的壮举,故意让不同种族的人讲不同的语言,使人类不能自由交流,无法齐心协远在古希腊时代,就有力。为了跨越语言的障碍,
(973课题)资助项目(2004CB318102)。*国家重点基础研究发展规划项目
·24·
·专业领域术语标准化·
是从这份报告开始的。之后,随着许多机器翻译项目的下马,计算语言学的研究在60年代中后期也步入低潮。
后来人们逐渐认识到,若想取得好的机器翻译效果,必须对自然语言有一定的理解,需要对自然语言的句法、语义等进行深入的研究。20世纪70年代后,人们开始思考自然语言的知识表示和处理的理论和方法,计算语言学开始研究面向受限域的自然语言的深度理解。70年代和80年代可以说是计算语言学的发展期,这期间诞生了许多具语境甚至语用分析功能的理解系统,如用有语义、
自然语言进行情报检索的LUNAR系统,用自然语言来指挥机器人动作的SHRDLU系统,利用概念依存理论进行推理的对话系统MARGIE,以及可以理解小故事的SAM系统和PAM系统等等。一些著名的句法分析算法,如基于上下文无关文法的以及语义知识系统如格语法、义素分析GLR算法,
法等也被应用于句法及语义的自动分析上。
随着互联网的发展,计算语言20世纪90年代,
学进入了大规模真实文本处理时期,语料库语言学盛行,经验主义方法复苏。不同于以乔姆斯基为代表的理性主义观点所认为的语言知识是与生俱来的观点,经验主义者认为可以通过一个适当的语言模型来学习复杂而广泛的语言结构,而语言模型则可以通过基于语料库的统计学习方法来得到。实际上,无论是规则的方法还是统计的方法,都是希望获得更多的语言知识使其得以应用,只不过一个是通过内省的方式获取知识,一个是从大规模语料中统计获得,如果将二者有效地结合,必将对计算语言学的发展起到巨大的推进作用。
鉴于计算语言学学科的重要性,美国1962年在普林斯顿成立了计算语言学学会,该学会每年开一次ACL年会(AnnualMeetingofAssociation)并出版相应的学术forComputationalLinguistics
季刊《美国计算语言学杂志》,《计1984年后改名为算语言学》。1965年,“国际计算语言学委员会”在纽约成立,每两年召开一次国际计算语言学大会(InternationalConferenceonComputationalLin-),即COLING会议。随着计算语言学的发guistics
展,相关的有影响的国际会议也越来越多,如EMNLP(EmpiricalMethodsinNaturalLanguage
《术语标准化与信息技术》2009年第3期)、ProcessingHLT(HumanLanguageTechnology)、ConferenceIJCNLP(InternationalJointConfer-)、enceonNaturalLanguageProcessingNAACL(TheNorthAmericanChapteroftheAssociation)、forComputationalLinguisticsEACL(European)、ChapterofACLANLP(AppliedNaturalLan-)等等。guageProcessing
中国中文信息学会于1987年6月组建了计算语言学专业委员会。1991年6月计算语言学研究会在北京市语言学会下成立。1988年6月在清华大学召开首届全国计算语言学学术会议,从第二届开始更名为全国计算语言学联合学术会议,每两年召开一次。中文计算语言学虽然起步较晚,但发展得却很迅速,目前,中文在字、词、句甚至篇章等处理层面上已经取得了许多丰硕的成果。
二、计算语言学及其近义术语定义
1.计算语言学
实际上在学术界对“计算语言学”一直没有一个统一的定义,在《大不列颠百科全书》中给出了这样定义:
“计算语言学是利用电子数字计算机进行的语言分析。计算分析最常用于处理一些基本的语言数据———例如建立语音、词、词元素的搭配以及统计它们的频率。”
显然,这个定义中的后一句在介绍计算语言学的处理单元及其计算内容上有一定的历史局限性,因为目前计算语言学的研究已经远远超出了搭配和频率统计的范围。
实际上,站在不同的立场,对计算语言学可以从不同层面来理解,例如从工程主义出发,更多的是将计算语言学理解为建立一种可运转的计算机系统,这个系统可以理解和生成自然语言;从工具主义观点看,则强调是用计算机来分析语言;站在认知主义的立场来看,计算语言学更关心如何用计算机来模拟人类学习语言、理解语言的心理过程;而实证主义则是从另一个角度即利用计算机来对语言学家所提出的各种理论进行检验。
这里,我们给出一个目前被许多经典教材所采用的一个计算语言学的定义:
“计算语言学指的是这样一门学科,它通过建
·25·
《术语标准化与信息技术》2009年第3期·专业领域术语标准化·
当然,不同的学科对“理解”有不同的认识,美国认知学家G.M.Ulson提出了四个表示“理解”的标志,机器能正确地回答输入文本中的①问答能力:有关问题;机器能够自动对输入的②文摘能力:机器能用不同的词语语料生成文摘;③复述能力:和句型来复述其输入的文本;机器④机器翻译:具有把一种语言(源语)翻译成为另一种语言(目标语)的能力。
可以想象,如果计算机真的能够达到这样“理的水平,也就意味着计算机已经真正成为了“智解”
能机器”。Turing就曾经提出,“检验计算机智能高低的最好办法是让计算机来讲英语和理解英语”。
由于20世纪80年代对“自然语言理解”的探索遇到了困难,进入90年代以来,人们变得更加实际,越来越多地使用“自然语言处理”这样比较低调的字眼,而比较少使用“自然语言理解”这样比较张扬的术语,以免别人质疑:“你们做的系统真能够理解语言吗?”
4.人类语言技术
无论如何定义计算语言学,我们知道其处理对象都是围绕着“人类语言”在进行,不是动物语言,也不是人工定义的语言,而是人类的自然语言。由于“自然语言”这个提法是相对于人工定义的程序设计语言而言的,其背后的含义不易被其他领域的学者体察,造成“自然语言”这个概念有些模糊,为了明确起见,也有人采用“人类语言技术”(HumanLanguageTechnology)这个术语。
这个定义一方面将该领域同传统的例如研究人类语言的语文学研究相区别,更强调其技术色彩;另一方面,该定义所囊括的范围也更广泛,无论是自然语言处理,自然语言理解,还是机器翻译,信息检索甚至语音技术等所有这些和人类语言相关的语言处理问题都可以纳入其中。另外,从这个概念还可以感觉到,其相对于“计算语言学”的概念而言,更强调技术层面,而“计算语言学”则更强调理论。
和“语言技术”最接近的概念,还有“语言工程(LanguageEngineering)”。
5.中文信息处理
“语言信息处理”这样的定义也会被人们经常使用,有时人们对“语言处理”和“语言信息处理”
立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。”
从这个定义中可看出,计算语言学是“计算”和“语言”的统一,是从计算的角度来研究语言,同时,将语言作为计算的对象来研究相应的算法。
2.自然语言处理
从前面的定义可以看出,“计算语言学”主要“计算”的话,则主要是由两部分组成,如果偏重于指利用计算机对自然语言进行各种加工和处理,因此有人将其称之为“自然语言处理”(NaturalLanguageProcessing,NLP)。
美国计算机科学家BillManaris曾经给“自然语言处理”提出了如下的定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个概念给出了计算机对自然语言所要研究和处理的内容,即不仅包括语言能力模型还要包括语言应用模型。
在处理自然语言时,可以对语言的各级单位,如字、词、句、篇章来进行分析、加工和转换。如词处理主要包括分词、词性标注、词义消歧等内容;在句子层面目前的研究难点主要是句法结构分析、句义的理解如句子内部词汇和词汇之间的语义关系等等;篇章处理方面,需要考虑句子与句子之间的关系,包括句中成分的互指,代词成分回指,句子之间的衔接等等。而从对语言的不同处理层面上讲,也可以将处理分为从词法、句法、语义和语用的层面进行。
3.自然语言理解
从计算语言学研究的终极目标来讲,是希望研制出真正能够像人一样理解自然语言的计算机系统,可以用来模拟人的语言交际过程,包括理解语言、生成语言等等,从这个角度上来讲,计算语言学也常常被称为自然语言理解(NaturalLan-guageUnderstanding,NLU)。·26·
·专业领域术语标准化·
不加区分,但笔者认为“语言信息处理”的处理对象是以语言为载体的信息,而“语言处理”的对象是作为信息载体的语言本身,二者的注意力不同。比如:语义角色标注是典型的语言处理,而信息抽文本检索是典型的语言信息处理,语言信息处取、
理这个概念也能够涵盖文字识别、语音处理等研究课题,范围更广。
在中国,人们更习惯使用“中文信息处理”(ChineseInformationProcessing,CIP)指称相关的“中文”研究,但有必要加以更明确的界定和说明。可以广义地理解为中国各民族语言文字的统称,不过多数情况下还是狭义地特指汉语言文字。“中文信息处理”可以划分为“汉字信息处理”与“汉语信息处理”两个不同的又有紧密联系的层次。目前汉字信息处理的问题虽然也没有彻底解决,但研究的重点已经放在汉语信息处理上了。由于语言研究离不开语言间的比较与互译,特别在当代,互联网迅速扩张,多语言信息处理成为其重要的技术特征之一,所以现在使用的“中文信息处理”或“汉语信息处理”通常也指以汉语为核心的多语言信息处理技术。
6.其他相关定义
计算语言学除了上述几个应用得较为广泛的概念之外,还有一些其他的相关定义,比如“计量语言学”“数理语言学”(QuantitativeLinguistics),(MathematicalLinguistics)等等。
计量语言学主要侧重于利用计算机作为工具,对一些语言符号的频度进行统计,例如,对词汇频率的统计,对一些方言的统计等等,通过统计来发现语言中隐含的一些数量规律。这类研究和我们所说的计算语言学的研究范畴存在很大的不同,但广义上讲,计量语言学也属于计算语言学的范畴,计量语言学的研究对计算机模拟人类的自然语言研究可以提供很好的支持作用。
数理语言学则更加强调通过数学思想和方法来研究语言,刻画语言,更偏重于对语言进行形式化的研究,从而形成对语言表达更加严密的理论体系。数理语言学包括:代数语言学、统计语言学和应用数理语言学。代数语言学是采用集合论、数理逻辑、模糊数学、图论等离散的、代数的方法来研究语言;统计语言学则是采用概率论、数理统计
[5][6][7][1][2][3][4]
《术语标准化与信息技术》2009年第3期和信息论等统计数学的方法来研究交际过程中语言成分使用的频率和概率,研究其统计规律;而应用数理语言学是指把代数语言学和统计语言学应用于机器翻译、人机对话以及情报检索的技巧和方法的研究。
三、小结
正是因为计算语言学的研究范围广泛,研究者的侧重点各有不同,才出现了众多纷繁不一的定义。如果从学科的角度来看,计算语言学的位置处在三级学科,其上面的二级学科和一级学科分别为应用语言学和语言学,更偏属于人文科学,强调理论研究;自然语言处理也是处在三级学科的位置,它所属的二级和一级学科分别是人工智能和计算机科学与技术,属于自然科学,相比于计算语言学更偏重应用研究。无论是理论研究还是应用研究,最终的研究目标都是希望达到自然语言理解,而理解的这条路却很漫长,可以说自然语言处理使自然语言理解更加具有可操作性。近些年,随着网络的发展,对非结构或半结构化的语言信息处理的需求越来越多,人类语言技术的定义则囊括了所有和人类自然语言处理技术相关的研究,这个定义也比较偏向于应用。无论采用何种定义,它们都是指“用计算机和为计算机研究语言的科学”。
随着计算机应用领域的不断拓宽,计算语言学的应用也越来越广泛,如机器翻译、人机对话、信息检索、信息抽取、文本分类、自动文摘、语音识别与合成等等都离不开计算语言学的相关技术支撑,计算语言学正在不知不觉中影响着我们的生相信在各位同仁的共同努力下,计算语言学的活。
研究会结出更多更美的果实。
参考文献
俞士汶.计算语言学概论.商务印书馆,2003,2-15.林杏光.词汇语义和计算语言学.语文出版社,1999,140-146.
ChristopherD.Manning,HinrichSchutze.统计自然语言处理基础.电子工业出版社.1-4.
袁毓林.计算语言学的理论方法和研究取向.中国社会科学,2001,4:157-168.
冯志伟《序言..基于认知的汉语计算语言学研究》王晓龙.计算机自然语言处理.清华大学出版社,2006,1-5.
百度百科,数理语言学:http://baike.baidu.com/
·27·
因篇幅问题不能全部显示,请点此查看更多更全内容