加入收藏  |  网站地图
 
  辞书编纂现代化
当前位置: 首页->研究室风采->辞书编纂现代化->正文

计算词典学与相关学科

时间:2009/04/01 09:06:26    来源:    作者:    阅读:

李文玲 2007110046 语言及应用语言

摘要计算词典学作为一门综合学科,与计算语言学,语料库语言学以及计算词汇学之间有着千丝万缕的关系。本文通过以上三个学科的发展,介绍计算词典学与以上三者之间的互相依存不可分离的亲密关系。

关键词计算词典学,计算语言学,语料库语言学,计算词汇学

Ooi给计算词典学下的定义包括两个方面:一是利用计算机辅助实现词典编纂工作自动化的目标;二是利用现有商业性词典的机读版本,使其格式明晰化,从而服务于自然语言处理系统。从名称上看,计算词典学是一个跨学科的研究领域。实际上,计算词典学已发展成为一门相对独立的学科,在其研究领域涌现出大批专家学者,出版了大量论著,组织召开了一系列学术研讨会,并成立了专业协会。计算词典学的产生和发展离不开计算语言学、语料库语言学、计算词汇学、计算机科学、理论语言学、理论词典学等学科的支持。计算词典学又与它们有着千丝万缕的联系,它们之间既有一定的区别和相对独立性,又有这着许多共同性。它们相互依存、相互促进,构成了一个以计算机技术为特征的现代语言学大家族。计算词典学、计算语言学与语料库语言学三者密切相关,相互促进。用奥伊(Ooi 199837-38)的话说,现在没有可能,也没有必要将它们分开来对待。

计算语言学、语料库语言学以及计算词汇学促使计算词典学的产生和发展。①p12早在计算机发明以前,人们就已有了让机器词典来克服语言障碍的想法。计算机的发明为语言学研究提供了有力的工具,同时也对自然语言研究提出了更高的要求,这促使了一门新的边缘学科的诞生,这就是计算语言学。让计算机也能像人一样理解自然语言,以便让计算机来代替人做更多的事情,成了人们的美好愿望。而要让计算机理解人类的自然语言,除了对语言学问题进行形式化和算法化以外,还必须具有一部能提供各种语言知识信息的机器词典。冯志伟先生一语道破了机器词典与机器翻译等自然语言处理领域研究的关系:“机器词典是机器翻译的基础,没有好的机器词典,机器翻译就等于无米之炊,是根本无法进行的。”[7]

在词典学研究领域,“语料库”并不是新名词。早在计算机出现以前,词典编纂的实践活动就依靠“语料库”,写释义、设例证都离不开它,只不过那时的语料记录在卡片上,完全靠人工来完成。20世纪五六十年代计算机语料库的出现,不仅拓宽了语言学研究的领域,而且给词典编纂注入了生机与活力。基于语料库的语料库词典学应运而生,它专门研究开发各种计算机工具,从语料库中挖掘数据来编纂词典。

当然,这一切都与理论语言学领域从“以句法规则为中心”向“以词汇描写为中心”转移的大背景分不开,为词汇的深入描写奠定了理论基础。在这样的需求和环境下,计算词典学作为一门跨领域的学科诞生了。

词典出版界的仁人志士敏锐地意识到计算机用于词典编纂所具有的巨大潜力。20世纪70年代初,国外几家词典出版机构的负责人多次聚会,商讨计算机用于词典编纂的问题。其中较主要的内容有:如何用机读形式采集语料,并生成定位索引(concor-dance)和索引;计算机辅助选择引例与排序;计算机辅助词条的编写与编辑。

1972年在比萨举办的研讨会上,Bernard Quemada与比萨研究小组展示了第一个计算机辅助的、交互式词典编辑实验系统与第一个交互式词典工作站原型。p13可以说计算语言学是的技术基础。计算词汇学是计算词典学的理论基础。语料库语言学是计算词典学发展的重要动力之一。

(一)计算词典学与计算语言学

计算语言学主要研究自然语言处理(Natural Language Processing,简称NLP),即对人类特有的书面和口头语言的各个层面的信息进行处理和加工,涉及语言学、数学和计算机科学,横跨人文、理学、工学三大知识领域。自然语言处理的目的在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、情报自动检索系统、机器词典和术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。这些研究对词典语料库、数据库,特别是词典辅助编纂系统和生成系统都具有重要的技术参考价值,但计算语言学的研究成果要融入词典学才能为词典编纂实践所利用。

计算语言学产生之后大大改进了词典的编纂方式。字典和辞书的编篡是语言学工作者经常要遇到的一个任务。字典辞书的编纂一般有两道工序:一是查找和摘录文献;一是分类和排序。这两道工序在过去都是借助剪刀、浆糊、纸条、卡片,用手工的方式来完成的。现在利用计算机来编纂辞书,立即获得极好的效果。运用计算机可以进行机编目录的工作,可以用计算机编制各种各样的索引。运用计算机还可以编制词表,编制频率词典。频率词典的任务在于指出词语语言使用中的频率。目前计算语言学对计算词典学的主要贡献就是在机器词典的研究和开发中。电子词典(electronic dictionary)也叫机器词典。电子词典是一种计算机编制的、采用计算机最新技术的、为计算机处理自然语言服务的词典。

电子词典在语言信息处理中具有重要作用。机器翻译系统的基本信息都来自电子词典。语法语义规则利用来自电子词典中的各种静态信息,运算出表示语法语义特征的各种动态信息来,电子记号是机器翻译的基础。没有好的电子词典,就没有好的机器翻译。电子词典的研究主要包括词条的语法信息、语义信息与词条相关的某些语用特征,以及相关的短语、句子及文章的结构规律信息和这些信息的表示等等。

原来人工编的词典规模都极小,—般在2000词条以下。这在计算语言学视野里,被认为是玩具词典。而无科学标注的语料与玩具式的小词典,无论从规模还是制作方式上都不能适应大规模真实文本处理的需要。目前许多国家,特别是发达国家都在编电子词典,都在搞语料库。林杏光先生(1994)冯志伟先生(1994)都综述了这方面的情况。日本在投资60亿日元开发研究《多国语言机器翻译系统》的同时,又投资140亿日元搞50万个句子的语料库。1986年,日本提出一个“自然语言处理用的电子词典研究”计划,其目的是研制大型的、高水平的电子词典,以配合第五代电脑技术的开发和满足下一代自然语言处理技术和知识信息处理的需要。为了实现这一目标,日本政府和八大公司联合投资1亿美元,于19864月专门成立了日本电子词典研究所(Japan electronic ditctionary research institute,简称EDR),计划开发包括日语和英语的单语、双语、术语、同现和概念等10部大规模的电子词典。美国的MMC公司将整本百科全书用人工输入的方式,建造了一个规模宏大的知识库,即把百科全书变成计算机的知识表示,使每一个词条变成计算机可接受的知识。美国的IBM公司则采取了另一种研究路线。他们把重点放在现有的机器可读词典上,1987年开发了一整套利用分析机器可读词典的工具和方法。美国政府把计算词汇研究中心设在新墨西哥州立大学的计算研究所。这个研究所集中自然语言处理小组和认知科学小组所有成员的智慧,从1986年开始对《朗曼现代英语词典》进行深入的研究,用网络主义方法将其中的词设计出—个网络。1986年,欧共体在意大利召开了“关于辞自动化的研讨会”,成功地将语言学、自然语言处理、计算语言学、人工智能、心理语言学与出版公司、软件公司等各方面的努力结合起来了。这些年来,电子词典的研究与开发发展很快。在许多国家,电子词典的编制已经成为一种产业。②P246

机器词典是在计算机上编制的电子化词典,是语言知识的重要资源。例如,在机器翻译中,系统的基本信息都来自机器词典.句法语义规则利用来自机器词典中的各种静态信息,经过运算和推导,得出表示句法语义特征的各种动态信息来。机器词典是机器翻译的基础,没有好的机器词典,机器翻译就等于无米之炊、是根本无法进行的。

机器翻译中机器词典的任务在于:

1.为原文词提供恰当的译文词;

2.为各个词提供必要的语法特征信息以便进—步加工。p99

机器翻译的词典,可以包含原文词典、译文词典、原文译文转换词典等3部。根据系统的设计方法的不同,这3部词典的分音情况各有不同。有的系统把译文词典和原文译文转换词典合成一部,称为转换词典,这样,系统中只使用原文词典和转换词典两部;有的系统把原文词典、译文词典和原文译文转换词典合成—部词典,系统自始至终只使用一部词典来进行翻译。

机器翻译的机器词典中、除了存储原文词和译文词之外,还必须存储单词有关的语法语义信息。例如,对于英语而言,还要存储形态信息、语法信息、句法信息、语义信息。这些信息的丰富程度和复杂程度,对于机器翻译系统的性能有着很大的影响。p101

(二)计算词典学与语料库语言学

语料库语言学是计算词典学发展的重要动力之一。所谓语料库语言学,是指以语料库为基础的语言研究和语言分析。基于语料库的分析具有其他传统分析方法难以比拟的优越性。这一优越性在很大程度上得益于计算机的使用。计算机使得辨别、分析语言使用的复杂模式及存储和分析大宗自然语料成为可能。基于语料库的分析具有如下基本特征:(1)它是经验性的,分析的是自然语篇中语言的真实使用模式。(2)它利用大型的、在一定原则指导下收集而来的自然语篇作为其分析基础。(3)它广泛利用计算机的自动和互动技术作为分析工具。(4)它既要求定量分析技巧,又要求定性分析技巧。④p46

语料库语言学主要有两个研究目标:其一,描述语言结构及其变体;其二,描述某些语篇群。[9]就像任何一门学科的发展一样,语料库语言学也经过了一个由早期研究向较成熟研究发展的过程。

语料库语言学中的很多早期研究只限于单纯的词频统计。比如,有些词汇研究仅仅只比较某些词汇单位(包括多词单位,如短语、搭配和固定表达式)的出现频率;语法研究则统计分析名词、动词和形容词的出现频率。

稍后的研究着眼于“关联模式(association pattern)”的辨认和分析,即一种语言特征与其他语言特征及非语言特征的系统联系。[10]通过对这种系统联系的研究,研究者们可以更全面地了解某一语言特征(包括单一语词、语法结构和话语结构)的活动情况(biglargegreat这几个词的词汇行为,smalllittle的语法行为或者某些语法特征的词汇行为)、各种文本特征或各种变体特征(如语域、方言或风格特征等)。对于词典学而言,这类研究的重要性是不言而喻的,于是,词典学就自然地和语料库语言学联姻。由此,词典学领域诞生了一个新的交叉学科———语料库词典学。④p46

一、语料库词典学的兴起与发展

语料库词典学的发展经历了前计算机时代和计算机化时代两个时期。计算机应用技术兴起之前的词典编纂所使用的卡片法和阅读项目组方法,是语料库词典学的早期雏形。这种传统方法和语料库语言学研究方法的差异是明显的:

第一,这些早期的语料收集没有语言“代表性”意识,词典编纂者强调的是资料的规范性和词汇使用的正确性。《英语词典》(1755)的编纂者约翰逊有意把资料收集范围限制在他认为是“纯正英语之井,真正用语的纯正源泉”(见该书的“前言”)这类作品里,而《牛津英语词典》条目中所涉的书证信息,在很大程度上取决于志愿者们碰巧阅读到或注意到的东西。这样做的弊端在于:就词语用法而言,阅读者们更多关注的是非常用词而不是常用词的用法;就语义而言,他们更多关注的是非常用义而不是常用义。[11]

第二,在20世纪70年代以前,各种词典中所包含的口语信息非常有限。这一方面受制于当时语言学界重书面语、轻口语的倾向,另一方面受制于那时有限的资料收集及存储手段。真正意义上的语料库词典学兴起于20世纪80年代初,其标志是由Sinclair主持的COBUILD语料库的建立。计算机化的语料库较之传统的卡片收集具有无与伦比的优越性。首先,计算机技术使得资料来源多样性的大型语料的收集和存储成为可能。由于计算机能完成完整或大段语篇的存储工作,因此,基于语料库的分析得以从句子层面向更高层面———语篇层面发展。其次,由于可存储的语料规模扩大,使得所收集的语料具有更强的“代表性”,也就是说,保障了语料的多样性。语料的多样性在某种程度上又保证分析的完整性和可靠性更高。

第三,大型语料库的建立使得对词语的共现和关联模式的分析得以在更为复杂的层面上进行。比如,依赖语料库分析工具,可④p47以很便捷地得到有关little一词左右两边的、横聚合方面的关联或共现信息。

上述三方面的优势综合起来,使得词典学的研究视角得到了极大的拓展。

运用语料库语言学的研究技巧,研究者们开始把视角转向词语使用的研究。今天,基于语料库的词典学研究主要解决以下问题:(1)不同词语的使用频率;(2)目标词语各义项的使用频率;(3)词语和词语之间存在的系统性联系;(4)目标词语与特定语域或方言的系统联系。[12]这些问题对革新传统意义上的词典编纂至关重要。

目前,语料库词典学研究者们所从事的工作主要有以下三类:(1)利用语料库生成普通语言词典,如《柯林斯合作英语词典》及其后的一些所谓的“事实”词典。(2)开发旨在完成信息自动提取任务的词典。如Riloff进行了一项研究,展示如何自动创构一本旨在完成信息提取任务的词典[13]Hearst就如何从大型语篇语料库中自动提取下义词进行了尝试性研究[14](3)在线词库或词汇语义库的建设。如WordNet(wwwcogsciprincetonedu)FrameNet(wwwicsiberkeleyedu)的建设就属于这方面的工作。

二、语料库与词典编纂

Sinclair发现,对大部分常用词而言,其最常用意义往往并不是人们想当然认为的那个意义,也不是在大部分词典中占据显要地位的那个意义。[15]语料库词典学研究对传统词典学的贡献从Sinclair的这个发现中可见一斑。这里再以deal的名词义项为例来看看语料库到底能给词典编纂提供什么样的新证据。表1展示了deal作名词用时在5本英语词典中最常用的7种义项:(1)大量;(2)协定,协议;安排;(3)(扑克牌戏中的)发牌;(4)待遇;(5)分配;(6)松木木材;冷杉木木材;(7)交易。但有3本词典未收“分④p48配”义,另有1本词典未收“协定,协议;安排”义,且各义项的排列在各词典中差异很大。5本词典中,有的把deal处理成1个条目,而有的则把它处理为4个同形异义条目。此外,各条目所含义项的数量亦不尽相同,有的只有23个义项,而有的则多达2030个义项。④p49基于语料库的词典编纂也反过来影响着语料库的建设,使语料库有了新的发展:

新发展之一是语料库出现超大趋势。语料库词典学兴起之后,词典编纂者们感到词典编纂对语料库的建设及设计有着更高的要求,其中规模是非常关键的一点。Biber发现,10个语篇就能完整地表现出LOB(Lancaster-Oslo/Bergen Corpus,兰卡斯特奥斯陆/卑尔根语料库)中某类语篇的许多语法特征;但是,与语法模式相比,义项及搭配模式的凸显性要弱得多。因此,词典编纂所需要的语料库在理论上就必须足够大,否则就很难完成对语言的系统描写。

新发展之二是地区性英语语料库和国际英语语料库的建设方兴未艾。这一做法也是顺应了英美词典界日益重视均衡收入世界英语变体的趋势。研究发现,目前几个著名的英语语料库(如英国国家语料库)都不足以代表美国英语,因而不宜凭借它们对美国英语进行研究。目前正在筹建中的主要地区性英语语料库有美国国家语料库(http//wwwcsvassaredu),主要的国际英语语料库有剑桥国际英语语料库(http//ukcambridgeorg)、现代和中古英语国际计算机库(http//wwwhduibno)、英语国际语料库(http//wwwuclacuk)等。

新发展之三是多语语料环境下的信息处理和提取框架的设计开发。多语框架的最终目的在于打破网上交流的语言界限和障碍,使因特网真正成为无障碍的自由交流平台。UNL(UniversalNetworking Language,通用网络语言)是网络上的一种信息交换和传④p50递媒介。目前,世界上有12种语言通过分析软件和生成软件与UNL联接。多语框架的努力结果取决于丰富的词汇知识和较为完备的语义词典。Dermatas&Kokkinakis1994年设计完成了一个他们称之为“Lexithiras”的在计算机和网络上使用的多语框架,它可以通过创新的数据处理和信息检索工具及减少人工干预来提高词典编纂者的工作质量及效率。测试该框架在MS-DOSNET-WARE环境下的表现的是两个语料库(一个为含词2550万的希腊语语料库,另一为含词3000万的英语语料库)。多语框架的设计与开发,一是顺应了语料库朝横向标注的多语平行语料库发展的趋势(Crater多语横向标注语料库,http//wwwcomplancsacuk),二是顺应了多语语料库词典学的发展趋势。这为基于语料库的双语及多语词典的编纂开拓了新的视角,同时为多语词网的开发创造了条件。④p51

(三)计算词典学与计算词汇学

计算词汇学研究是计算机在词库研究中的应用,特别是词库的计算表征、词汇数据的计算方法以及计算机词库与自然语言处理系统各部分之间的关系,包括用计算机模拟的方式研究人类自然词汇认知和习得过程中的心理表征,词汇信息在心理词库中的排列结构,存储方式和提取、组配方法,词汇意义形成的机制等问题。计算词汇学与计算词典学的区别在于,前者着重于词汇或词库语法功能和语义结构的研究,而后者则着重于语法功能和语义结构的描写,但分析与描写是统一的,相辅相成的。

词典信息的构建是基于自然语言的信息处理,而语言信息处理自动化需要语言描述的形式化;形式化是指以元语言方式用专门的编码语言对自然语言和计算机信息进行编码,而且编码的方式要尽量明晰、易懂。明晰是十分重要的,否则计算机无法理解或处理。当然,不同数据库的编码方式不尽相同。一般常用的电子文件格式编码语言或标记语言为:标准通用标记语言(Standard Generalized Markup LanguageSGML)、超文本标记语言(Hypertext Markup LanguageHTML)和可扩展标记语言(Extensible Markup LanguageXML),以及文件类型定义(document type definitionDTD);用于语言形式化表述的语法构建模式有广域短语结构语法(Generalized Phrase Structure GrammarHDPSG)和范畴语法(Categorical Grammar)等理论。支持计算词典学的语言理论也很丰富:逻辑数理语义学、概念依存理论、格语法、词语法、蒙太格语义学、原型语义学、篇章-语义理论、框架语义学等。这些理论在国外词典学界引起了广泛的讨论和研究,这些研究对词典编纂、编辑和出版的数字化具有重要的意义。

参考文献:

[1] 王小海 关于计算词典学 辞书研究20035

[2] 姚亚平 中国计算语言学 江西科学技术出版社 1997 p219-p246

[3] 冯志伟 计算语言学基础 商务印书馆 2001

[4] 王馥芳 语料库词典学的兴起与发展 辞书研究 20045

[5] 章宜华 雍和明 当代词典学 商务印书馆 2007 P406-p413

[6] 黄昌宁、李涓子 语料库语言学 商务印书馆 20024

[7] 章宜华 计算词典学理论框架的探讨 辞书研究 20076

[8] 章宜华 计算词典学与新型词典 上海辞书出版社 世纪出版集团 2004p1p1217

[9] 翁富良 计算语言学导论 中国社会科学出版社 1998

[10] B.M.安德留申科 王德春译 计算词典学的潜力和前景 辞书研究 19902