加入收藏  |  网站地图
 
  辞书编纂现代化
当前位置: 首页->研究室风采->辞书编纂现代化->正文

计算词典学国外相关研究的现状与趋势

时间:2009/04/01 09:05:36    来源:    作者:    阅读:

汉语言文学院 语言学及应用语言学 赵文 2007110048

摘要:关于计算词典学,研究和探讨这方面的著作和论文不少。随着语料库的出现与不断发展,人们对辞书编纂的研究也进一步深入。但要进行更深层次的研究,就必须对这一领域的相关研究现状有一定的了解。本文试图从所能掌握的国外研究状况出发,就计算词典学的三个主要研究方向来探讨这个问题,以期为辞书编纂现代化的发展提供一些有价值的参考。

关键词:计算词典学;语料库;电子词典;词典数据库;辞书编纂现代化

一、背景

按来源的不同,可以将辞书编纂的素材分为三类:(一)利用其他词典。比如双语词典的编者通常会找若干本单语词典为蓝本;(二)依靠编者的内省和对词典使用者的调查;(三)对使用中的语言的调查,即借助语料库。针对第三种情况来说,过去的辞书编纂者依赖的是人工建立的引例卡片库,约翰逊所编的《牛津英语词典》便是一个典型的例子。现代的辞书编纂者靠的是各种电子语料库,也就是说,进入计算机时代,词典编纂中语言材料的准备一般通过建立大型电子语料库来完成。将词典和计算机技术相结合,这就产生了计算词典学这种新的词典学理论,利用计算机辅助词典的编纂,速度和效用都大大提高了。关于这一领域的理论研究国外自上世纪六、七十年代就开始了,到上世纪末期其理论框架和研究范围有了很大进展,也取得了很多的研究成果。Boguraev, Zampollii和Eynde等人都对计算词典学的相关问题作了深入的探讨。其中最具代表性的是Ooi的《计算机语料库词典学》(章宜华,2006)。随着研究的不断深入,在计算词典学其他两个研究方向中也取得了很多的成果,其中有不少值得我们借鉴学习的地方。

二、国外语料库的发展与词典编纂

(一)国外语料库建设的初期

语言研究中的语料库是指以分析语言特征为目的而收集起来的文本集合。自从上世纪六十年代,西方已经开始逐渐发展建设语料库。在接下来的二十年中,在语言的研究和应用开发方面对语料库建设展开了一些初级性工作。其中比较有代表性的是六十年代美国布朗大学建立的布朗语料库、1970年在英国Lancaster大学开始建设、1976年转移到挪威的LOB语料库以及由英国伯明翰大学和柯林斯出版公司协作建成的伯明翰语料库,全称是柯林斯伯明翰大学国际语言数据库(缩写为COBUILD)。

(二)语料库与词典编纂开始结合的时期

词典学是研究词典编纂理论和实践的学科。它所反映的是传统词典研究和编纂的范式。在信息社会,人们对语言特别是外语学习的需求日益高涨,对词典工具书的信息量和提供信息的方法,要求也越来越高,传统的词典无法满足人们学习的需要,计算机信息技术和多媒体技术的发展无疑给词典学提供了绝佳的工具。

根据利奇(1992)的观点,语料库语言学是以语料为基础对语言进行客观的描述,语料库的出现表明已开始出现一种以语料库为基拙的新的语言研究方法。而利用语料库对语言进行研究最显著的价值体现在词典的编纂上,可以说语料库是词典编纂的第一步,因为编纂词典的工作涉及词汇研究的方方面面,需要有大量真实可靠的语言材料基础,这就在很大程度上决定了语料库与词典编纂之间难以割舍的关系。而真正用于现代词典编纂的语料库是指电子语料库,一直到上世纪八十年代一些电子语料库的建设才使得词典编纂迈入科学化与技术化的大道。其中,英国伦敦大学的英语用法研究中心利用自己创建的“国际英语语料库”编写了《牛津英语语法》 (1997);英国伯明翰大学英语系与柯林斯出版公司合作建立了“英语语料库”,并以此为基础编纂出版了《COBUILD英语词典》并开发了一系列英语学习词典、用法词典、语法书籍及其他英语学习书籍。另外,英国的《朗文当代英语词典》和《剑桥国际英语词典》也是这一时期的代表。

(三)词典编纂开始迈入现代化的时期

到了二十世纪九十年代,大型语料库的发展出现了第二个高潮,牛津大学出版社、朗文出版公司、钱伯斯- 哈勒普出版公司与牛津大学计算机中心、兰开斯特大学、英国图书馆通力合作,在英国工贸部以及工程与自然科学研究委员会的资助下,建成了“英国国家语料库”(简称BNC),所收语料总量达1亿单词。1995年问世的新版《牛津高级学生词典》、《朗文当代英语词典》、《钱伯斯基础英语词典》均使用了这个语料库的最新资料。从1994年开始,该语料库及其检索软件SARA就制成光盘,向欧洲发行;2000年开始,这套软件的第二版已授权牛津大学人文学科计算机中心向全世界发行。2003年,柯林斯又采自世界规模最大的英语语料库(Bank of English)编纂了《柯林斯COBUILD高阶词典》(Collins COBUILD Learner’s Dictionary),收词超过5亿。2005年,牛津大学出版社充分利用英国国家语料库(BNC)推出了《牛津高阶英语词典》(第7版)(Oxford Advanced Learner’s Dictionary 7th Edition),比前一版(2000年)多收10万词条。

进入二十一世纪后,国外许多国家和地区继续以大型语料库为基础,将辞书编纂逐步推向数字化的时代,进入了以电子计算机、语料库、数据库为标志的自动化阶段,更多的研究成果集中于以语料库为研究方法并作为基础工具的电子词典开发与词典数据库的建设方面。

三、国外电子词典的研究开发

Hartmann与James很形象地将电子词典定义为一种利用电脑及相关技术把信息呈现于屏幕上的工具书。章宜华(2004)则较科学地提出电子词典是基于计算机以及计算语言学理论而开发的语言处理和识别系统。根据用途的不同,可以将其分为两大类:一是供人查阅的非编码自然语言词典,表现为三种普通类型的电子词典;二是供机器翻译或自然语言处理所用的经编码处理的计算机语言词典。

(一)自然语言词典的研究与开发

电子词典发展到今天,基本上经历了袖珍电子计算器型词典(便携式词典)、光盘词典和在互联网上使用的电子在线词典三个阶段,国外许多学者都对这些类型的电子词典的性质、特点、功能等等进行了研究和探讨。许多国外的电子词典,都是在大型语料库的基础上生成的,在数据录入或词典编纂的过程中都特别注意词的属性和用法标注,当语料库和词典编好后,就可以利用适当的计算机软件根据这些标注自动生成其他词典。

国外在上世纪七十年代就编成了比较成熟的电子词典,但电子词典的商业化直到光盘普及才得以实现。西方国家的电子词典品种繁多,但绝大部分是单语词典,编纂英汉双语词典的大多是美国和港台地区的一些公司。他们出版的电子词典种类较多,界面较好,大多采用了多媒体手段。常见的有《汉英机器词典》、《译典灵人声语言英汉辞典》、《21世纪多媒体英汉辞典》、《莱思康综合有声词典》、《超级莱思康》、《远东英汉百科大辞典》、《远东图解英汉词典》、《牛津高级双解英汉词典》等(章宜华、黄建华,1996)。

到九十年代初,国外已经有58部机器可读的电子词典,一半以上是单语词典其中包括著名的《韦氏词典第七版》、《牛津词典》第二版、《朗曼词典》等(赵铁军、李生,1995)。1993年美国微软公司正式推出了第一代多媒体光盘版百科全书——ENCARTA电子百科全书,1997年出版了第二代。之后,于1998年又推出了新一代多媒体光盘版电子百科全书——MICROSOFT ENCARTA ENCYCLOPEDIA99(白崇远,2004)。

Word Formation In An Electronic Learner's Dictionary: Eldit的介绍中我们了解到:ELDIT是一部德语—意大利语电子学习词典,利用可以被二语学习者完全掌握的构词法开发形成,成为非传统形式的具有代表性的电子学习词典。此外,法国开发的电子词典也不在少数。根据法国从拉鲁斯大词典和大罗伯特电子版的起源到计算机处理》(2006)一文的介绍,该项目旨在创建拉鲁斯大词典和大罗伯特数字版,文章讨论了两部词典原版和印刷版本的编纂工作、数据资源、资料的计算机辅助处理,以及重新设计词目词的释义。两部词典的源头可以追溯到17世纪法国的词典编纂,一直到后来2004年出现了拉鲁斯大词典的光盘版本,大罗伯特词典则是2005年出现了在线版本。根据《关于第三代电子词典》一文的介绍,自从三年前《关于第二代电子词典》一文出现以来,尽管法国创新的第二代电子语言词典已经基本上可以通过因特网实现,但对于非专业用户、尤其是二语学习者的需求仍不确定。据了解,有人认为,用户查询仍然不足以为汇编语言词典新的环境提供实证基础,因此,第三代词典编纂只需提供材料不考虑用户的需求和方法、缺乏预期结构的创造工具,不保证完整性或精确度,以及不同词的频率。另外,文章中还介绍了七个词典网站的资源,对于继续开发研究电子词典提供了有利的条件。

(二)计算机语言词典的研究与开发

编制供计算机使用的机器词典方面,也取得了很大的成就。其中,一种比较经济、高效的方法是直接利用印刷型词典的电子版本建立机器词典。1978年出的LDOCE词典的电子版被加工成第一部机读词典,已在多个不同的工程项目中使用。

俄国自上个世纪八十年代也已经开始了这方面研究的尝试,建立了俄语语料库。这套语言处理机库由各种程序系统、俄语的各种形式词典系统和形式语法系统组成。这些系统都是在最先进的机器翻译系统和人机对话系统中研制的,语言处理机也就是自动化话语分析和综合的程序,它们可以用作各种语言工程项目的手段,比如词典的自动化编纂。另外,词典编纂库内存有自动编纂词典系统,它可以进行自动化编纂词典的各种工作,比如自动设计词典,自动选择例子等。语言算法和程序库包括各种已在使用的和为俄语库新开发的程序及其使用说明。这些程序可用于各种语言工作自动化,比如文字编辑、自动校对、自动排版、制表、语言材料的统计加工、俄语教学、俄语言语的分析与合成各方面

上世纪八十年代,日本也提出“自然语言处理用的电子词典研究”计划,目标是研制更高水平的大型电子词典,以满足自然语言处理技术的新需求。为此,专门成立了日本电子词典研究所。美国普林斯顿大学认知科学实验室于1985年起开发的WordNet, Lin Dekang(1998)认为这是迄今为止对自然语言处理系统最为重要和使用最为广泛的词汇资源。美国Berkeley大学Fillmore教授主持的FrameNet工程是一个基于框架语义学理论的在线英语词汇资源库。这些是用手工方式编制的词汇知识库的典范,它们都是通过描写语义框架(配价)结构及框架元素的选择限制或是描写语言的系统关系来揭示语词的心理表征。在欧洲,以WordNet为原型采用半自动的处理路线开发了EuroWordNet。除了采用手工方式和半自动的处理路线编制机器词典外,已经有很多研究者在探讨如何从语料中自动抽取信息。可以说机读词典已经广泛用于自然语言处理的各个方面,如语义分析、歧义消解、机器翻译等。

四、词典数据库的建设与应用

除上述可供机器翻译或自然语言处理的计算机语言词典中所提到的WordNet、FrameNet,其他在国际上具有代表性的词典数据库还有MindNet,它们都是在学术研究的基础上建设完成。此外,一些用于词典的辅助编纂和修订以及词典的自动或半自动生成的词典数据库也在许多不同国家得到建设和应用。Optimizing Procedures for THe Making of Bilingual Dictionaries And The Concept Of Linking Contrastive Lexical Databases2007)中提到,该项目是在CLVV框架下,根据编纂三本双语词典的经验中总结出的。它的目标是从元词典的角度来描述编纂过程,并展现词典是从哪一方面运用对比词典数据库的,以及以何种方式达到程序的最优化。项目主要研究了现有词典数据库的再利用,以及在双向原则中的转换功能。在这三项研究中,转换功能受到了较多的关注:即在多大程度上可以利用L1-L2词典并且自动转换生成L2-L1的词典。最后,将芬兰语和丹麦语2个不同语言库(Finnish和Danish)中的词汇单位联系起来,证明两词库具有映射词汇单位的可能性,可以用来自动生成辐射型的第三种双语词典的初级版本。

OMBI: The practice of reversing dictionaries2007)则在实践中研究探讨了转换词典。在这篇文章中,提出对OMBI生成的双语词典数据库进行了定量分析。OMBI 是为创建和编辑双语词典而制作的一种工具。这样的数据库可以在双语和多语词汇系统中使用甚至是重复使用。实践证明这种工具在丰富双语多功能词典数据库的创建方面有很大的价值。这一工具是在CLVV的支持下进行研发的,突出的特点在于:1、在既经济又精确的方式下实现双语词典对源语言和目标语言之间的转换。2、实现可逆的词汇语料。原则上来说,每本双语词典都是可以逆向转换使用的。如果这种逆向转换是在词汇水平上的话,那么它也就是仅仅在简单的单义词上面有简单的转换过程。但是对于一词多义的单词来说,简单的逆向转换是不可能的。为了满足这个要求,OMBI数据库包括三个元素:两个语言元素和一个跨语言元素。3、OMBI指导词典编纂者进行词条的新建、编辑、翻译和链接。4、通过将源语言和目标语言的逆向转换,体现出OMBI具有同时新建两本词典的价值。要想利用这个功能的优势,需要花费更多的时间和精力去研究后续的词典数据库。项目将继续把重点的研究放在OMBI的转换功能上,并时刻关注它最原始的理念和今后在实践中所得出的结果。

Hennie van der Vliet 2007)在THE REFERENTIEBESTAND NEDERLANDS AS A MULTI-PURPOSE LEXICAL DATABASE中介绍了作为多功能的词典数据库RBN,它主要是为建立荷兰语和其他任何一种语言之间的双语词典而服务的。RBN是多用途的词典数据库,已经成功地应用于双语词典生成和语言技术的领域中。RBN结构灵活,它包含着用于编纂双语词典词条的很多信息。文章还介绍了在此数据库中描写词汇的所有信息以及设计时所遵循的规范和选词原则。RBN的特别之处在于:用意义切换来解决一词多义的现象,细致的描写各个词类的词汇信息,并对一些复合成分进行描写,比如成语和搭配等问题。

五、结语

很多学者认为,当前世界正面临一个语言学和新科技相结合的时代。一方面,新科技的发展需要语言学的参与,另一方面,同新科技结合也为语言学开辟了广阔的发展前景。可见,辞书的编纂也已经逐渐进入以电子计算机、语料库、数据库为标志的自动化阶段。利用计算机从语料库提取数据然后编纂供人使用的词典,目前已取得了成功,但这只是计算词典学研究的一个方面。语料库是词典编纂的重要工具,许多现代语言研究中心和词典编纂中心都把语料库建设作为至关重要的基础工程来对待,利用丰富的语言资源开发更具有科学性的语言研究成果和词典新品。利用语料库编纂词典可以更加科学地筛选词目、例证,让读者了解语言的真实状况,掌握地道自然的语言。在词典编纂中,语料库必将发挥愈来愈大的作用,不得不承认,以语料库为基础进行词典的编纂已经成为辞书编纂现代化的必经之路。

在开发人读的电子词典时,应该与传统印刷本词典相区别,不能不考虑电子媒体的功能特色,简单地把印刷本词典的内容直接转换成电子文档置入芯片或光盘;也不能光在计算机技巧上下功夫,而不考虑词典的知识内容。总之,电子词典的发展与完善,需要各个相关领域的专业人才的通力合作才能完成。

供计算机使用的机器词典的编制方面,国外取得了不少研究成果,而我国刚刚开始利用、借鉴这些成果,取得了令人可喜的进展,比如,北京大学计算语言学研究所开发的中文概念辞书(CCD),就是在WordNet框架下研制的现代汉语概念词典。而在用于词典的辅助编纂和词典的自动、半自动生成的词典数据库方面,我国很少进行涉足。

根据章宜华(2007)的观点,计算词典学在国际上经历了几十年的发展,理论研究和实践方面都取得了丰硕成果,在计算词典学的三个主要研究方向上已经有二三十年的成功经验。我国在计算机词典学方面的系统研究和词典语料库的建设现在仍处于起步阶段,我们的词典编纂方法还没有完全走出传统的操作模式。相信在新的历史发展阶段,通过各方面的努力合作,我国辞书编纂的现代化将会有很大的发展潜力和及其广阔的发展前景。

参考文献:

[1]Hennie van der Vliet: Department of Language and Communication, Vrije Universiteit, Amsterdam (hd.vander.vliet@let.vu.nl) THE REFERENTIEBESTAND NEDERLANDS AS A MULTI-PURPOSE LEXICAL DATABASE

[2] Lin Dekang. Wordnet: an Electronic Lexical Database (Book Review).Computational

Linguistics,1998 (2).

[3] OMBI: The practice of reversing dictionaries.2007

[4]Optimizing Procedures for THe Making of Bilingual Dictionaries And The Concept Of Linking Contrastive Lexical Databases.

[5]白崇远.微软光盘版ENCARTA电子全科全书的特点及其利用[J].辞书研究 2000(04)

[6]常爱东.中美电子百科全书对比分析[J].辞书研究 2001(06)

[7]马功兰. 电子辞书散论[J].辞书研究 2001(04)

[8]赵铁军,李生.知识处理与电子词典的设计[J].辞书研究1995(01)

[9]张秋秋.论在线词典与纸质词典[J].科教文汇2007.10(中旬刊)

[10]张国强.关于工具书数字化发展趋势的几点思考[J].辞书研究 2001(03)

[11]章宜华.对我国电子词典发展策略的几点思考[J].辞书研究 2007(02)

[12]章宜华.电子词典编纂的一般原则[J].辞书研究 2000(04)

[13]章宜华. 计算词典学与新型词典[M].上海:上海辞书出版社,2004.

[14]章宜华,黄建华.电子词典的现状与发展趋势[J].辞书研究 1996(06)