加入收藏  |  网站地图
 
  辞书编纂现代化
当前位置: 首页->研究室风采->辞书编纂现代化->正文

计算词典学综述

时间:2009/04/01 09:07:09    来源:    作者:    阅读:

语言学及应用语言学2007级研究生 郭嘉伟

摘要:计算词典学是一门词典学与计算机科学结合的新兴学科,是推动辞书现代化的理论保障。本文综述了目前国内学者的相关理论,讨论了计算词典学的起源、概念、性质、研究内容、特点、地位、前景等问题。

关键词:计算词典学、辞书、现代化

中国是辞书古国、辞书大国,但还不是辞书强国。中国辞书现代化的步伐还相当迟缓,缺乏宏观的战略谋划和领跑世界的辞书编纂实践,缺乏享誉世界的精品辞书和影响世界的辞书研究成就。应努力促进辞书编纂手段现代化,开发功能强大的语料库、知识库和适用于辞书编纂的软件系统;应大力发展电子辞书,特别是光盘辞书和网络辞书,迅速占领虚拟空间,走辞书综合集成之路。在印刷业告别“铅与火”进入“光与电”的时代,只有用现代化手段才能圆辞书强国之梦。(李宇明、庞洋,2006

中国辞书历史悠久,往上可以追溯到《尔雅》。长期发展形成了优良的辞书编纂传统和理论,有一整套辞书编纂经验,有一支严谨敬业的辞书编纂队伍,靠手工操作也编出了高质量的辞书,有的甚至创造了累计发行几千万册、几亿册的奇迹,这是我们引为自豪的。改革开放以来,中国辞书事业发展更为迅猛,辞书品种逐年增加,发行量呈几何级数增长,使读者有了更多更大的选择空间,这是几代辞书人不懈努力、共同奋斗的结果。但是,随着互联网络的迅猛发展和信息技术的不断进步,辞书事业也面临着挑战与机遇,也需要与时俱进,辞书编纂手段的现代化很自然地提到日程上来。

实现辞书编纂手段的现代化,难的不是技术本身,而是人的观念。开发网络版辞书,可能会涉及知识产权和版权方一部分利益,但敢不敢迈出这一步,对出版社首先就是考验。一方面,辞书编纂要适应信息时代,要很好地利用信息化平台做好辞书出版工作,给读者提供尽可能多的便利;另一方面,辞书编纂的“传统任务”,也应该提升到信息化的高度去认识和进行,自觉地为国家信息化服务。

努力构建一个团结协作、和谐共事的辞书编纂环境,有益于中国辞书事业的长期发展繁荣,更有助于中国辞书尽快走向世界。中国辞书离世界究竟有多远?我们不敢妄下断言。但我们以为,时刻保持头脑清醒是至关重要的。因为如果仅从参与过辞书编纂的人数、辞书出版的品种和发行数量而言,中国可以说已经开始步人“辞书大国”的行列;而如果从辞书事业发展现状、辞书编写质量、辞书编纂技术手段的现代化以及辞书理论研究、辞书市场的成熟程度等指标来看,中国远非辞书出版的强国。前面谈到中国辞书编纂技术手段的落后和语料库建设方面的不足,其实与国外先进国家的差距还不止这些:中国辞书界不善于学习借鉴词汇学研究成果,对辞书理论研究不够,设计理念陈旧,近年来汉语语言类辞书虽然在设计编排上有了可喜的进步,但总体来说仍然缺乏对国外先进辞书理论的引进吸收,缺乏特色,创新少;中国辞书出版规模总体较小,每年销售总额尚不及最著名的国外一家出版社的全球销售收入;中国辞书不太注重市场调研,出版载体单一,选题重复,设计理念与使用者需求时常脱节,特别缺少有针对性的学习型辞书;中国缺乏与国外同行之间的交流,除一些学者定期参加亚洲辞书学会的活动外,在全球性辞书学大会上几乎没有或很少见到中国学者的身影。上述现象,与中国的国际大国地位和汉语作为全世界“应用力”排名第二的国际语言的地位很不相称。(参见联合国《2005年世界主要语种、分布和应用力调查报告》。该报告显示,随着中国综合国力增强和国际地位提高,使用普通话的人越来越多,汉语已成为“应用力”排名世界第二的主要语种,仅次于英语,排在德语、法语、俄语、西班牙语、日语之前)中国要从“辞书大国”晋身“辞书强国”,还有很长的一段路要走。

提高我国辞书的国际地位和影响,切实做好汉语的国际传播、推广工作,辞书界首先需要扎扎实实地做好自己的事情,精诚团结,共创和谐共事、相互激励、有序竞争、繁荣发展的辞书出版大环境。如果中国辞书界真的意识到、也注意克服了上面提到的这些差距和不足,放眼国际辞书出版大趋势,经过若干年的艰苦努力,中国辞书的强国之“梦”也许真的会在我们手中实现!(王铁琨,2007

以上是对我国现阶段辞书编纂状况的大致介绍,辞书强国之梦如何实现?辞书编纂现代化势在必行,这是提高我国辞书质量和地位的有效途径。张志毅先生提出,辞书编纂现代化这一整体工程,需要多根顶梁柱。(张志毅,2004)辞书编纂需要现代化的手段,更需要现代化的语言学、词典学理论的支撑。21世纪我们已经进入了人类的新经济时代,在这一大背景下,语言学理论在发展,词典理论在发展,计算机科学在发展,传统语言学和词典学、计算机三者都在寻找着学科间的接口,接口问题撞击着各自的传统研究发展范式,不断迸发出新的思想火花,从而衍生出一个个新的研究课题和研究思路。社会的进步和信息技术的发展,促进了古老而又年轻的词典学与计算机技术结合,一门新型的交叉学科——计算词典学适时而生。

一、 计算词典学的起源

词典学是一门古老的学科,起源可追溯到四千多年以前的苏尔美语(Sumerian)与古阿卡德语(Akkadian)双语词汇对照表。从60年代起,词典学出现了蓬勃发展的局面,至今仍方兴未艾。计算语言学的问世为词典学注入了新的活力。计算技术的发展对词典学产生了深刻的影响。计算技术与词典学相结合产生了计算词典学。(石敏,1998)

关于计算词典学诞生的时间,学者们有不同的观点。Lender认为开始于20世纪60年代,Meijs则认为始于70年代。早在计算机发明以前,人们就已有了让机器词典来克服语言障碍的想法。计算机的发明为语言学研究提供了有力的工具,同时对自然语言研究提出了更高的要求,这促使了一门新的边缘学科的诞生,这就是计算语言学。让计算机也能像人一样理解自然语言,以便让计算机来代替人做更多的事情,成了人们的美好愿望。而要让计算机理解人类的自然语言,除了对语言学问题进行形式化和算法化以外,还必须具有一部能提供各种语言知识信息的机器词典。冯志伟先生一语道破了机器词典与机器翻译等自然语言处理领域研究的关系:“机器词典是机器翻译的基础,没有好的机器词典,机器翻译就等于无米之炊,是根本无法进行的。”

  在词典学研究领域,“语料库”并不是新名词。早在计算机出现以前,词典编纂的实践活动就依靠“语料库”,写释义、设例证都离不开它,只不过那时的语料记录在卡片上,完全靠人工来完成。20世纪五六十年代计算机语料库的出现,不仅拓宽了语言学研究的领域,而且给词典编纂注入了生机与活力。基于语料库的语料库词典学应运而生,它专门研究开发各种计算机工具,从语料库中挖掘数据来编纂词典。

当然,这一切都与理论语言学领域从“以句法规则为中心”向“以词汇描写为中心”转移的大背景分不开,为词汇的深入描写奠定了理论基础。在这样的需求和环境下,计算词典学作为一门跨领域的学科诞生了。(王小海,2003)

过去,编纂词典的工作是繁杂和辛苦的,到20世纪中期,随着全球经济建设的恢复、科学技术的快速发展,新事物、新词语、新术语不断增多,如何搜集和管理这些与日俱增的术语和词语,是一个非常复杂的问题。手工制作的卡片的传统方式显然已经远远满足不了科技发展的要求,这就迫使词典编纂者去寻求新的出路、新的途径——建立现代化的语料库,并用现代化的手段进行词典编纂。词典最先、最直接与计算机结合的时间是20世纪40年代,始于机器翻译的兴起。迄今,词典与计算机等现代技术手段的“联姻”已经历了半个世纪(到今天已经近六十年了)的磨合。相关理论的研究和实践也有三是多年的历史,无论是承载词典信息的介质还是知识内容的组织方式,都发生了巨大的变化。21世纪迎来了新经济时代的曙光,信息技术的发展更是一日千里,计算机网络的普及拉近了人类的距离,一个网络环境下的数字地球村正在形成。为了满足人们对语言信息与日俱增的需求,词典的知识表达形式和查阅方式都亟待变革,数字化多媒体词典随之应运而生。多媒体词典的诞生是当代词典学的重要标志之一。多媒体技术将词典的知识信息和计算机语言处理的现代化手段完美地结合在一起(如用计算机搜集、分析与处理词典语料),词典编纂也开始实现计算机辅助运作,词典信息的承载形式以及传输和查阅方式实现了数字化。现代化处理手段和多媒体形式只是词典发生变化的外部特征,更重要的是其内部特征——词典编纂者对自然语言知识的认识以及在词典中的表达方法都在发生着变化。

如今,词典的载体已不再单单是传统的纸张,还有名目繁多的电子词典,如光盘词典、掌上电子词典和网络词典等。词典的功用已不局限于只工人查阅,还出现了供机器翻译、信息检索等自然语言处理领域使用的机器词典。词典语料库的搜集和处理已不再仅仅依靠手工完成,计算机可以实现语料库的自动或半自动录入、标注和处理,并且可以实现语料的分类检索和调用,可以为词典编纂者提供各种所需资料;另一方面,词典语料的自动标注、识别和理解,为词典编纂实现半自动化和自动化提供了较好的先决条件。在信息社会,人们对语言特别是外语学习的需求日益高涨,对词典等工具书的信息量和提供信息的方式、要求也越来越高。传统的词典无法满足人们学习的需要,而计算机信息技术和多媒体技术的发展无疑给词典学提供了绝佳的工具。计算机在资料的存储、提取、分析、传播、交换,语料库的设计以及词典编纂等方面,为词典学的研究提供了坚实的基础。可以毫不夸张地说,计算机给词典学带来了一场革命。另一方面,在自然语言处理中,需要大型词库或电子词典来加强数据处理能力,这些外因也对计算词典学的产生起到了重要作用。(章宜华,2004:1-4)

以上所有这些,促使传统词典学和计算机科学结合,并孕育、催生了一门新的学科——计算词典学。

二、 计算词典学的概念和性质

计算词典学是计算语言学的一个方面,指的是一种科学流派,它研究和创造用来加工和使用计算机词典的手段,它研究语言结构和计算结构的相互关系。计算词典学从现代程序学中借用数据库和信息系统的概念,把它们改造为自己领域中的相应构件:话语库和词汇库、自动化词典系统。计算词典学应用现成的数据库,并创造自己特有的数据库和与其相联系的终端存取系统,创立描写和控制语言数据与词典数据的语言,把词典结构和词条框架的概念比作理论程序学中研究的教据库框架的概念。(B.M.安德留申科,1990)

很长一段历史时期以来,由于词典学理论研究本身发展的局限性,词典学一直被人们简单地认为是词汇语义研究的一种形式而限于语言学研究的樊篱之中,没有得到应有的发展。人们往往将“词典编纂”与“词典学”这两个概念混为一谈,混淆了前者是“技艺”而后者是“科学”的本质特征。这种将“描述词典编纂活动的科学”等同于“词典编纂活动本身”的学术误区直到20世纪中期才被逐渐打破,具体地说,应该是得益于50年代以来电子信息技术的迅猛发展。在进入知识经济主导的信息社会以后,信息科学技术的长足发展大大拓展了词典学的学科疆域,极大地丰富了词典学的研究内容。这一点,我们可以从近几十年来陆续出现的一些新兴词典学分支得到有力的佐证,其中就有计算词典学。张柏然,2001)

计算词典学是一个跨学科的研究领域,涉及计算机与词典学研究。王小海在论文中列举了国外四位专家对计算词典学所做的定义。王小海认为,计算词典学(Computational Lexicography)是一门新兴的、跨领域的学科。语言学、词典学的发展为其打下了坚实的理论基础,计算机科学、计算语言学、语料库语言学及语料库的发展为其实现自己的目标提供了强有力的技术和资源保障。(王小海,2003)

章宜华在《计算词典学与新型词典》一书中还列举国外各家对计算词典学的定义:

Boguraer,Briscoe:计算词典学是指以开发印刷本词典的机读版本或计算机使用的词库为研究内容的一门学科。

Hartmann,James:计算词典学是指与电子词典的设计、编纂、使用和评价相关联的一系列复杂活动。

Oio:一是利用计算机辅助系统实现词典编纂工作自动化的目标;二是利用现有商业性词典的机读版本,使其格式明晰化,从而服务于自然语言处理系统。

Amsler:利用计算机研究词库

Bennett:词典编纂活动的自动化

通过总结吸收国外专家的看法,章宜华认为,词典学是研究词典编纂理论和实践的学科,计算词典学当然不能背离这个范围。词典学反映的是传统词典研究和编纂的范式,而计算词典学反映的则是基于现代化技术的新型词典研究和编纂的方法论。(章宜华,2004:P12—14)

词典与计算机技术的结合产生了一种新的词典学理论——计算词典学。从计算词典学这个术语的构造来看,它是个偏正词组,可以解释为以计算机技术为手段、以词典学研究为目的的学问。词典学是研究词典编纂理论和实践的学科,计算词典学当然不能背离这个范围。通俗地讲,词典学反映的是传统词典研究和编纂的范式,而计算词典学反映的是基于现代化技术的新型词典研究和编纂的方法论。计算机信息技术和多媒体技术无疑给词典学提供了绝佳的工具。(章宜华,2007

综合国内外各专家的观点,结合计算词典学发展的实际,计算词典学完全具有学科成立的必要性。计算词典学这一学科的成立是语言学、词典学研究不断深入与分工不断细化的必然结果。所以,我们认为,社会科学学科的划分是必要的,但这种划分并不是必须在各个学科之间画出个明确界限,然后禁止其中的人跨越这界限。学科划分,其目的其实还主要在于研究的方便。因此,合理的学科划分,对于我们来说,就好比是在社会经验世界这个巨大的图画上确定几个中心点,然后让具有不同兴趣的人各自围绕他们感兴趣的中心点进行研究。这也就是说,学科的划分只存在一个相对的中心点,并不存在绝对的界限,而且这个中心点的确定完全是为了研究的需要,而不是社会经验世界的本来面目。这样,出于某种社会需要,还有可能在既有的中心点外产生新的中心而产生的新学科。

随着各个学科研究的深入发展,势必会使这一领域的研究越来越远离各门学科的中心。在这一边缘化后,如果没有通过形成自己的中心而成为一门相对独立的学科,就有可能使这一领域无人问津而成为学科研究的盲区。这显然不利于社会科学的整体发展。因此,学科研究的纵深发展,使计算词典学研究对象与领域得以独立就有了可能,这也就要求计算词典学不得不成为一门相对独立的学科。

三、 计算词典学的研究内容和目标(范围、任务)

掌握由现代信息工艺开辟的新的词典形式,学会新形式的词汇工作和新的应用—这是计算词典学的迫切任务,是推动整个语言学科技进步的途径之一。(安德留申科,1990)任务决定了计算词典学的研究内容。

王小海概括了国外几位专家的观点,提出计算词典学研究的是各种类型的电子词典的设计、编制以及评价等; 研究范围是如何从语料库获取素材,如何让计算机最大限度地帮助甚至代替词典编者完成有关任务,如何建立各种面向计算机处理用的数据库与词库,如何利用其他学科的技术与成果来开展词典学研究工作,如何对现有的电子词典建立起一套评估体系,如何实现词典编纂的自动化目标,等等,对这些内容的探索就构成了词典学领域新学科———计算词典学的研究课题。它的最终目标是利用计算机辅助实现词典编纂自动化。要实现这一终极目标,需要利用各种计算词典学工具来创建、维护、发展能储存更为详尽的各种语言信息的词库,并建立通用的标准以实现词汇知识的转换等,在“人机两用”原则的指导下,把开发供机器使用的词库和开发供人使用的词库结合起来。(王小海,2003)

章宜华认为计算词典学的研究内容和任务是:

从形成历史来看,计算词典学的任务首先是解决词典知识内容的“电子化”和“机读化”问题,研究词典数据库(词库)的计算机自动读取、自动识别、自动转换;其次是研究如何使用计算机辅助词典的编纂、编辑和修订,力争在不远的将来达到词典编纂和修订半自动化的目标,最终向基本自动化的方向发展;其三是对现有的商业词典进行电子化改造,或设计编纂专门工人阅读的电子词典或网络词典。在词典数据处理和编纂电子化方面,除众所周知的计算机辅助编纂之外,还有真是连续文本的分析以及词汇索引和提取。通过索引的方法调查和分析有关语词在自然话语中的分布,以便考察词的语法、语义和语用等功能,获取词项的功能和用法特征,同时得到词的义项分布或划分的根据。当然,词汇索引也是词典配例的可靠资源。目前也有人尝试利用语料库建立词典数据库,在微观数据结构的基础上生成词典。

总的来说,计算词典学研究的是:(1)实现词典编纂和修订的数字化或自动化;(2)开发供机器使用的词典数据库;(3)开发供人使用的词典数据库。围绕这三大任务又有大量的工作,比如语料的搜集、整理、标注处理和建库储存,义项划分的数据支持(词频统计、语义统计、词的配价结构统计),综合语义分析,例句的提供,机读词库对词汇数据的自动标注和理解,词典的计算机辅助编纂系统和自动生成系统的开发和利用。(章宜华,2004)

四、 计算词典学的特点

1、现代计算词典学不是编纂词典,而是创造编纂词典的程序手段。只要运用这些手段,编纂词典的人(即职业词典学家),就可以进行编纂。

2、计算词典学中运用了研制语言处理机领域中的成就,即编制自动分析和综合话语程序方面的成就。

3、它不但提出把普通词典改编为自动词典形式的任务,还提出一项相反的任务,把自动词典改编为书面形式。我们把电子计算机中存储的、保留了词条外部形式的普通词典称之为自动词典。自动词典可以作为普通词典来使用。它也可以不断而有效地加以校核、补充和更新,不时地编纂出“补充修订版”也就是说,自动词典是出版词典的卡片库。例如,可以按照主题词或词条的任何片段所提供的特征来分类检索词条,可以形成词典的各种“表现形式”,就是说,可以分别只查阅词条中包含的词表、解释、例证、熟语单位、派生词群等等,可以形成各种规模的亚词典,只要按给定的特征从中挑选词汇,可以联合和对比不同词典的材料,既按照词典文献的宏观结构,又按其微观结构来建立交叉点、联合点和差异点。(安德留申科,1990)

五、 计算词典学的地位

王小海认为,计算词典学的地位有以下几点:

1)语言学理论研究强调词汇成分的重要性,词库是语义和句法信息的主要来源。

 (2)自然语言处理系统要走向实用化,必须能够处理数以万计的词项。

 (3)要编制能够服务于上述目的的词典需要投入大量资金,同时也是很费时、费力的工作。而当时的情况是“各自为阵”,每一个系统都有自己的词库,而这些词库在结构与内容上的差异又使得难以相互共享有关语言信息。

 (4)计算语言学界意识到词典中包含有丰富信息,积极探索如何利用机读信息来加速系统的发展。

 (5)出版商意识到他们所出版的词典在商业上的潜力,领悟到了尽快建立一个能从中提取、生成各种不同词典的词汇数据库的价值。

 (6)词汇学家、词典学家、语法学家、计算语言学家、出版商、商用自然语言处理软件开发人员的频繁交流,使他们意识到共同的目标以及彼此在技术和知识上的互补性。

 (7)初步的实验结果证实,有可能建造一个“中性化词库”(neutral lexicons),这样不同的系统通过适当的接口就能从中提取相关语言信息。(王小海,2003)

六、 计算词典学的价值

张柏然等人总结出计算词典学的一些价值:

1、词典学不再是语言学的附庸而是一门独立的综合性学科,其学科性质得到进一步的明确,其学科地位得到进一步的巩固。

2、词典出版的媒质与载体的时代性嬗变,改变了词典编纂及其研究的观念,提出了词典学理论研究的新问题。

自从华夏祖先发明造纸和印刷术以来,人类词典出版的媒质和载体大致经历了四个历史发展阶段。第一阶段是以“手”和“纸”为工具的手工书写传统;第二阶段是以“火”与“铅”为特色的印刷阶段;第三阶段是以“光”与“电”为标志的计算机时代;第四阶段是以“网”与“天”为特征的网络新纪元。媒质和载体的每一次改进都促进着词典文化传播的广度和深度。现代科学技术的迅猛发展,尤其是电子信息技术、信息数字化技术、语料库技术和网络技术等的日新月异,使得人们还来不及与“火”与“铅”和“光”与“电”告别,便一步跨进了网络时代。“多媒体技术为辞书找到了比印刷文本型优越得多的最佳载体。无论从信息的容量,质量还是从检索的多样性和检索的速度来说,新载体都具有无可比拟的优越性。”(麦志强,《多媒体技术与辞书编纂》,《辞书研究》第六期,1994,第122页)于是,各种电子词典、光盘只读词典以及网上在线词典纷纷涌现了出来。词典媒质和载体的演变,不仅对词典编纂和出版的各个环节产生革命性的影响,而且对改变人类在查询系统方面的观念和处理方法起着不可估量的作用,也给词典学理论研究提出了许多闻所未闻的新问题,开辟出了一些新的研究领域,丰富了词典学理论研究的内容。

3、与计算机科学相关的理论研究,如语料库语言学和计算语言学方面的理论研究与应用。随着信息时代的到来,计算机技术对几乎各个领域的研究无疑都带来了深刻的历史性巨变,词典学也不例外。传统的手工作坊式的词典编纂手段已经受到强烈的冲击,正在向计算机辅助的半自动化和以语料库技术为支撑的完全网络自动化迈进。因此,新兴的语料库词典学、计算词典学和网络词典学等交叉学科应运而生,将古老的词典编纂实践带入了一个崭新的天地,词典学的理论研究也进入了一个新的历史阶段。(魏向清,张柏然,2001)

七、 计算词典学的潜力和前景

现在,在机器载体上已有相当大量的词典相关信息。将来会给予我们更大的、崭新的潜力。与这些潜力有关的是:

1、在计算网络中开展新的信息服务。新的信息服务是指用传播工具和交互制通信工具对话语、言语和手写的、印刷的图像进行数控传递。电视话语服务系统的使用者可以用电话接向远距离的话语库存取信息,并可在计算机上甚或在家用电视收机上向话语库提取信息。任何规模的自动词典都可充当这种话语库,因而,其前景就是一种大型的非书面的词典。电视话语服务系统还可以保证向词库、向存储有被语言学家形式化了的话语语料的话语库、向书面文献库或方言数据库存取信息。在函授教学系统中,可以通过电视话语服务系统取得测试题和一切必需的教学和辅导文献。运用这种服务系统还可把自己的材料发往出版社、发往存储库,可以参加学校的考试,等等。远距离话语信息服务系统只在传播体制中用电视传递话语和印刷图象。这样可以传递时事信息(新型报纸)、广告、艺术性和娱乐性的话语。计算机远距离服务的诉说方式保证不间断地跟踪语言新现象,为在话语库中,从而在词典中有效地考虑它们而创造可能性。

2、不管对编纂词典还是使用词典来说,其崭新的潜力是个人专用计算机—“专业知识积极信息的第一大工具”。正是个人专用计算机的这种性质赋予至今流行的一项命题以一个结论性的特点,这个命题就是:语言学家的作用是在内容上提出任务,而解决任务—这是程序学家的事。用之于词典学,个人专用计算机就是词典编纂者的操作卡片,也就是他现时用于编纂工作的那部分卡片,就是与卡片中心联系的装置;就是一种观察仪器(假如这台计算机与远距离话语库网络连接的话);就是用来书写和编辑的工具,这个工具比起小型书写机来具有大得多的潜力,也就是词典自动方案,它保证自动化地编写词条,从现成的片段组成词条,检查引证、引文,正确选择和排列词条的形式要素。对于词典使用者说来,这就是规模在三到六万词条的自动词典。对出版词典学来说,这就是词典和教科书的新型出版物—软件磁盘出版物。

还有一种已经实际应用的词典出版物类型,暂时用之于教学和旅游—这就是“词汇计算机”(准确些说,这是为袖珍微型计算机准备电子图示的控制存储器),它专门提供词汇信息、补充新词,对学生说来,可起词汇练习器的作用。(安德留申科,1990)

我国计算词典学发展的现状与前景:

1.光盘电子词典

汉语单语词典较少,而双语词典品种繁杂,少有类似欧美等国家的主导品牌,缺乏原创高质量电子词典;词典内容无特色,体例千篇一律、大同小异;有些大型电子词典实际是多类小词典或专科词典机械拼凑而成,无内在统一词库,词典与词典之间无有机联系;释义简单而又不严谨,错误较多;检索方式单一,无法开发和利用词汇数据;没有建立真正意义上的词典数据库,电子词典大多是文本词典的另一种形式,无法充分利用电子数据的数字检索手段,实现智能查检。

2.掌上电子词典

品种繁多,但良莠不齐;其中部分词典义项划分少,且较随意;释义简单,且不够准确——释义错误比较常见;尽管大多是面向学生的,但极少从学习者的角度去设计词典体例或释义;词典以外的附加功能多,但词典的知识信息的表现手法单一,词典学技能不高;词汇量水分多,动辄30-40万,但常有很多词查不到;只是在电子技术上下功夫,在词典本身上面敷衍;不在原创上下功夫,转而走向引进成熟的印刷版词典;数据显示方法不尽人意,分辨率低,单屏显示容量十分有限,相对国外(如日本等)电子词典差距较大。

3.网络词典

网络词典少,各电子词典出版机构和辞书出版社大多无网络词典推出,不像英法等国的主要辞书出版社都有相应的网络词典或词典网站;浏览网上,只发现一些翻译网站或一些软件公司,为了宣传自己的业务,在网上挂了一些电子词典,缺少网络词典的特征。此外,还有一些不成规模的个人词典网站或网页。这些与

1000Dictionaries”、“Yourdictionaries”等词典网站和《朗文网络词典》、《剑桥在线词典》、《拉鲁斯百科词典》、《阿歇特多媒体百科词典》和《Atlas网络百科词典》等网络词典相比,无论词典内容和查询界面的设计都有很大差距。比如,仅“1000Dictionaries”网站就收录了3200部各类词典和其他参考书。(见图)词典类型包括单语、双语和多语词典,还有术语、百科词典、分类词典等。当然,你还可以在这个网站上找到各类新词语词表。

4.语料库的建设

我国语料库的建设虽然起步晚一些,但发展势头很猛,乍一看来似乎很繁荣了,实际上至今也无大规模的、地位明确的商用语料库推出。汉语语料库,包括深加工标注语料库,立项较多,但大多的研究目的是用作自然语言处理和语言研究的,少有词典语料库;双语语料库或双语平行语料库,投入少、规模小,无法独立支持双语词典编纂。总之,各类语料库的建设相对辞书发达国家——英国还十分落后,而他们的商用词典语料库却十分发达。比如,COBUILD的“英语文库”(The Bank of English),朗文语料库网络(Longman CorpusNetwork),英国国家语料库(British National Corpus-BNC)和剑桥国际语料库(CambridgeInternational Corpus-CIC)等,都是可作商业运行的成熟语料库,这些语料库已创造了极大的经济效益和社会效益。值得注意的是,国内语料库不仅规模较小,且建设的目的与英国有很大的不同。英国都是辞书出版社与大学合作建的,目的就是词典编纂;而我国大多是研究机构的行为,目的是自然语言处理和机器翻译,很少是为词典编纂而建造的;因此,能投入商业运行的也就少了。

5.词典数据现代化处理技术的研究

国外词典数据库或词库等现代化处理技术的研究大多建立在学术研究的基础上,有系统的理论支持,整个项目构成完整的理论体系。如美国的FarmeNet词库建立在框架语义学基础上,加拿大的DiCo词典数据库(DiCo lexical database)是建立在篇章-语义理论基础上的。而我们辞书界对这方面的研究项目少,研究定位不甚明确,缺乏远期规划;有些长期处于探索阶段,难有实质性成果;在如何把计算机技术和信息处理技术引入词典研究和编纂方面,似乎满足于解决一些基本现实问题,学术会议讨论的定位不够准、无明确的理论支持,研究深度不足,少有实质型突破;现在已展开的几项计算机词典辅助编纂项目,由于经费严重不足或缺乏有效的合作,研究难以深入,数据处理仍然建立在表格模式上,缺乏智能化支持。值得注意的是,许多词典编纂者还在沿用传统的资料处理方式,计算机仅限于词条的录入和存储。

6.语言处理技的研究

语言信息处理自动化需要语言描述的形式化,形式化是指以元语言方式用专门的编码语言对自然语言和计算机信息进行编码,而且编码的方式要尽量明晰、易懂。明晰是十分重要的,否则计算机无法理解或处理。当然,不同的数据库其编码方式也不尽相同。一般常用的电子文件格编码语言或标记语言为:标准通用标记语言(Standard Generalized MarkupLanguage:SGML)、超文本标记语言(Hypertext Markup Language:HTML)和可扩展标记语言(Extensible Markup Language:XML)以及文件类型定义(DTD);而用于语言形式化表述的语法构建模式有广域短语结构语法(Generalized Phrase Structure Grammar-GPSG)、词汇功能语法(Lexical Functional Grammar-LFG)、中心词驱动短语语法等理论(Head-DrivenPhrase Structure Grammar-HDPSG)和范畴语法(categorical grammar)等。此外,支持计算词典学的语言学理论也很丰富:逻辑数理语义学、概念依存理论、格语法、词语法、蒙太格语义学、原型语义学、篇章-语义理论、框架语义学。这些理论在国外词典学界引起了广泛的讨论和研究,而在我国词典学的论文中,有关这些前沿理论的研究不多。(章宜华,2004辞书论集)

八、 对我国计算词典学发展过程中出现的问题的思考和对策

(一)对问题的思考

我国计算词典学的发展过程中出现了不少问题,原因很多,有对计算词典学的认识问题、政策导向问题、经费投入问题和组织操作问题等。主要表现在以下几个方面:

1.首先应该是观念问题,对计算词典学或计算机信息处理技术在辞书研究和编纂中的应用重要性认识不足,缺乏足够的重视;另一方面,政府有关部门缺乏对词典,特别是双语词典发展的重视。

2.词典学和计算词典学的研究项目在国家基金项目和省部级社科规划项目的“课题指南”中没有位置,往往搭别的学科或专业的顺风车申报,因此在这些研究项目中所占的比例相当小。

3.科研导向存在问题。词典既要对自然语言进行客观描述,又要对语言语义、语法和语用进行必要的规范提示,是一项需要大量的语言调查、细致的分析、缜密的思考、高度的抽象和归纳以及创造性的语言表现手法,是艰苦而有严密的学术工作;但我们现在许多大学和科研部门都不把编纂词典算作科研成果,有的单位可以算,但系数也很低;这直接导致许多极有学术才能的学者不愿意涉足词典及与词典有关的领域。

4.研究重点存在问题。机器翻译是一项纯探索性的研究工作,极具挑战性,但短期内难以有实质性突破,可能会长期无经济效益。而我们一个科研资金还相当缺乏的国家,却长期把有限的经费大量投入到机器翻译中;而容易出成果、对广大民众影响较大,投资相对少但见效相对快、经济效益好的词典项目——词典语料库、数据库的研究和开发却很少投资。而富裕的英国则是首先把钱投入到词典语料库建设上,机器翻译的研究是利用词典语料库进行的。

5.由于国家职能部门缺少切实引导,下面各个部门缺乏沟通与合作,小作坊式的重复劳动较多,既浪费大量人力物力,又难有大的作为;而英国成功的经验是,大型商用词典语料库的开发项目都是大学科研机构与出版社合作的结果。

(二)对策

1.呼吁政府有关职能部门对计算词典学的研究和词典语料库及数据库的研究、开发给予适当重视,在国家、省部级社科规划项目和自然科学规划项目中增加计算词典学研究的立项内容和力度;

2.有资格招收词典学研究生的大学要开设计算词典学的课程,注意多培养一些既有语言学、词典学知识,又有计算机和信息处理技能的高级人才;同时也可开办类似的短期培训班,组织相关人员进行短期培训。

3.辞书学会的有关学术会议要加强计算词典学的议题,主题地位要明确,具有可操作性;会议组织者可以根据当时学界研究的重点或关注的焦点,组织专题讨论——深入展开的讨论,解决一些实际问题。

4.国家社科院语言所或有条件的专业辞书出版社或大型出版社,要高瞻远瞩、有一个计算词典学发展的中长期规划,联合国内优势力量上一些具有前瞻型的、标志性项目,如词典语料库、词典数据库、计算机词库、计算机辅助编纂系统和词典自动生成系统等。

5.加强合作,整合有生力量;在当今社会,跨学科的综合研究是现代语言学和词典学发展的方向,许多课题研究仅靠单纯的语言学或词典学,或计算机知识都是很难完成,而整合这些知识就会引发学者无穷的创造力,获得意想不到的成功。这一点是十分清楚的,如英国的柯林斯出版公司和伯明翰大学的合作建造了COBUILD语料库,组织了以伯明翰大学为主的近百人的专家队伍;现在这支队伍已经成了常设机构。著名的加拿大“双语词典项目”历时10多年,也是3所大学与国家有关学会和政府有关部门合作的成果。在当代辞书界,不合作是难以出成果的,特别是难以出有历史影响的精品。

西方国家在计算词典学的理论研究和实践方面都取得了丰硕成果,词典语料库的建设和使用,电子词库、词典数据库、词典辅助编纂系统和词典多媒体技术的开发和利用等方面已经有20-30年的成功经验,电子词典、网络词典的应用已十分普遍,其结果是他们的词典占据了世界英语和与英语相关的双语词典的大部分市场(包括我国的辞书市场)。我国在计算词典学方面的系统研究和语料库的建设仍处于探索阶段,我们词典编纂的方法还未完全走出传统的操作模式,辞书出版社很少介入电子词典的开发;这些现象要引起有关部门的重视,我们辞书工作者也应不断更新观念、更新知识,努力加快我国辞书现代化的进程。但我们谁也不是救世主,要想在国际竞争中争取市场的主动,只有合作才有出路,才能成功。(章宜华,2004辞书论集)

面对时代的发展和技术的进步,有责任的、有远见的、头脑清醒的辞书编纂家、出版家、研究者都在思索如何顺应时代的发展,应对时代的挑战的问题。中国辞书学会的领导敏锐地意识到形势的紧迫性,积极推动辞书编纂现代化技术专业委员会的成立,并倡导中青年辞书工作者率先掌握计算机技术,运用于辞书的研究、编纂、出版工作之中。

理论研究来源于实践,其最终目的还是要回到实践。计算词典学理论的产生和发展是新时代下辞书编纂事业的必由之路,是我国辞书编纂现代化的有力保障。语言学、词典学的发展为计算词典学的发展打下了坚实的理论基础,计算机科学、计算语言学、语料库语言学及语料库的发展为其实现自己的目标提供了强有力的技术和资源保障。我国的计算词典学经历了从无到有,从小到大的发展历程,但还是一门十分年轻的学科,其理论尚处于童年的成长期,对辞书编纂实践的指导作用是有限的,西方国家的成功经验是值得我们借鉴的,但更重要的是辞书工作者应认清我国辞书编纂的实际,在我国现有的条件下发展计算词典学这一理论,使其有利地指导我们的编纂实践,为实现辞书强国之梦做出贡献。

参考文献:

B.M.安德留申科,王德春译. 计算词典学的潜力和前景[J].辞书研究,1990(2)

麦志强.多媒体技术与辞书编纂[J].辞书研究,1994(6)

石敏.计算词典的内容与构造方法探讨[J].黑龙江大学学报,1998(2)

于海江.理论对词典编纂的指导作用[J].理论研究与双语词典编纂

张国强.关于工具书数字化发展趋势的几点思考[A].中国辞书论集2000

徐成志.尊重前人追踪时代——中国辞书百年回顾[J].辞书研究2001(3)

刘红蕾.从辞书载体的演变看现代辞书出版[J].辞书研究2001(3)

魏向清 张柏然.新世纪词典学理论研究趋势展望[J].外语与外语教学,2001(4)

吴 哲.一个带有新意的词典学理论构架[J].辞书研究2003(1)

王小海.关于计算词典学[J].辞书研究,2003(5)

张铁文.词典编纂的利器———互联网[J].辞书研究,2004 (1)

张志毅. 辞书编纂现代化的基础理论(代序),2004

华 烨.关于我国辞书发展战略的思考——问题·思考·对策[J]. 辞书研究2004(4)

王馥芳.语言学理论研究成果与词典编纂[J].辞书研究2004(4)

章宜华.我国计算词典学发展的问题及对策[A].辞书与数字化研讨会论文集2004

章宜华.计算词典学与新型词典[M].上海辞书出版社,2004

刘奇惕.汉语网络工具书的现状与前景[J].辞书研究,2005(4)

李尔钢.辞典编辑工作与辞典编纂[J].辞书研究2005(4)

夏立新.一部学术性与实用性俱佳的词典学力作——《计算词典学与新型词典》评介[J].辞书研究 2005(1)

常宝宝.基于语料库的双语词典编纂平台的构建[J].辞书研究,2006(3)

李宇明,庞洋.关于辞书现代化的思考[J].语文研究,2006 (3)

张国强.我国数字化辞书的现状与问题[J].辞书研究,2007(2)

章宜华.关于计算词典学理论框架的探讨[J]. 辞书研究,2007(6)

章宜华,雍和明.当代词典学[M].商务印书馆,2007