加入收藏  |  网站地图
 
  辞书编纂现代化
当前位置: 首页->研究室风采->辞书编纂现代化->正文

计算机辅助词典编纂的技术

时间:2009/04/01 09:08:00    来源:    作者:    阅读:

2007级研究生 杨艳

摘要:词典编纂是一项耗费巨量人力、物力的语言工程。利用计算机辅助词典编纂,可以有效地提高词典质量。目前,利用计算机技术、信息技术进行词典编纂已经成为国内外词典编纂领域发展的必然趋势。本文拟从计算机辅助词典编纂的技术方面进行探讨,着重介绍语料库技术、数据库技术和网络技术,以期指导词典编纂事业的发展。

关键词:计算机辅助词典编纂技术;语料库;数据库;网络技术

一、 国内外计算机辅助词典编纂概述

早在50年代中期,就有专家试验用计算机进行图书编目、资料管理等工作。R.Busa在世界上首先实际采用卡片穿孔机来处理文献古籍一一托马斯·阿奎那的作品,以便编制其作品的一般词汇索引与重要语词索引。自l956年起,这类工作中采用了电子计算机,课题范围有所扩大,其中包括编纂频率词典、倒排词典;为词典卡片库准备卡片;处理语言材料和词典,以便将词汇划分为各种类别,获得各类统计材料,建立语义场以及完成类似的其他“工艺”性任务。数据表明,这样做的结果使得劳动效率提高了几十倍。

60年代以来,西方国家如法国、英国、德国、瑞士、墨西哥、前苏联、加拿大、美国、日本、意大利等,都先后开展了词典编纂自动化、计算机化的研究,分别建立起了电子形式的语言材料库、词典卡片库、术语数据库等。与此同时,将计算机引入到词典编纂的全过程,改变了传统的词典编纂模式,大大地提高了词典编纂效率,无论是词典的内在质量还是外在质量都得到了很大的改善。

国内辞书出版的计算机应用状况,80年代以前,由于汉字的输入和存储技术未过关,因此一直没有什么进展。80年代,汉字的输入和存储技术取得了重大突破,各种汉字平台层出不穷。在这种背景下,计算机技术在汉语词典编纂中也有了一定的应用,如利用计算机辅助编制资料卡片、索引等,但由于这种应用是局部性的,因此效果有限,影响有限,更谈不上大规模推广应用。进入90年代后,虽然计算机应用的环境、工具有了很大的改观,辞书界的要求也十分强烈和迫切,但这方而总的情况仍不尽人意,与国外相比,整个流程从语料采集、编写、编辑直到排版、查检为止,在使用计算机技术上还处于较低的层次。今年来,计算机以更快的速度发展起来,开始广泛应用于各个领域,特别是为词典编纂事业开辟了广阔的天地。[1]

二、 计算机辅助词典编纂的技术

(一)语料库技术

计算机辅助词典编纂最直接、最典型、最具革命意义的,是机读语料库在词典编纂中的应用。[2]语料库用于词典编纂领域为词典的编纂带来了革命性的变化。Bejoint 说: “对词典学来说 ,应用语料库是一种科学的方法 ,它的使用可以对语言使用进行客观的描述。”[3]

大型语料库中丰富的第一手语料、完普的语料处理和分析工具以及灵活的语料索引工具提供了词典编纂者过去无法想象的有利条件。语料库既可用于词典学的研究,也可用于词典的编纂实践。提取词典例证是建立词典语料库最原始的动机;可以直接提供立目数据;经过分析处理的语料还可为义项的划分和词典释义提供有力的参考;通过一定的格式化查询软件,可以发现特定语法、语用和文化信息的句子,获取相关的注释信息。此外,语料库还可以揭示同义词的分布与使用,还可根据中心词在具体语料样本语境中的语义分布,了解语境对同义词的语义配价、搭配关系与使用语域的选择限制。[4]

语料库的管理和利用问题, 主要涉及语料的采集、 语料的储存、 语料的加工(如切分、 标记、统计等)、语例的检索提取等, 理论上和技术上都有不少困难。 但是, 对这一问题的初步解决, 就足可以将词典编纂者从书面语言资料的搜集、 卡片的抄写与查找这些简单而又繁重的劳动中解放出来。

1)语料的采集

语言是一个无边的海洋,语料库即便达到上亿单词的规模,也只是语海之一粟。然而,我们要用有限的语料反映语言实际使用情况,就必须制定周密的采样计划,让所选材料具有一定的代表性。为了让语料库能真实地反映语言使用情况 ,具有代表性 ,以下几点不容忽视:

语料库的内部结构分析应该在建库之前进行。目前已有不少成功的、被广泛认可的语料库 ,我们在建设自己的语料库时可以参考它们的经验。我国学者认为 ,语料库如同一个“四维模型” ,应由“时间轴”、“空间轴”、“学科轴”和“风格轴”组成。[5]规模庞大的语料库虽有其优势 ,但语言学家们同时也意识到 ,语料库并不是愈大愈好 ,语料库过大可能会造成对检索的结果难以或无法进行分析。Kennedy认为:规模宏大的语料库并不比规模较小的语料库更能揭示语言的本质。通用语料库既然如此 ,专门语料库就更不用说了。如果要建一个用于研究韵律的语料库 ,10万词级的就足够了。[6] 实际上 ,语料库的大小要根据研究目的而定。一个较小型的、认真设计和规划的语料库 ,若可以被透彻地分析研究 ,其作用并不亚于大型的语料库。

2)语料的储存加工

数据采集加工是语料库建设的一个重要环节,这个环节解决语料库中的来源问题,主要工作是语料数据电子化、规范化,数据采集加工的过程还需要流程化,以确保语料的正确性、权威性。

各种语料的采样比例确定之后,大量的工作就是选取具体语言材料(即语篇),输入计算机。文字语料入库,早期使用键盘录入或光学识别(OCR),相当费时费力。现在电子书籍很多。囊括古今中外各种题材,入库就方便多了。互联网的普及又给采集最新语言材料带来极大的便利。[7]

语料入库仅仅是语料库建设的第一步。它只不过是把语言的口语形式和书面语形式变成了机度形式—电子文本。只有使用计算机对入库的语料进行各种语言信息分析和处理,才能提供各种有用的参考数据和研究素材,很好地为语言研究和词典编纂工作服务。语料的储存加工包括以下几个部分:

原始语料处理:设计专门的存储系统和保存记录;提供一种系统的索引方法,将存放在计算机中的文件联系起来。

语料转化技术:语料库的建设中,语料来源可以是自己加工的,也可以是购买的,这就需要大家遵循一个统一的标准,XML技术无疑是解决这个问题的最好的办法,语料库既可以接纳XML文件,语料库中的文件也可以导出XML文件。[8]

语料标注:为了从语料库中抽取信息,必须首先在一个或更多层面上对语料库进行分析,并且将分析结果标注到语料上去,从而给语料带来附加的价值,这就是语料的标注。语料库标注最典型的例子就是是词性标注。关于语料的标注还有很多其他的种类,如:语法标注,句法标注,语义标注等等。[9]

词频统计:这是最基本的语料分析。其任务是指出每个单词在整个语料库中出现的次数是多少,并且生成词频表,作为词典收词立目的科学根据。另外,还有字频统计,文本统计等。[10]

索引生成:这也是语料分析处理的重要项目,目的在于生成很有参考价值的词项索引,把整个语料库中含有某个单词或词组的句子集中展示出来,供词典编者选用。

3)语例的检索、提取

在词典编纂的过程中,人们需要对语料库中每个词项使用实例进行梳理,归纳,按不同的分布结构抽象出不同的义项和词义,并在词典中反映出来,这就需要有专门的工具软件对大型语料库的语料进行再加工,目前使用的技术主要有:例句生成器;框架素描引擎;利用数据挖掘技术在海量的语料库中发掘有用信息。

北京大学计算语言学研究所根据汉英双语词典编纂的实际需要而建立的“基于语料库的双语词典编纂平台”。该平台设定了语料库与参与词典的定制和索引,词典编纂项目管理条目与释义词表的生成管理等11项功能目标。其中语料的检索和统计是核心功能之一,它可以进一步为词典编写人员提供词频表的生成、词的检索、表达式的检索、检索结果的聚类排序、搭配及搭配强度的统计分析等功能。[11]北京语言大学语言信息处理所在国家自然科学基金、国家863计划、教育部人文社会科学重点基地重大项目和归国留学人员项目支持下,研制成功“面向语言教学研究的汉语语料检索系统(CCRL)”使用该软件无需人工标注就能基于任何词表、词属性体系和词属性标注,对任何生语料全自动地生成索引并进行检索,能在较高准确率的基础上保证查全率,从而提高检索效率。[12]

(二)数据库技术

词典数据库是利用心理词库中信息组织的原理和方法按词典微观数据结构形式构建的词典知识库用于词典的辅助编纂和修订以及词典的自动或半自动生成。国外词典数据库或词库等现代化处理技术的研究大多建立在学术研究的基础上,有系统的理论支持,一个项目就是一个完整的理论体系。如:美国的FrameNet词库建立在框架语义学的基础上,加拿大的DiCo词典数据库建立在意义,文本理论的基础上。

一般情况下,人们很难明确区分数据库、数据库管理系统和建立基本数据材料的原则。有时人们也把数据库结构分为三种:层次结构,网络结构,相关结构。目前所称的数据库大多为关系数据库(Rl)B一RelationDataBase),它包容了层次结构和网络结构的特点。还有一种数据库是B — 树 (B —t ree) 数据库。B — 树数据库与关系数据库完全不同 , 数据库的结构同关系数据库的B — 树索引文件一样 , 集数据库与索引为一体的数据库。[13]

系统数据库管理系统可以采用Delphi自带有强大的数据库管理系统或者SQL Server,Delphi数据库管理系统提供功能强大的数据库组件, 使开发者只要进行简单的设置数据源就可以开发出数据库应用程序, 并可通过BDE (Borland 数据库引擎)更为方便的操作数据库.[14]如:山西大学基于Delphi平台和SQL server数据库系统开发的计算机辅助词典编纂系统。[15]南京理工大学研发的辞书数据库排版系统,该系统由辞书录入、排版和浏览、检索两个子系统组成。以数据库为存储介质,以XML文件为数据交换媒介,以方正书版和方正RIP为排版输出引擎,针对辞书排版的特点,提供了包括录入、存储、排版、预览、输出和检索的全套解决方案,解决辞书出版中亟需解决的资源共享、检索、查询、借库更新等一系列问题。[16]

利用数据库技术自动生成词目表和索引,节省了大量的人力、物力,同时也确保了辞书词目表和索引的质量。[17]“百科全书信息管理数据库”,是在百科全书编纂过程中,帮助编辑人员建立原始资料卡片库或制作容纳整部百科全书要素的信息库,并可以对库中内容进行编辑加工及协助处理编务事项等。[18]

(三)网络技术

1)利用网络技术编纂词典

因特网的兴起和普及是上世纪一件划时代的大事,它给人们提供了前所未有的海量信息,形成了所谓的“信息爆炸”。各行各业的发展显然都会受到因特网的影响。词典编纂和因特网的关系更是密不可分。[19]

网络信息的特点是信息量巨大、内容新颖、更换及时、查询快捷方便。搜索引擎不但能提供词典编撰者有关某方面的大量最新信息,也具有其他工具(如英文词典或英汉词典)难以比拟的查询和验证功能,更能为编撰者提供大量真实、可靠、实用的例证。很明显,词典

编撰者如能认识到因特网的以上功能并充分有效地加以利用,词典包含的信息量就会剧增,词典的实用性也会大大加强。[20]张铁文[21]分析了互联网在新词的收录、例句搜集、词语释义三方面给词典编幕带来的有利影响,认为它给词典编幕带来了巨大的便利,成为当前词典编幕的重要手段和工具。章宜华[22]指出:广域网是词典语料的来源;广域网是词典编纂的工具:查新词的活跃度;广域网是词典服务的对象。并且广东外语外贸大学词典学开发中心研发了“基于网络的词典辅助编纂及生成系统”,该系统是基于广域网环境设计开发的词典辅助编纂系统。

另外,万维网是因特网的精华所在。由于它能支持不同的计算机语言 ,许多由这些语言支持的数据库便得以运行于网络中。这显然为信息搜索者提供了极大的便利。万维网提供的另一便利是搜索引擎 或门户站,雅虎 就是其中著名的搜索引擎。在该网站,人们不仅可根据其分级体系点击对词典研究和编纂人员有用的网络资源还有与词典有关的杂志、通讯、课程、约稿通知等。因此,因特网强大的信息查询功能可以大大丰富词典词条数目,从而增强词典所包含的信息量。

随着“万维网”和“浏览器 ”等网络词语逐渐为人们所接受 ,世界各地的公司、组织 、高等院校 、研究机构纷纷上网 ,建立各 自的网站 或主页 ,藉以介绍、宣传 自己 ,以及加强与国外组织机构或个人的联系。各大洲的辞书学会也不例外 ,它们已陆续建立了各 自的网页。这些学会包括亚洲辞书学会,非洲 辞 学会,澳洲,欧洲,北美洲等辞书学会。[23]

2)利用网络技术生成词典

网络词典或在线词典(online dictionary)事实上也是网络资源的一部分。网络化的词典是通过使用某种计算机语言(如SGML一Standard Generalized Markup Language,即标准通用置标语言)将机器可读(machine readable)的词典文本转为可在网络中查阅的词典。网络词语表也属于这一范畴。因特网上有许多可供查阅的词典。这些词典并不是以直观的形式呈现在读者面前,只能通过关键词检索才能查阅到含有该关键词的词条。例如,http://www.dictionary.com/general/中包括诸如Webster Revised Unabridged Dictionary、word net(R)、The Free On-line Dictionary of Computing等10余部辞书。我们可以在http://proto.oed.dcom/demo.html下抽样查询属于牛津词典系列的一些辞书如:《牛津英语词典》、《牛津英语词典增补》、《南非英语词典》等。该网页设立了诸如“OED Word of the Day”和“OED New Word of the Day”等栏目,用以专门介绍《牛津英语词典》和《牛津英语词典增补》中的词条。[24]

另外,计算机辅助词典编纂还表现在对词典编纂整个流程的跟踪、监控上。一般地,词典编纂工艺包括如下一些步骤: (1)设计;}2)编写;(3)审稿;(4)定稿;(5)编发;(6)出版;(7)发行。在计算机的数据库内解决编辑、修改、查检、排检、字库等问题之后,再从数据库转到文本出版发行。

总之,词典编纂的计算机应用和数字化是一个多学科、 综合性的信息处理系统工程, 涉及到语言学、词典学、 认知科学、 人工智能等众多领域的知识,需要语言学家、 词典编纂家、 出版机构及其它各方面研究人员的通力合作,共同促进我国词典编纂事业的发展。

参考文献:

[1] 郑恩培、陆汝占.汉语词典编纂计算机化的若干问题[J].语言文字应用,1999(2)

[2] [4]章宜华. 关于计算机词典学理论框架的探讨[J].辞书研究,2007(6)

[3] Bejoint H. Modern Lexicography : An Introduction. Beijing : Foreign Language Teaching and Research Press ,2002.

[5] 张普.关于大规模真实文本语料库的几点理论思考.陈章太主编.世纪之交的中国应用语言学研究[C]北京:华语教学出版社,1999

[6] Kennedy G. An Introduction to Corpus Linguistics . Beijing :Foreign Language Teaching and Research Press ,2000.

[7]陈志雄.计算机技术在语料库建设及辞书编纂中的应用.张绍麒主编.辞书与数字化研究[C]上海:上海辞书出版社,2005

[8] 刘开瑛、由丽萍.基于语料库的汉语辞书编纂系统.张绍麒主编.辞书与数字化研究[C]上海:上海辞书出版社,2005

[9]亢世勇.汉语系统语料库的建设与词典编纂.张绍麒主编.辞书与数字化研究[C]上海:上海辞书出版社,2005

[10] 朱学锋、张化瑞、段慧明、俞士汶. < 汉语高频词语法信息词典>的研制[J].语言文字应用,2004(3)

[11]常宝宝. 基于语料库的双语词典编纂平台的构建[J].辞书研究,2006(6)

[12]宋柔.汉语语料检索软件CCRL.张绍麒主编.辞书与数字化研究[C]上海:上海辞书出版社,2005

[13] 吉日木图、 嘎日迪、 赛音、达·巴特尔.< 现代蒙语词频统计软件系统>的设计与实现[J].中文信息学报,1997(3)

[14] 张国强. 数据库化的辞书编纂.中国辞书论集[C] 北京: 语文出版社, 2000.

[15] 成文丽、 曲开社、冯秀芳. 计算机辅助词典编纂的技术分析与系统设计[J]山西大学学报(自然科学版),2003(2)

[16]贾蕾.南京理工辞书数据库排版系统在辞书编纂、出版中的应用. 张绍麒主编.辞书与数字化研究[C]上海:上海辞书出版社,2005

[17]乐嘉民. 辞书质量技术保障系统的研发与应用[J].中国编辑,2007(1)

[18]李晓红. 百科全书信息管理数据库的设计及实现[J].辞书研究,2001(4)

[19][23][24]高永伟、李洁. 因特网与词典编纂[J].辞书研究200(4)

[20]赵刚.因特网与汉英词典的编纂. 张绍麒主编.辞书与数字化研究[C]上海:上海辞书出版社,2005

[21]张铁文. 词典编纂的利器——互联网[J].辞书研究2004(1)

[22]章宜华. 互联网络与现代词典编纂.中国辞书论集[C]2001

[25]陆汝占.汉语词典编纂一体化环境(上、下) [J].辞书研究2000(2/3)