加入收藏  |  网站地图
 
  辞书编纂现代化
当前位置: 首页->研究室风采->辞书编纂现代化->正文

计算机辅助词典编纂系统

时间:2009/04/01 09:08:56    来源:    作者:    阅读:

2007级研究生 谢晓艳

摘要】在信息化社会,计算机辅助词典编纂是保证和提高现代辞书质量的重要手段。本文主要是谈词典编纂行业的计算机化,着重介绍了国内外计算机辅助词典编纂的情况、国内开发的计算机辅助词典编纂系统,在此基础上进一步提出了词典编纂计算机化的展望

关键词词典编纂;计算机辅助词典编纂;词典生成;数据库;语料库

词典编纂是一项非常繁重而又极其严谨科学的工作。在高科技迅猛发展的今天,传统的词典编纂方式已经不能适应现代社会发展新形势的需要,英国语言学家汤姆迈克·阿瑟曾于1998年在《活的词语:语言、词典编纂和知识革命》一书中提出词典编纂领域将呈现八大趋势,即电子化、全球化、双语化、半双语化、全国化、区域化以及主题化。目前,在词典学研究和辞书出版领域自动化、数字化、计算机化的编辑操作已经涉及词典编纂的各个方面,如资料的收集和存储,编纂过程以及词典发布的形式等。利用计算机技术、信息技术进行词典编纂已经成为词典编纂领域发展的必然趋势。

一、国内外计算机辅助词典编纂情况回顾

早在50年代中期,国外就有专家试验用计算机进行图书编目、资料管理等工作,如Busa在世界首先采用卡片穿孔机来处理文献古籍,以便编制其作品的一般词汇索引与重要语词索引。自1956年起,这类工作中采用了计算机技术,课题范围也有所扩大,其中包括编纂频率词典、倒排词典、为词典卡片库准备卡片、处理语言材料和词典等任务。进入60年代后,法国、英国、德国、瑞士、墨西哥等西方国家,先后开展词典编纂自动化、计算机化的研究,将计算机引入到词典编纂的全过程,改变了传统的词典编纂模式,极大的提高了词典编纂效率,词典的内、外在质量得到很大的改善。1

国内辞书编纂、出版的计算机的应用情况,80年代前,因汉字的输入和存储技术不过关,进展不大。80年代后,汉字输入和存储技术取得重大突破,各种汉字平台层出不穷,受其影响计算机技术在汉语词典编纂中有了一定的应用,如利用计算机辅助编制资料卡片、索引等,但这种应用只是局部性的,效果有限,影响也不大。90年代后,计算机以更快的速度发展起来,开始融入社会生活的各个领域,计算机在信息处理技术上的飞跃发展,为词典编纂事业开辟了广阔的天地。

二、计算机辅助词典编纂系统(工具)

计算机辅助词典编纂系统就是为词典的编纂、编辑、排版以及词典的修订工作而编制的专门的文字处理平台和管理软件。现阶段编纂工具的文字处理平台一般为基于微软系统开发的编辑界面,词典编纂的整个过程包括词典信息的录入、例句的提取、语料库信息的统计分析、语义排版以及词典文本的编辑,都在这个界面上进行。

我国的一些词典研究和出版机构在20世纪90年代就着手开发专用词典辅助编纂系统。

1、 已开发投入使用的词典辅助编纂系统。

1)基于“词典编纂”本体开发的词典辅助编纂系统

商务印书馆与南京大学联合研究开发的“CONULEXID”词典编纂系统,包括词典编辑和词典维护两个子系统。该系统采用CLIENT/SERVER的局域网结构,实现数个客户端对服务器内语料库资源不同权限的共享。系统的主要功能包括词典录入、例句选取、综合文章查询、文章句式统计及文章词频统计;工作日志及信息交流等功能则用于词典数据的管理。这个辅助编纂系统极大地方便了《新时代英汉大词典》的编纂和编辑。2

上海交通大学的陆汝占等人开发的汉语词典编纂一体化环境,它即可用于语料的收集、加工处理以及词典编纂管理、词典质量检测,还可用于编纂过程中的自检。该系统主要有语料库、词典编纂(词典处理)、词典检测(词概念关系库)三个子系统构成。语料库子系统属于工具系统,其主要功能是对语料库进行管理、加工和查询。词典编纂(词典处理)子系统主要完成词典编纂过程中各种必要的功能。根据功能不同,该子系统又分为词典格式转换、词典查询、词典自检、词典编辑、词典编纂项目管理五个次子系统。词典检测(词概念关系库)子系统,是借鉴Princeton大学的Word Net建的词库,它又包括词表构成、查询、词概念关系库编辑系统三个小子系统。经试用,此汉语词典编纂系统得到了好评,其结果是令人鼓舞的。3

山西大学开发的“基于语料库的汉语辞书编纂辅助系统”,将软件工具、语料库及其他电子词典资源有机结合,成为一个具有建库、检索、统计等功能的应用平台。该系统提供多种输出方式,从而为汉语辞书编纂人员提供完整、便利的电子信息服务。基于语料库的汉语辞书编纂辅助系统总体上分为“电子辞书数据库及其查询模块”、“现代汉语语料库及其检索模块”及“电子词典编辑模块”,各组模块既可以独立使用,又可以联合起来使用。该系统是基于静态的语料的,面对当前高速发展的信息社会,山西大学在此基础上进一步设计完成了基于因特网的汉语辞书编纂辅助系统。4

北京大学计算语言学研究所在编纂修订《现代汉语语义词典》过程中,为保证词典内容准确可靠,有效地管理编纂工作,同时兼顾工程进度开发了一个计算机辅助词典开发和管理系统,用于词典编辑、校订、检索、排序、检测、自动翻译、版本比较、任务管理等。该系统在Windows2000的操作系统下使用VisualC++6.0编写运行,采用Access2000数据库技术存储词典数据库。系统的构成主要包括四个子系统:词典编辑、自动检测、自动翻译、项目管理。词典编辑子系统的主要任务是对数据库格式的词典文件进行编辑。自动检测子系统采用两种检测手段:对属性值的有效性进行自动检测;参照其他词典进行横向检测。有效保证了属性填写的正确性和一致性。在自动翻译子系统中,计算机可以借助于自动翻译子系统从《汉英词典》、《英汉大词典》等多种机器可读的双语词典中进行知识挖掘,自动提取英语译文,之后利用词法分析器,将字段的内容填写工作转变成实际上的校订工作,较大程度地提高效率。项目管理子系统通过记录属性值两个层次的比较,全面掌握以前的各种修订情况,及时发现、纠正各种错误,防止漏校。该辅助编纂系统在《现代汉语语义词典》的开发过程发挥了重要作用,有效地提高了词典编纂的效率、质量。5

山西大学基于Delphi平台和SQL server数据库管理系统开发的计算机辅助词典编纂系统。该系统根据相关功能总体上分为三个部分,分别是词典库管理子系统、真实语料库管理子系统、词典编辑子系统。三部分相互独立又互有联系,根据系统流程技术又可将其细分为编辑、词典管理、语料库管理、用户管理、例句提取等几个子系统。词典编辑子系统主要为词典编撰人员使用;词典管理子系统负责管理各部词典信息;语料库管理子系统负责管理真实语料信息;用户管理模块是为了方便用户、确保系统安全而设计;例句提取模块的主要目的是提供例句及相关数据。利用该辅助系统,山西大学初步建立了《小学生规范词典》。6

基于语料库的WEB词典编纂及自动生成系统(简称DICT-Generator系统)是广东外语外贸大学词典学研究中心针对目前词典编纂出版存在的各种问题,结合词典编纂出版经验而研制开发的词典编纂及生成辅助平台。Dict-Generator系统是一个基于广域网和大型数据库技术的远程词典语料收集、词典编纂和词典自动生成系统,是一种网络软件,基于三层C/S结构技术开发,系统主要使用VB.NETVC++.NET编写,采用Microsoft. SQL server 2000数据库存储词典数据库和语料库数据库,该系统包括四大功能模块:词典编纂、词典生成、语料库、管理,其中词典生成部分是其核心部分,词典编纂及语料库、工作管理部分是为词典生成服务的。系统功能层主要实现在客户端,Dict-Generator系统对用户而言,可以利用单独的客户端GUI界面进行操作,也可以通过浏览器进行操作。一般来说词典数据的输入查询通过浏览器进行,而词典的审定通过独立客户端进行。

该系统将词典编纂生成繁琐的工作流程交由计算机控制,大大降低了词典编纂及生成的难度和复杂度,可快速处理词典编纂任务的分配、录入、审定以及词典数据的统计、词典的生成等,还可对业务量、员工工作量进行快速统计,改变了传统的词典编纂方式,提高了工作效率。此外,该系统通过互联网建立安全、稳定的词典编纂及生成平台,实现网上词典编纂,词典编纂者可以在世界上任何地方、任何时间使用该系统共同参与词典资料的提供、收集、编辑和词典的编纂工作,主编可以根据需要任意组合词典库中信息,在极短时间内自动生成词典,打破现今词典编纂生成的局限,实现词典编纂生成全过程数字化、自动化、规范化,最大限度的利用现有资源,高效率地完成词典编纂出版工作。7

需要我们注意的是,同样是广东外语外贸大学词典学开发中心研发的“基于网络的词典辅助编纂及生成系统”(Dict-G)是面向英汉的专业词典辅助编纂系统。同上文提到的基于语料库的WEB词典编纂及生成系统如出一辙,是基于广域网环境设计开发的词典辅助编纂及生成系统,总体架构可看成B/SC/S的混合结构。系统功能大致相同,词条录入、词条编审和词典生成是核心功能,工作管理和语料处理是外围辅助功能。随着信息技术的进一步发展,该系统采用工作流技术实施词典编纂项目。使用工作流技术可以完整的实现词典编纂过程的数字化处理,有效的提高词典编纂的效率和质量,保证词典从编纂、修订到出版的最佳时效性。 8

此外,也是由广东外语外贸大学提出的基于微观数据结构的双语词典生成系统,同上文提到的词典生成系统类似,这里不再赘述。

2)立足词典编纂“外围服务”开发的词典辅助编纂系统

北京语言大学语言信息处理研究所研究成功的“汉语语料检索软件”(CCRL)。CCRL是一种面向语言教学研究的汉语语料检索软件系统,检索目标包括字串、词串、词属性串及词与词属性的混合串。CCRL有单机版和网络版,具有能自动分词、自动建立索引、索引检索速度快、可支持多用户远程检索等十个突出特点。使用该软件无需人工标注就能基于任何词表、词属性体系和词属性标注,对任何生语料全自动地生成索引并进行检索,能在较高准确率的基础上保证查全率,从而能在极大程度上提高检索效率,不仅使有关人员摆脱收集语言实例卡片的繁重劳动,而且使过去不可能实现的大规模语言现象调查工作成为可能,从而能大大提高语言研究水平,促进语言教学(特别是对外汉语教学)和语言信息处理的发展。CCRL在应用过程已经取得多项有意义的研究成果。9

北大计算语言所开发的面向语言学家和词典编纂专家的汉英双语语料库检索系统。该系统主要采用C++语言实现,运行环境为微软Windows系列平台。它立足双语语料库通过语料索引进行加载语料、浏览语料、词频统计、语料检索、结果排序、搭配分析诸方面的工作。该检索系统可实现汉英语特定词的检索、汉英语特定模式的检索、检索结果的选择和筛选、检索结果的聚类排序、汉英词语的词频统计、搭配信息的统计分析等六个方面的检索和语料分析需求。它可以针对词典编纂专家、语言学家的特殊需求提供高效、灵活的高级检索手段,并进一步提供检索结果的经验统计数据,让词典编纂专家、语言学家基于检索结果和经验数据做出科学合理的编写或研究决策。10

上海辞书出版社研发的辞书质量技术保障系统。该系统的核心,是将书稿的电子文档或辞书排版的数字化文件,转换成相应的书稿数据库。这些数据库文件需达到数据交换平台的一致性、数据的规整性、非纯文本数据的可视性、数据的可检索性及数据的可迁移性等方面的要求。另外,辞书质量技术数据库还需建立一些诸如历史纪年数据库、国名数据库、机构组织数据库等之类的复核数据库。该保障系统的主要设计包括参见系统、交叉处理、审定名词、机构组织、国名地名和词目表、词表索引6个部分,关于参见系统与交叉处理部分主要利用系统数据库的超链接功能进行工作,而关于审定名词等部分则主要利用复合数据库、计算机检索等相关技术开展工作,以保证辞书质量。利用辞书质量技术保障系统,编辑在处理书稿时即可以大大减轻复核工作量,又可以准确而毫不疏漏地进行核查工作。11

南京理工大学研发的辞书数据库排版系统,该系统由辞书录入、排版和浏览、检索两个子系统组成。它以数据库为存贮介质、以XML文件为数据交换媒介,以方正书版和方正RIP为排版输出引擎,针对辞书排版的特点,提供了包括录入、存贮、排版、预览、输出和检索的全套解决方案,解决辞书出版中亟需解决的资源共享、检索、查询、借库更新等一系列问题,给编辑审读处理文稿提供了方便,也较大地缩短了出版周期,降低了出版成本。12

2、开发中的词典辅助编纂系统

北京大学计算语言学研究所根据汉英双语词典编纂的实际需要而建立的“基于语料库的双语词典编纂平台”(简称“编纂平台”)。该编纂平台的主要目标,是力图整合词典编纂人员的编纂和现代计算机技术,力图在语言技术、计算机技术和编纂人员智慧之间寻求一个最佳结合,将编纂人员从繁杂的非智力工作中解放出来,既提高词典的编纂质量,又提高词典的编纂效率。整个“编纂平台”由两个部分组成:一部分位于高性能服务器(语料服务管理器)上,为编写人员提供语料和参考词典方面的服务。另一部分位于词典编写人员的词典编辑工作台上。这两部分通过互联网连接在一起。词典编写人员不与服务管理器直接打交道,而是通过本地词典编辑工作台接受来自服务管理器所提供的服务,并基于服务做出合理的词典编写决策。根据对传统词典编纂工作的考察,并结合信息技术以及语料库技术的发展现状,“编纂平台”设定了语料库与参考词典的定制和索引、词典编纂项目管理条目与释义词表的生成管理等11项功能目标。其中语料的检索和统计是核心功能之一,它可以进一步为词典编写人员提供词频表的生成、词的检索、表达式检索、检索结果的聚类排序、搭配及搭配强度的统计分析5项功能。目前该平台已经具备基本功能,还处在进一步的开发过程中。13

学者王伟基于《现代汉语词典》修订需求开发的词典编辑软件——汉语词典编辑系统。根据词典编纂的实际需求,设计的该编辑系统包括编辑、排序(多种方式排序)、检索(多功能检索)、汇总、排版、管理等模块。其中编辑、排序、检索、汇总模块已完成,并进行了相当长时间的多方面测试。排版、管理等模块有待进一步开发。该系统的最终目标是要建立一个综合、全面、高效的词典编辑信息化处理平台,彻底实现词典编辑的无纸化。14

3、 设想中未开发的词典辅助编纂系统

学者张卫国在论证了语文词典编纂计算机辅助系统可行性的基础上,提出了辅助编纂系统的设计方案。该辅助系统应该包括现代汉语共时描写语料库、语文词典数据库、语文词典编辑应用软件三部分,即由语料库系统、数据库系统和编辑软件等三个子系统构成。实际上,随着信息技术的高速发展,与设想的系统类似的为数不少的词典编辑辅助平台已经研发出来,投入使用且取得了不错的成果,上文提到的功能不同的词典辅助编纂系统便是例证。15

三、结语

上述计算机辅助编纂系统的开发只是计算词典学发展的一个缩影,随着信息技术的进一步发展,将会有更多功能齐全、技术先进的辞书编纂系统被开发出来,词典编纂、出版过程将发生更加深刻的变化。我们会看到如下进展并从中受益:

1、数据输入方式更加便捷。利用计算机多媒体处理技术开发的语音输入法、图文识别技术等应用到辞书编纂中去,有效提高辞书编纂的效率、质量。

2、出现了商品化的辞书编写专用软件,辞书编纂的时效性得到保证。

3、信息高速公路带来便利,辞书编纂人员利用网络与世界各地的同行进行快速信息交流、学术研讨、合作开发,辞书的科学性、实用性增强。

参考文献

[1] 郑恩培、陆汝占 . 汉语词典编纂计算机化的若干问题 .语言文字应用【J】,19992

[2] 章宜华.关于计算词典学理论框架的探讨. 辞书研究,【J】,20076

[3] 陆汝占 .汉语辞书编纂一体化环境(上、下). 辞书研究【J】,2001

[4][9 ] [ 10][ 12][ 14][15] 张绍麒 .辞书与数字化研究【M, 上海:上海辞书出版社,2005

[5] 王惠、李康年 .大型词典编纂的计算机辅助开发与管理系统 .辞书研究【J

[6] 成文丽等. 计算机辅助词典编纂的技术分析与系统设计. 山西大学学报【J, 2003

[7] 刘辉等 .基于语料库的WEB词典编纂及自动生成系统设计与实现 .沈阳师范大学学报【J, 20063

[8] 刘辉. 基于网络的词典辅助编纂及生成系统II . 沈阳师范大学学报 J,20081

[11] 乐嘉民 .辞书质量技术保障系统的研发与应用 .中国编辑【J,20071

[13] 常宝宝 .基于语料库的双语词典编纂平台的构建. 辞书研究【J