加入收藏  |  网站地图
 
  辞书编纂现代化
当前位置: 首页->研究室风采->辞书编纂现代化->正文

语料库词典学概述

时间:2009/04/01 09:10:16    来源:    作者:    阅读:

2007级研究生  杨慧丽

【摘要】语料库词典学是词典学与语料库相互交叉而产生的一门新的学科。本文对语料库词典学的各个方面进行了介绍,包括语料库词典学的兴起与发展、词典编纂中语料库的建立、语料库管理系统、语料库在词典编纂中的作用、利用语料库编纂词典的成果以及局限性等这几个方面。

【关键词】语料库词典学  语料库管理系统   平行语料库

一、语料库词典学的兴起与发展

   词典学和语料库语言学的联姻在词典学领域诞生了一个新的交叉学科———语料库词典学。 语料库词典学的发展经历了前计算机时代和计算机化时代两个时期。计算机应用技术兴起之前的词典编纂所使用的卡片法和阅读项目组方法,是语料库词典学的早期雏形。真正意义上的语料库词典学兴起于20 世纪80 年代初,其标志是由Sinclair主持的COBUILD 语料库的建立。“语料库词典学”(Corpus Lexicography)这一术语首先由Atkins(1991)提出, Ooi(1998)使用了“计算机语料库词典学”(Computer CorpLexicography)一词。Hartmann和James(2000)在《词典学词典》中使用的术语是“基于语料库的词典学”(corpus-oriented lexicography),并将其定义为“基于语料库语言学的工具和手段的词典编纂方法”。我国学者章宜华(2004)给语料库词典学下的定义是:基于语料库的词典学理论研究和词典编纂工艺的探讨。从目前语料库词典学的研究对象和方法来看,章宜华的定义更为准确和全面。

二、编纂词典中语料库的建立

1、语料采样:语言是一个无边的海洋,语料库即便达到上亿单词的规模,也只是语海之一粟。但如果要继续扩大语料库规模,并且要求检索速度足够快,普通电脑设备就不能胜任。在现阶段,就普通电脑的处理能力而言,语料库的规模以1到2亿单词为宜。如果规模再大,运行速度就会过于缓慢。然而,要用有限的语料反映语言实际使用情况,就必须制定周密的采样计划,让所选材料具有一定的代表性。

首先应当对语言材料进行系统的分类,例如划分出书面语和口语,普通语言与专业语言,标准语与地域变体(包括方言),成人语言与儿童语言,早期语言和当代语言等类别;然后根据各类语料在语言中所占的大体比重,确定合理的采样比例。语料采样计划很大程度上取决于语料库的用途。语料库根据用途可以分为通用语料库(general corpus)和专门语料库(specialized corpus)。前者旨在反映语言的基本面貌,供编纂普通语文词典使用,各类语料的比例应当保持平衡,不能偏重某一类别。后者用于反映某个专业、年代、地域、体裁、阶层或年龄组等的语言使用情况,供编纂各种专门词典使用。

各种语料的采样比例确定之后,大量的工作就是选取具体语言材料(即语篇),输入计算机。其中难度最大的是口语语料入库,需要把口语录音材料逐词转录成电脑文字材料。文字语料入库,早期使用键盘录入或光学识别(OCR),相当费时费力。现在电子书籍很多。囊括古今中外各种题材,入库就方便多了。互联网的普及又给采集最新语言材料带来极大的便利。当然,在语料入库之前,必须慎重考虑版权问题。

2、语料分析:语料入库仅仅是语料库建设的第一步。它只不过是把语言的口语形式和书面语形式变成了机度行驶—电子文本。只有使用计算机对入库的语料进行各种语言信息分析和处理,才能提供各种有用的参考数据和研究素材,很好地为语言研究和词典编纂工作服务。

   语料分析与处理包括下面几个部分:第一词频统计。 这是最基本的语料分析。其任务是指出每个单词在整个语料库中出现的次数是多少,并且生成词频表,作为词典收词立目的科学根据。第二索引生成。这也是语料分析处理的重要项目,目的在于生成很有参考价值的词项索引,把整个语料库中含有某个单词或词组的句子集中展示出来,供词典编者选用。第三语法分析。其主要任务是给语料库中的所有单词确定词性,并逐一标注。第四语体分析。最基本的方法是利用电脑的强大统计功能,提供有关词语在书面语材料和口语材料中出现的频率。至于词语的其他语体特征和修词用法,机器是很难识别的,目前只能依靠人工分析。第五语义分析。如果能按照词义检索例句,词典编纂则更加方便。然而词义自动分析目前尚无可操作性强的客观标准,没有取得突破。将来的解决方案可能是给语料库中的多义词标注义类。第六搭配分析。搭配信息也是非常重要的语言使用信息。对于学习外语的人来说,这方面的信息对于解决语言表达问题具有非常重要的指导意义。

3、双语语料库:第一编码的元语言:XML语言。这是因为XML语言很普及,得到业界的广泛支持,基于XML语言的编码体系容易获得广泛的软件支持。第二:语料库中描述的信息。北大汉英双语语料库中主要标记的信息有:文本属性信息,描述汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息。本文结构信息,标记汉英文本的标题、子标题、段落、句子的边界信息。双语对齐信息,标记汉英文本在句子一级的对齐互译关系。

三、语料库管理系统

适用于辞书编纂的软件,其基本功能主要包括:帮助辞书编纂者使用语料库和知识库;便于输出和修改辞书所使用的各种符号和一些特殊用字;具有元语言的限定功能;具有编校管理功能。下面就看到的一些有助于辞书编纂的软件简单介绍如下:

1、分词软件:现在国外已经开发成功自动标注词性的软件,使用一般检索软件能够识别的标准化通用标示语言SGML给语料库中的所有单词自动标注词性。

2、基于语料库的双语词典编纂平台:语料库的定制和索引、参考辞典的定制和索引、词典编纂项目管理、条目的生成和管理、释义词表的生成和管理、词典编纂任务管理、编纂平台用户管理、词典微观结构的定制和管理、词典编纂工作台、语料库检索、搭配信息统计分析。

3、语料检索和统计:词频表的生成、词的检索、表达式检索、检索结果的聚类排序、搭配及搭配强度的统计分析。

4、香港理工大学Greaves 设计的Concapp 软件作词语索引词境分析(concordance)

5、汉语字频:可以使用Concapp ,但未能提供词的统计数据。

6、生成英语词表:可以使用WordSmith 软件

7、少数民族语言:现代蒙语词频统计软件系统

四、语料库在词典编纂中的作用

1、平行语料库在双语词典编纂中的重要作用:第一提供真是例证及译文。第二、提供确切的译名。第三、用于双语词典的修正和新词语词典的编纂。第四、查询经典语句的经典译法。第五、查询超词汇语言单位的用法。第六语料库与词目释义。在没有大规模真实文本平行语料库的时候,释义或赋予词目对应词大多依靠内省的办法。这不仅费时费力,而且由于编写人员的水平和其他限制,错误和不当的释义不可避免。若使用平行语料库,词目释义的编纂方式则大不相同。在平行语料库中,从理论上说,每个词目都有其对应词。利用语料库索引工具可以从英汉平行语料库中提取大量的具有互译特征的句子对,然后在实际语境中分析词目并对照对译情况,在此基础上可以获得较为客观的、真实的释义或对应词。第七语料库与义项划分。第八语料库与义项排序。第九语料库与词典配例。第十语料库与新词新义。第十一语料库与词典立目。第十二语料库与文化局限词。第十三语料库与词语搭配

2、语料库在双语词典编纂中的重要作用:第一提高选词的科学性和实用性;第二增加释文的信息量;第三发掘出词或词组的新的义项;第四确认约定俗成的词组,为词典增加新的内容;

五、利用语料库编纂的成果

柯林斯公司90年代出版的一系列基于“英语词库”的词典:《柯林斯最新英语词典》、《最新柯林斯英语学习词典》、《柯林斯袖珍英语词典》、《柯林斯精华英语词典》和《柯林斯迷你英语词典》等。汉语的有《商务馆学汉语词典》。

六、局限性

  近年来,由于在线语料库和词汇分析工具的增加,基于语料库的词典编纂随之变得极为普遍。到目前为止,我国词典界对基于语料库的词典编纂基于上都持赞誉有加的态度。大家普遍认为语料库词典具有传统词典无法比拟的很多优势。概括而言,无非是基于语料库的词典编纂能够更好地解决制约传统词典发展的一些“瓶颈”问题,如出版及修订周期长,资料的收集和存储、搭配定义的界定、词频的统计、义项的科学排列及新词的确定难度大,词目收录的滞后性,词义描述的片面性,例证选取上的人工痕迹太强等。 虽然有学者注意到语料库在词典编纂方面的一些问题,如语料库的规模对搭配定义的界定及信度的影响,语料库的深加工问题,语料库定量和定性分析的结合以及选择典型语料及建立专书语料库问题,第三代语料库———动态流通语料库的建造等。但这些论述都还缺乏系统性,语料库词典的局限性问题至今还没有引起学者们深入系统的探讨。

1、管理系统的局限性:语料库词典学只能是传统词典学的补充,它不能完全取代传统词典学,在词典编纂中,经验、因袭性和直觉仍占一席之地。此外,对分析工具的过度依赖也从某种程度上决定了语料库词典学对词典编纂的补充性。目前,语料库词典学家的主要索引工具是KWIC(Key Work In Context 要语行索引) 。同时,各种各样执行弹性分类标准、支持复杂检索且设计合理的界面也被开发出来了,如WordSmith 工具系列(http :/ / www. oup. co. uk) 和QWICK语料库浏览器(http :/ www. clg. bham. ac. uk) 。KWIC 的局限性在于它无法对超大规模语料库和常用词进行有效检索。在一个含词800万的语料库中使用KWIC 对deal 一词进行检索,所得的要语行达1500 条之多。[18 ]光全面阅读这些要语行已不是件易事,更何况要按一定的原则把其义项整理出来。

Church & Hanks 开发出了一种资料总结软件来解决共有信息的索引问题。该软件的最大优点在于它能凸显那些具有高显凸性(high2salience) 的结构,以引起词典编纂者的注意,并在一定程度上改善了语料库中隐含信息的索得率。这种软件的不足在于,它会把与所涉词目有一定关联但具有不同语法功能的条目也罗列在一起。[19 ]Word sketches (http :/ / wasps. itri . brighton. ac. uk ) 则试图通过给每个单独的语法功能提供不同检索单的垂直检索法来克服共有信息索引软件的缺陷。但Word sketches 的最大局限性在于语料库的“合适性”,即必须有规模和“代表性”都足够大的语料库支持,否则该索引工具的有效性就要大打折扣;而语料库的“代表性”问题一直是“语料库建设中的关键问题⋯⋯不要说代表一种语言,哪怕是代表一种语言中的一部分都是一个很成问题的事”。 

2、语料库的局限性:第一语料库的“共时性”可能给语料库词典设下的陷阱。条目释义中百科性信息的提供可能不均衡、百科性词语的收录可能不平衡、词典的“相对滞后”性。第二语料库的“不完全代表性”也可能对语料库词典产生影响。某些词语的释义可能存在偏差、例证的“不完全代表性”、固定表达式收录过泛。第三关于高频词。词频统计有助于词典编纂人员最终确定进入词典的词目,于词典编纂意义重大,而词频统计正是语料库的一大特长。此外,词频统计还可以揭示多义词各义项的使用情况,这一信息可以为词条内容的选择、安排提供参考—使用频度高的义项或搭配优先。但是,语料库的词频统计却隐藏着一个巨大的陷阱—有些“高频词”只是一个假象。编者如果稍不留意,就会被这些“泡沫”高频词所迷惑,使词典编纂产生失误。

参考文献:

[1] 刘庆荣.语料库与词典编纂[J] 上海师范大学学报,2001,(3).

[2] 王馥芳,罗敏莉.语料库词典学的兴起与发展[J].辞书研究,2004,(5).

[3] 王馥芳,罗敏莉.语料库词典的局限性[J].辞书研究,2003,(5).

[4] 王小海.学习者语料库及其在编纂词典中的作用[J] 广东外语外贸大学学报,2003,(2).

[5] 李德俊.关于语料库应用于双语词典编纂的几点思考[J].辞书研究,20062).

[6] 常宝宝.基于语料库的双语词典编纂平台的构建[J].辞书研究,20063).

[7] 钱厚生.语料库建设与词典编纂[J].辞书研究,2002,(1).

[8] 王建华译.关于语料库的建立[J]  语言文字应用,2000,(2).

[9] 李宇明.关于辞书现代化的思考[J].语文研究,20063).

[10] 刘超鹏.平行语料库概述[J].燕山大学学报,20078).