2007级研究生 朴善熙
摘要:近年来,语料库语言学成为各国语言学及语言教学界讨论最多的热门话题之一。本文介绍了中韩两国在世界语料库资源发展建设过程中跟随时代潮流,在不同年代各自对语料库建设和发展的简况。
关键词:语料库; 发展; 中国; 韩国
J . Thomas 等人在1996 年出版的语料库语言学研究论集的中说道:“语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。” 随着语料库语言学在国外研究领域的蓬勃发展,20世纪80年代这门学科被引入中国和韩国。从此,两国大批学者致力于语料库的建设和研究工作。他们做了大量的引介性工作,为语料库语言学在的发展莫定了基础;而计算机技术的飞速发展和更新进一步促进了它的发展。如今,越来越多的学者开始利用语料库来做研究。本文将分别对语料库和语料库语言学在中国和韩国的发展历史作简要回顾,以期对两国语料库语言学的现状和发展动态有一个比较全面的了解,为这门学科的更好的发展和应用提供借鉴和参考。
1. 语料库语言学的历史发展
在欧美,语料库语言学已经成为语言学的主流分支。语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。它是一个由大量的语言实际使用的信息组成的、专供语言研究、分析和描述的语言资料库。语料库语言学是在语料库的基础上对语言进行分析和研究的科学,它是随着计算机和网络技术发展应运而生的新的语言学研究领域和研究手段。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库语言学为语言研究与教学提供了一种全新的方法和思路。它以真实的语言数据为研究对象,对大量的语言事实进行系统分析。它研究的是语言行为,而不是语言能力,也就是说它通过考察语言的实际运用来寻找语言使用的规律。
语料库语言学作为一种研究语言的方法,可追溯到上个世纪,甚至更为久远,现一般以乔姆斯基转换生成语法的兴衰时间为参照。乔姆斯基之前的语言研究,如19 世纪和20 世纪早期的儿童语言学的研究主要是以父母详细记录孩子的话语发展为基础的。这些原始语料,时至今日仍是许多学者的研究内容的主要来源之一。另外还有美国早期强调语料获取的自然性和语料分析的客观性的结构主义语言学家F. Boas 和E. Sapir 等人,都曾使用过以语料库为基础的研究方法。乔姆斯基(Chomsky) 一系列论著发表之后,笛卡尔主义的理性主义研究方法在语言学界占据主导地位,被视为经验主义产物的语料研究方法受到质疑和否定,再加之当时的计算机技术发展落后等诸多因素制约了语料库的发展。乔姆斯基认为,语料从本质上只是外在化的话语的汇集,基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解释,因而语料不是语言学家从事语言研究的得力工具,另外,英语短语结构的递归性表明,作为语料基本单位的句子的无限性决定了语料永远是不完整、不充分的。以乔姆斯基为首的转换生成语法学派的各种批评从根本上改变了50 年代结构主义语言学的研究方向。在此之后的近20 年里,语料研究方法几乎名誉扫地。而事实上,以自然语料为基础的语言研究并未完全终止。1959 年,R. Quirk 着手建立了旨在收集大量的风格题材各异的语料作为对英国口语和书面语进行系统描写的基础的《英语用法》语库。1961 年以N Francis和H. Kucera 为首的语言学家和计算机专家建成了当今最早的机读语料库——布朗语库,这两个库可称得上是现代语料库语言学的开端。特别在1975 年,以T. Srartvik 为首的语言学家对R. Quirk 语料的口语部分作韵律标注,并最终实现了机读,建立了伦敦———隆德语料库。
自1930 年起,相对沉寂了近20 年的语料库语言学开始复兴,之后迅速发展,空前繁荣。下列图表就充分说明了这一点:
1959 —1991 年语料研究项目统计表
DATE CORPUS
1959 —1965 10
1966 —1970 20
1971 —1975 30
1976 —1980 80
1981 —1985 160
1986 —1991 320
语言界越来越多的人意识到语料在语言研究中的巨大作用。大批语料库的建成极大地促进了基于语料研究项目的迅速开展。据美国加州大学的克莱分校的语言学家J . Edwards 1993 年的不完全统计,80 年代以来建成并投入使用的各类语料库达50 多个,按语种分布如下:英语24 德语7 法语4 西班语2 意大利语2 芬兰2 丹麦语2 瑞典语2另外还有南斯拉夫语,葡萄牙语、爱脱尼亚语等也都建立了语库。
2. 中国语料库发展的回顾与发展趋势
语料库语言学研究的发展总是以语料库的建设为基础的。没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。近十多年来,中国语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。
2.1 英语学习者语料库
中国最早建成的语料库便是20世纪80年代中期上海交大的科技英语语料库(JDEST)。利用语料库的研究在90年代中期以前主要是基于JDEST语料库,范围狭窄,成果有限。之后的研究才逐渐增多,利用语料库的研究范围不断扩大。当时还建成有1989年完成的广州石油英语语料库,1993年前后香港科技大学编制的计算机科学英语语料库,20世纪90年代中期建立的国际英语学习者语料库中国子语料库(ICLE,桂诗春),中国学习者英语语料库(CLEC,桂诗春、杨惠中)等。之后的英语语料库建设总体上可分为书面语和口语两部分。其中包括广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC ,100 万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC ,5 万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC ,148 万词次;南京大学建设的中国英语学习者口语语料库SECCL ,100 万词次;华南师范大学建设的国际外语学习者英语口语语料库中国部分LINSEI - China ,10 万词次;华中科技大学建设的硕士写作语料库MWC ,12 万词次。
2.2 平行语料库
这一方面有北京外国语大学建设的汉英平行语料库PCCE;南京大学建设的南大——国关平行语料库;外语教学与研究出版社建设的英汉文学作品语料库,冯友兰《中国哲学史》汉英对照语料库,李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库;哈尔滨工业大学建设的英汉双语语料库,40~50 万句子对;北京大学计算语言学研究所建设的双语语料库,5 万多对;香港城市理工大学建设的对比语料库LIVAC;台湾建设的平衡语料库SinicaCorpus 和树图语料库Sinica Treebank;国家语言文字工作委员会应用研究所建设的计算机专业的双语语料库,柏拉图哲学名著《理想国》的双语语料库;中国科学院软件研究所建设的英汉双语语料库,15 万对;东北大学建设的英汉双语语段库,100 万词次,网上英汉语段电子词典及网上电子英汉搭配词典,1 000 万词次;中国科学院自动化研究所建设的英汉双语语料库,包含LDC 香港新闻硬汉双语对齐语料36294 段以及香港法律英汉双语对齐语料31 万句子对,并从英汉双解词典中摘取例句25000 个句子对。
2.3 特殊英语语料库
有河南师范大学建设的中国英语(China English) 语料库;解放军外语学院建设的军事英语语料库(Corpus of Military Texts) ;上海交通大学建设的新视野大学英语教材语料库。
2.4 汉语语料库
武汉大学建设的汉语现代文学作品语料库;国家语言文字工作委员会建设的国家级大型汉语均衡语料库,2000 万词次;北京大学计算语言学研究所建设的《人民日报》语料库,2 700 万词次;北京语言大学建设的大型中文语料库,包括十个分库,共计5 亿词次;清华大学建设的现代汉语语料库,1 亿词次;山西大学建设的汉语新闻语料库(1988 年) ,250 万词次,标准语料库,70 万词次;上海师范大学建设的生语料库,3000 万词次《作家文集》的标注语料库,100 万词次;中国社会科学院语言所建设的现代自然口语语料库;中国科学院自动化所建设的旅游咨询口语对话语料库和旅馆预定口语对话语料库。
2.5 中国语料库语言学研究的特点
2.5.1 在中国,基于语料库的实证研究逐年增加,成为语言研究的一个热点。
基于语料库的实证研究主要集中在以下五个领域:词汇、语法、语篇、语用及话语分析和语域变体。同时也应看到存在其中的问题。其一就是中国语料库语言学实证研究的范围较之国外还比较窄。此外,有些研究语料库的选取不够恰当,采取的统计方法还不够严谨。
2.5.2 对理论的探讨较少,几乎不能提出本土的理论体系。
自从20 世纪80代引进国外语料库语言学理论和方法以来,众多中国学者进行了多层次、多方面的研究,但是这些研究和探讨以基于语料库的方法居多,而在理论体系上的106探索几乎没有重大突破,或者说,对理论的探讨较少,没有提出本土的理论体系。我们建议集中中国著名的相关方面的语言学者诸如杨惠中、黄昌宁、潘永木梁、何安平、王建新等人举行高级专家组或论坛,进行理论方面的合作和探讨,这样的协作或许有助于中国语料库界多方面的发展。
2.5.3 口语语料库的建设已成为该学科发展的一个方向。
目前许多语言学家和教师认为,口语比书面语更能揭示语言以及语言习得的本质。中国三个主要的口语语料库(上海交大的COLSEC ,南京大学的SECCL ,华南师大的LINSEL- China) 统一了转写方案和标注规则,建成后将合而为一,成为中国最大的外语学习者口语语料库,库容量预计将达到两百万词次。
2.5.4 学习者语料库的建设和中介语的研究是语料库研究的重中之重。如前所述,中国学习者语料库主要有:由广东外语外贸大学和上海交通大学共同建社的中国学习者英语语料库CLEC ,中国香港的Hong Kong University of Science and Technology (HKUST)Learner corpus 等。建立学习者语料库的目的是通过语料库方法深刻洞悉真实的学习者语言特征,最终为外语教学(主要是英语教学) 服务。而且,建设学习者语料库的目的还在于对学习者进行偏误分析,由此扩展为对中介语的研究。
2.6 中国语料库语言学发展趋势
2.6.1 语料库的容量将进一步增大。从第一个可机读的电子语料库布朗语料库在美国诞生以来,许多不同类型的语料库相继创立,而且语料库的容量越来越大,中国的情况也是如此。计算机化的语料库的建设可以分为三个阶段:早期的计算机语料库,大型计算机语料库,特大型语料库与监控型语料库。而语料库的容量由几万词次到一百万词次再到一亿词次。可以预见,语料库不断扩大的趋势仍将持续,语料库的容量将进一步增大。
2.6.2 语料库语言学的跨学科性将进一步增强。语言研究越来越依赖于可机读的电子语料库这一研究工具,传统语言学家、计算言学家和计算机科学家联手开展合作研究,使得语料库语言学成为一个跨学科的语言学分支。它目前与描写语言学、词典学、计算语言学和计算机科学等学科结合得比较紧密。可以相信将会有更多的学科与语料库语言学相结合,使其跨学科性更为突出。
2.6.3 语料库分析软件及应用软件开发和推广前景广阔。中国在语料库分析及应用软件的开发上存在一些问题,如未打破门户之分;软件只在极少数研究人员中使用,没有推广应用;语料库分析软件开发得很多,而应用软件较少。语料库分析和应用软件的开发和推广既有重大意义,又有广阔的前景。
2.6.4 汉语语料库及语料库语言学将在语文教学及对外汉语教学方面发挥更大的作用。在语文教学及对外汉语教学方面,语料库和语料库语言学一直发挥着非常重要的作用,从理论、内容和方法等方面对语言教学与研究都有重要影响,比如中学语文教学方面经典性的词典和语法书等就是在汉语语料库的基础上编写而成的,还有专门用于对外汉语教学的汉语语料库。但是,总的来说,在语文教学及对外汉语教学方面语料库的应用程度不够。但可以预计,语料库的应用将从传统领域——如词典编撰——扩展到新兴领域——如编写教学大纲和教材、开展机助语言学习、机器翻译等;以语料库为基础的研究方法将逐渐受到重视和广泛应用;汉语语料库及语料库语言学将在中学语文教学及对外汉语教学领域发挥更大的作用。
3. 韩国语料库发展的回顾与发展趋势
在语料库语言学不断兴起的时候,韩国也在20世纪80年代开始了语料库建设的脚步。80年代后期,韩国社会学界对电脑语料库建设的热衷开始空前高涨。当时以延世大学、韩国科学技术院,高丽大学等学术机构为中心的团体开始试图构建语料库体系,这样的努力一直在韩国延续,直到1998年韩国政府启动了名为“21世纪世宗计划”的活动,韩国语料库的建设工程才真正迎来了一个重大的转折点。所谓“21世纪世宗计划”是当时韩国文化观光部支持下的一项公共事业,它旨在构建韩国自己的语料库和电子词典体系,以此作为在学术和产业当中可以普遍使用的信息资源,然后再将其进行普及,并运用于各项基础研究事业当中。如今,韩国的世宗计划已经整体完成,这使韩国拥有了一个世界级的大型语料库,其中包括的词量达到了3亿词次。当21世纪世宗计划打造语言资料库的同时,为使语言资源能够在教育、研究、产业等方面广泛利用韩国把目光的焦点同样对准了语言工程软硬件构造上面,并把这一系列的动作命名为“国语信息化”运动,把这些行为推到了一个新的学术名称上来。每年夏天,韩国都会举行所谓国语信息化研讨会这样一种短期教育。而 “国语信息学”在韩国就是指以韩国语为基础建立的语料库语言学。如今韩国也同世界大多数国家一样处在信息化社会当中,知识和信息的处理变得尤为重要,在此其中,语言信息的处理也渐渐被人所关注,所以,作为语言资源重要基础的语料库的重要性也大大提高了。现在,不仅研究语言的学者们积极参与建设,就连电算学者们也在不断倾注热情在这一方面投入自己的努力。
3.1主要语料库单位
3.1.1 高丽道学韩国语语料库:民族文化研究院 - 电子文案研究室
3.1.2 延世大学韩国语语料库:语言信息开发研究院 - 韩国语字典编撰室
3.1.3 KAIST 韩国语语料库: KAIST 国语信息库, 专门用语 语言工学研究中心
3.1.4 21世纪世宗计划
1) 背景
15世纪朝鲜王朝的世宗大王为韩国创造了自己的标识文字,实现了语言生活上的革命。21世纪世宗计划正是取义于此,以代表韩国将在21世纪,通过构造计算机化的语言资料以及借助数据分析来再次显现韩国语的价值,把韩国语再次发扬光大。韩国人开展21世纪世宗计划的目的一方面是要全面整理韩国语言资料把作为文化遗产的韩国语言有效地继承和发展 ,同时为了更好地借助计算机来进行语言处理而建设一个新的资料系统,最终实现让韩国语资料的附加价值最大化的效果。为了系统地将语言资料信息化,21世纪世宗计划把主要建设内容定位在了构建最基础的语料库资源、运用语料库编撰电子词典、建造专门用语数据库、制作国语信息检索程序等方面。
这项计划是韩国旨在自主展现韩国先进信息文化的一项中长期发展计划,它是1998年开始由韩国国立国语研究院领军实施的。从开始到结束的10年(1998-2007)时间里,阶段性地制定目标,最后构建了3亿词次左右的大型数据库。
可以说21世纪世宗计划是韩国语料库建设的代表工程,下面笔者将对韩国2该计划从1998年至2007年之间主要组织部门和工程内容按照年份展开具体介绍。以期大家能够对韩国语料库发展全程有一个明细的了解。
2) 主要内容
◈ 1998年
◊ 工程主办机关:文化观光部
◊ 工程主管机关:国立国语研究院
工程名称
工程具体项目
国语基础资料构建部分
(高丽大学)
▪ 语料库构建 : 91,000万 词次
-基础语料1,600万词次,统合处理语料7,500万词次
▪ 研究课题 : 3个
-用于韩国语信息处理的基础语法编撰与分析标识的标准化
-平行语料库建设的相关基础研究
-语料库构建的方法论研究
▪ 软件开发 : 2个
-语料库处理与应用基本工具开发
-泛用语例精确检索器开发
▪ 语料库构建 : 255万 词次
-口语词汇: 基本词汇50万词次 北韩资料: 基本词汇35万词次
-海外资料: 基本词汇100万词次 历史资料: 基本词汇70万词次
电子词典开发
(首尔大学)
▪ 电子词典 : 详解词汇 848 个
-名、代、数词: 详解词汇 520 个
-动、形容词: 详解词汇 128 个
-固有基本名词:详解词汇 200 个
▪ 综合电子词典开发:
-详解词汇 848 个
韩民族语言信息化
(檀国大学)
▪ 韩文语法检索系统开发(11,628项)
▪ 南、北韩语言比较词典(1,000词汇)
专门用语标准化
(韩国科学技术院)
▪ 经济领域专用语目录(韩英对照)10,000项 ,语料库100万词次构造,标准化100项
▪ 国际MARTIF格式标准化构建1000项
字体开发普及推广
(京仁教育大学)
▪ 建立韩国字体开发院,发表字体综合现状报告书
▪ 拟定业务促进基础设施装备,运营委员,专家委员
文字编码标准化
▪ 设立咨询机构,打造研究设备,创建注册管理体系等
▪ 基础资料收集,国际信息收集,非标准文字处理方案研究
▪ 建设中心网站,发表技术方针指导书与年度报告书
国语信息化人力培养
▪ 开发“国语信息化概况”教材
◈ 1999年
国语基础资料构建
▪ 语料库构建:1,750万 词次
-基础语料1,600万词次,语素分析150万词次
▪ 研究课题:1个
-文章分析方法论与标识开发促进案
▪ 软件开发:1个
-智能型语素分析机开发
▪ 语料库构建: 280万 词次
-口语词汇:基本词汇50万词次
-韩英并列:基本词汇25万词次
-北韩资料:基本词汇105万词次
-海外资料:基本词汇25万词次
-历史资料:基本词汇75万词次
▪ 电子词典:基础词汇110,000 个,详解词汇16,552个
-名、代、数词:基础词汇40,000 个,详解词汇4,580个
-动、形容词:基础词汇20,000 个 ,详解词汇1,522个
-助词▪词尾:详解词汇150个
-固有名词:基础词汇50,000 个 ,详解词汇10,300个
▪ 综合电子词典:
-详解词汇16,552个,基础词汇110,000 个
▪ 标准语规定检索系统开发(7,414项)
▪ 外来语标记法检索系统开发基础调查
▪ 南、北韩语言比较词典(4,000词汇)
▪ 综合检索程序(一期)
-韩国语语法,标准语言规定,南北韩语言比较词典
专门用语中心运作
▪ 构建100万词次经济专用语语料库,专家审议1000项,国语学分析1000项
▪ 物理学专用语目录(韩英对照)1万项 ,构造500万词次语料库,标准化专家审议300项,国语学分析1万项,韩英日对照目录1万项
▪ 开展研讨会与国际圆桌会议,发行新闻书简
(京仁教大学)
▪ 着手编撰韩文字体词典
▪ 着手交流与收集南北韩字体资料
非标准文字注册中心
▪ 实现网络、PC通信书面注册
▪ 构建汉字信息数据库(48,027字)
▪ 古韩文信息数据库基础研究(确保包含5,291字以上)
▪ 6月份开办古韩文信息化商学协作研讨会
▪ 网站开始运作;新闻书简第二期;技术方针指导书第一期
▪ 发行综合报告书
(延世大学)
▪ 开发“基于语料库的词典编撰理论”教材
▪ 开发“国语信息化用语指南”教材
◈ 2000年
▪ 语料库构建:1000万 词次
-基础语料800万词次,语素分析200万词次
-基于形态分析语料库的语法现象统计研究
-语料库综合应用系统开发
国语特殊资料构建
▪ 语料库构建: 355万 词次
-韩英并列:基本词汇75万词次
-北韩资料:基本词汇130万词次
-历史资料:基本词汇100万词次
▪ 电子词典:基础词汇84,100 个,详解词汇17,400个
-名、代、数词:基础词汇22,500 个,详解词汇3,000个
-动、形容词:基础词汇5,000 个 ,详解词汇2,000个
-助词▪词尾:基础词汇1,600 个 ,详解词汇800个
-固有名词:基础词汇50,000 个 ,详解词汇11,500个
-详解词汇84,100个,基础词汇17,400 个
(全北大学)
▪ 韩国方言检索系统开发基础调查
▪ 外来语标记法检索系统开发(26,738词次)
▪ 南、北韩语言比较词典(7,854词汇)
▪ 综合检索程序(二期)
- 韩国语语法,标准语言规定,外来语标记法,南北韩语言比较词典
▪ 经济用语国语学分析1万项,标准化分析5,000项
▪ 物理学用语国语学分析1万项,标准化分析5,000项,韩英日对照目录5,000项
▪ 化学领域专门用语目录集成(韩英)1万5,000项,
构建语料库100万词次,韩英日对照目录5,000项
▪ 韩文字体词典编撰完成
▪ 基于因特网字体信息提供
▪ 发行字体现状报告书“字体 2,000”
▪ 古韩语信息数据库的建造与使用
-古韩语标记字形调查(15世纪 ~ 20世纪20年代)
-构建古韩语基础文献数据库(322万字)
▪ 汉字信息数据库扩充与应用
-47,145字韩文读音信息构建与典籍明示
-48,000余字汉字字形BMP▪GIF图片字形制作
▪ WORD2000周边软件编码体系与文字处理相关研究
▪ 第一届国语信息化学会开办: 2天
-确定组织委员会,师资团体与教学主题
▪ 开发教材“韩国语语料库的使用”
◈ 2001年
▪ 语料库构建:1,050万 词次
-基础语料700万词次,语素分析200万词次,语素语义分析150 词次
-基于形态分析语料库的语素连接关系研究
▪ 软件开发:1个 -附加句库的语料库构建工具开发
▪ 语料库构建:390万 词次
-口语词汇:基本词汇55万词次,语素分析5万词次
-韩英平行词汇:基本词汇80万词次,
-韩日平行词汇:基本词汇13万词次
-北韩资料:基本词汇140万词次,语素分析10万词次
-历史资料:基本词汇62万词次,语素分析20万词次
▪ 软件开发:2种
-北韩文化语语素分析系统
-韩英平行语料库用例检索系统开发
▪ 电子词典:基础词汇60,250 个,详解词汇9,900个
-名、代、数词:基础词汇20,200 个,详解词汇4,900个
-动、形容词:基础词汇5,000 个 ,详解词汇1,500个
-助词▪词尾:基础词汇1,050 个 ,详解词汇1,700个
-副词:基础词汇30,000 个 ,详解词汇1,400个
-连语:基础词汇2,000 个 ,详解词汇300个
-惯用型:基础词汇2,000 个 ,详解词汇100个
-基础词汇60,250 个,详解词汇9,900个
▪ 国语罗马字标记检索系统开发: 10,557 词次
▪ 国语罗马字标记转化程序开发
▪ 韩国方言检索系统开发
-标准语基准词汇19,432个,方言157,876个
▪ 南、北韩异化语言检索系统开发(3,076词汇)
▪ 综合检索程序(三期)
▪ 化学领域专门用语韩英日对照目录1万项,专家检测5,000项,国语学分析1万5,000项,用语标准化数据库1万5,000项
▪ 生物学用语韩英日对照目录1万项,语料库100万词次,学会专家检测1万项
▪ 组建各类专门用语标准化研究协会联合体,确立分类体系
▪ 古文献字体发掘与复原研究工程(朝鲜初期古文献15种)
▪ 开办字体学术研讨会
▪ 发行字体现状报告书“字体2001”
▪ 古韩语2,237个字形用例信息萃取
▪ 古文献中61,434个汉字国际标准编码体系内处理
▪ 汉字信息数据库以外1,099字归类KIRG报告
▪ 47,435个已定字型的音、意确定,网络电子词典功能基本实现
▪ 网站功技能扩充;新闻书简第二期发刊;产业实体赞助第二期等等
▪ 第二届国语信息化学会开办 -开设基础与深化课程
▪ 筹建网络国语信息化学会
▪ 开设主页与编撰网络讲义等等
成果普及管理中心
▪ 韩国语信息会员管理与韩国语信息使用教室开始运作
▪ 21世纪世宗计划成果普及:总355项
▪ 21世纪世宗计划国文主页优化与英文主页开发
▪ 多媒体资料数码化与管理体系基础调查
▪ 韩国语信息处理办公室开始运作
◈ 2002年
▪ 语料库构建:935万 词次
-基础语料500万词次,语素分析250万词次
-语素语义分析200 词次 语句分析3万句
-国语研究中的语料库应用
-半自动语句分析语料库构建工具
▪ 语料库构建:380万 词次
-口语词汇:基本词汇40万词次,语素分析25万词次
-韩英平行词汇:基本词汇90万词次,语素分析30万词次
-韩日平行词汇:基本词汇18万词次
-北韩资料:基本词汇100万词次,语素分析25万词次
-历史资料:基本词汇20万词次,语素分析32万词次
▪ 软件开发:1种
-韩英平行语料库应用系统
▪ 电子词典:基础词汇7,000 个,详解词汇19,100个
-名、代、数词:详解词汇6,000个
-动、形容词:详解词汇5,000个
-副词:基础词汇3,000 个 ,详解词汇3,000个
-连语:基础词汇2,000 个 ,详解词汇2,700个
-惯用型:基础词汇2,000 个 ,详解词汇2,400个
-基础词汇7,000 个,详解词汇19,100个
▪ 北韩书写格式向南韩格式转换程序
▪ 北韩方言检索系统开发
-标准语基准词汇12,266个,方言38,027个
▪ 国语词汇历史查询检索系统(第一阶段,1,000词汇)
▪ 综合检索程序(四期)
▪ 生物学领域专门用语韩英日对照目录5,000项,专家检测5,000项,国语学分析1万5,000项,用语标准化数据库1万5,000项
▪ 医学领域专门用语韩英日对照目录15,000项,语料库100万词次,专家检测15,000项
▪ 专用语标准化综合检索系统补充完善(网络与PC版)
▪ 各门类专用语分类体系补充完善
▪ 古文献字体发掘与复原研究工程(第二年度)
-朝鲜初期古文献15种
▪ 联网字体注册基础资料调查
▪ 发行字体现状报告书“字体2002”
非标准文字注册▪推广
▪ 古韩语国际标准化方案研究
-资料收集与基础研究
-基于国际标准化的古韩文归类与提案
-开展商学协作研讨会
▪ 非标准汉字国际标准化推动
-IRG标准适用
-参加第19次IRG会议
▪ 第三届国语信息化学会开办
▪ 基于主页更新的宣传广告与研讨会讲义资料的网上共享
▪ 韩国语信息会员征招与管理;韩国语信息使用教室运作(第四次)
▪ 21世纪世宗计划成果普及
-成果分配
▪ 多媒体资料数字化
▪ 韩国语信息处理办公室继续运作
◈ 2003年
▪ 语料库构建:912万 词次
-基础语料500万词次,语素分析200万词次,
-语素语义分析200 词次 语句分析12万句
-语句分析语料库综合管理工具
▪ 语料库构建:391万 词次
-口语词汇:基本词汇49万词次,语素分析20万词次
-韩英平行词汇:基本词汇85万词次,语素分析17万词次
-韩日平行词汇:基本词汇24万词次,语素分析5万词次
-北韩与海外韩国语资料:基本词汇80万词次,语素分析39万词次
-历史资料:基本词汇72万词次
-韩中、韩俄、韩法平行语料:基本词汇15万词次
▪ 电子词典:基础词汇31,000 个,详解词汇28,700个
-名、代、数词:基础词汇5,000 个,详解词汇10,000个
-动、形容词:基础词汇2,000 个,详解词汇8,000个
-连语:基础词汇4,000 个,详解词汇4,000个
-惯用表现:详解词汇1,500个
-特定语:基础词汇20,000 个,详解词汇5,000个
-复合名词、句:基础词句1,000 个,详解词汇200个
-基础词汇31,000 个,详解词汇28,700个
(京畿大学)
▪ 南韩书写格式向北韩格式转换程序
▪ 中国与其他地区方言检索程序开发基础研究(2,000词汇)
▪ 国语词汇历史查询检索系统基础研究(第二阶段,1,000词汇)
▪ 韩民族语言信息综合程序开发
▪ 医学领域专用语国际标准数据库打造, 1万5,000项,国语学分析1万5,000项
▪ 数学领域专用语韩英日对照目录10,000项,专家审议10,000项,语料库100万词次
▪ 计算机领域专用语韩英日对照目录10,000项
(仁川大学)
▪ 古文献字体发掘与复原研究工程(第三年度)
-朝鲜后期古文献15种
▪ 发行字体现状报告书“字体2003”
▪ 主页字体信息提供
-古韩语字母选定基准与排列方式修正方案
▪ 韩文字体(V3.0)统一字符编码标准统计分析基础研究
▪ 非标准文字注册与推广
▪ 新闻书简第11、第12号制作排定
国语信息化人力培养(延世大学)
▪ 第四届国语信息化学会开办
-基础讲座,集中讲座,外部机关联系讲座
▪ 国语信息化学院主页开通
▪ 韩国语信息会员征招与管理;韩国语信息使用教室运作
▪ 21世纪世宗计划成果普及与管理
-文档版本导入,英文主页版面修正
-世宗计划成果使用率调查
▪ 韩国语信息处理办公室运作
◈ 2004年
(高丽大学)
▪ 语料库构建:970万 词次
-语素语义分析语料库250 词次 语句分析语料库20万句
▪ 语料库构建: 468万 词次
-口语词汇:基本词汇39万词次,语素分析18万词次
-韩英平行词汇:基本词汇48万词次,语素分析19万词次
-韩日平行词汇:基本词汇22万词次,语素分析12万词次
-北韩与海外韩国语资料:基本词汇100万词次,
语素分析35万词次
-历史资料:基本词汇70万词次,语素分析5万词次
-专用语:基本词汇100万词次
▪ 电子词典: 详解词汇23,800个, 增加基础词汇50,000 个;
-名、代、数词:详解词汇2,500个(内容补充7,000),
增加基础词汇15,000 个
-动、形容词:详解词汇1,500个(内容补充5,000)
增加基础词汇5,000 个,
-连语:详解词汇2,000个
增加基础词汇1,000 个 (内容补充8,000个),
-特定语:详解词汇15,000个
增加基础词汇20,000 个 (内容补充20,000个),
-复合名词、句: 详解词汇2,800个 增加基础词汇9,000 个
▪ 韩国传统文化词汇检索程序开发基础研究
▪ 文学作品使用方言检索程序开发基础研究
▪ 国语词汇历史查询检索系统基础研究(第三阶段)
▪ 计算机领域专用语韩英日对照多国语目录2万项,构建100万词次计算机领域专用语语料库
▪ 电子电气工学领域专用语韩英日对照多国语目录1万5,000项
▪ 机械工学领域用语韩英日对照多国语目录5,000项
▪ 与相关学界共同审议多国语目录
▪ 数学领域专门用语韩语化造词法分析与语言标准化审议提案完成
▪ 数学领域专门用语国际标准(MARTIF)数据库构建
▪ 创立举办多个宣传体系与致力强化专门用语研究运用
▪ 非标准文字收集•注册与国际标准化推广
▪ 提高韩文统一字符编码运用效率的调查研究
▪ 古韩语高效使用的方案研究
▪ 文字编码信息推广体系强化
▪ 第五届国语信息化学会开办 -基础讲座,集中讲座
▪ 国语信息化学院主页运作
国语信息管理中心
▪ 成果普及扩大 -强化国内相关学会团体的交流联系
▪ 开展对国外相关团体访问和宣传并加强协作
▪ 成果管理与宣传强化,打造成果实用性
▪ 主要成果评价与检定:语料库的有效性,平行互换性检测
▪ 国语信息化人力资源培养推广
-开办国语信息使用教室
▪ 国语信息化综合处理办公室运作
-成果加工,检索信息服务提供,用户商谈与培训
▪ 开发成果使用情况的追踪收集整理
◈ 2005年
◊ 工程主办、主管机关:国立国语研究院
▪ 语料库构建:570万 词次
-基础语料300万词次
-语素语义分析语料库200 词次 语句分析语料库20万句
- 智能型语句分析工具
▪ 语料库构建: 450万 词次
-口语词汇:基本词汇55万词次,语素分析28万词次
-韩英平行词汇:基本词汇50万词次,语素分析22万词次
-韩日平行词汇:基本词汇20万词次,语素分析9万词次
-北韩与海外韩国语资料:基本词汇80万词次,语素分析31万词次
-历史资料:基本词汇50万词次,语素分析5万词次
▪ 电子词典:详解词汇20,500个 ,增加基础词汇100,700 个
-名、代、数词:详解词汇700个(内容补充12,000),
增加基础词汇18,000 个(内容补充40,000个)
-动、形容词:详解词汇1,000个(内容补充10,000)
增加基础词汇6,500 个(内容补充12,000 个)
-固有名词:增加基础词汇50,000 个 (内容补充50,000个)
-惯用型:详解词汇1,000 个
增加基础词汇1,000 个(内容补充4,000)
-特定语:详解词汇15,000个, 增加基础词汇20,000 个
-复合名词句:详解2,800个, 增加基础词汇5,200 个
(内容补充1,000个),
▪ 国语词汇历史查询检索系统基础研究(第四阶段)
▪ 机械工学用语韩英双语1万项对照目录;大韩机械工业学会用语审议
▪ 产业工学用语韩英双语5,000项对照目录;大韩产业工业学会用语审议
▪ 化学工业用语韩英双语1万项对照目录;大韩化学工业学会用语审议
▪ 环境工业用语韩英双语5,000项对照目录
▪ 建筑工业用语韩英双语5,000项对照目录
▪ 土木工学用语韩英双语5,000项对照目录
▪ 计算机行业与电子电气工业领域用语的韩语化分析
▪ 计算机行业与电子电气工业领域用语信息的标准数据库化
▪ 专门用语标准化综合检索系统建立
-国家知识情报资源管理产业新生4,787个汉字收集
-非标准文字国际标准化推广
▪ 符号,特殊字符与汉字语料库的输入与转换相关研究
▪ 统一字符编码汉字有效利用的系统调查与研究
-检索系统>扩容,改编与网络版开发
▪ 古韩文利用方案与推广体系确立
▪ 第六届国语信息化学会开办
▪ 国语信息化学院主页更新
▪ 成果普及扩大
-继续强化国内相关学会团体的交流联系
▪ 国语信息化人力资源培养推广 -开办国语信息使用教室
成果整理
▪ 国语基础资料整理备选目录精选
▪ 国语特别资料整理备选目录精选
▪ 着眼于成果关联性和统计方案的资料分析
▪ 专用语资源整理
◈ 2006年
▪ 语料库构建:275万 词次
-语素语义分析语料库250 词次, 语句分析语料库25万句
-现代国语基础语料库使用系统
▪ 已构建语料库整理
-基础词汇:500万 词次,语素分析:500万 词次
-语素语义分析 500万 词次
▪ 语料库构建: 143万5,000 词次
-口语词汇:基本词汇28万词次,语素分析4万词次
-韩英平行词汇:基本词汇17万词次,语素分析7万词次
-韩日平行词汇:基本词汇5万5000词次,语素分析3万词次
-北韩与海外韩国语资料:基本词汇38万词次,语素分析10万词次
-历史资料:基本词汇31万词次
-口语词汇:语素分析20万词次
-韩英平行词汇:基础词汇25万词次,语素分析25万词次
-韩日平行词汇 -北韩与海外韩国语
-历史资料:基础词汇52万词次
▪ 电子词典: 详解词汇1,500个, 增加基础词汇33,100 个
-名、代、数词:详解词汇800个(内容补充12,100 个)
增加基础词汇18,000 个(内容补充45,000个)
-动、形容词: 详解词汇700个(内容补充9.500 个)
-词根:详解补充1,700个, 基础词汇内容补充1,700个
-附着词、代词、数词:详解词汇1,200 个,
基础词汇内容补充1,200个
-固有名词:增加基础词汇8,600 个(内容补充50,000)
-副词:详解补充4,500 个,增加词汇 内容补充11,000个
-助词、词尾、冠形词、感叹词:详解补充2,650个,
增加基础词汇 内容补充 2,650个
-连语:详解补充9,000个,增加基础词汇 内容补充 9,000个
▪ 国语词汇历史查询检索系统基础研究(第五阶段)
▪ 机械工学,产业工学,化学工学领域专门用语韩英双语目录的韩语化分析2万5000项
▪ 机械工学,产业工学,化学工学专门用语数据库标准化(XML平台TMF)3万5000项
▪ 化学工业用语韩英双语目录5000项
▪ 专家审议(5000项追加审议):审议5000项(累计1万5000项)
▪ 向2005年开发的专业用语网络检索器添加机械工学,产业工学,化学工学领域用语
▪ 专门用语整备
-第一阶段:物理(15,000项)/化学(15,000项)
-第二阶段:医学(15,000项)/数学(10,000项)
▪ 非标准文字收集与整理
▪ 文字编码标准化研究
▪ 文字编码信息提供与推广体系强化
▪ 古韩文使用方案与推广体系确立
▪ 成果普及教育程序开发与点评项目起动
▪ 已开发教育计划整理
▪ 第七届国语信息化学会受业生分析与提问资料分析
▪ 教育计划评价与改善方案整理
成果管理、
普及与整理推广
▪ 成果整理与补充业务推广
-推广工具要求事项明细书 -择选后目录
▪ 国语研究与应用领域学会/专家对象成果普及
-成果普及协议书
-普及情况清单
-成果内容说明书
-成果普及现状图片
▪ 韩国语研究信息提供与民意商谈
-21世纪世宗计划主页宣传
◈ 2007年
-语素分析:750万 词次 -语素语义分析:750万词次
-语句分析:80万词次
▪ 已构建语料库整理:
-口语词汇:语素分析30万词次
-韩英平行词汇:基本词汇30万词次,语素分析30万词次
-韩日平行词汇:基本词汇21万1000词次,语素分析5万词次
-北韩与海外韩国语资料:基本词汇30万词次,语素分析12万词次
-历史资料:基本词汇53万词次
▪ 核心电子词典完善整理工作
-名、代、数词详解:35,100项 -动、形容词详解:27,700项
▪ 综合电子词典内部完善性与外部实用性测评与改善
▪ 综合电子词典管理系统与输入装置检索装置补充改善
▪ 综合电子词典测评工具补充改善
▪ 南北韩语言比较词典与韩国方言检索检索程序整理
-南北韩语言比较词典:2,000个
-韩国方言检索程序:2,000个
▪ 语文规定检索程序整理
▪ 国语词汇历史检索程序整理
▪ 韩民族语言信息检索综合与整理程序开发
▪ 21世纪世宗计划成果管理推广
-成果管理数据库开发
▪ 21世纪失踪计划成果分配
-在线分配对象成果选定
-网络在线成果分布站点建造,宣传
-网络在线成果分配状态管理
-网络在线站点使用者管理
-脱机用CD制作(1000部)
21世纪世宗计划从1998年开始,历时10年最终打造完成。这一工程成果丰硕,内有2亿词次的语料库相比英国91~94年建成的英国国家语料库1亿词次数量还多,可以说达到了世界级的水准。这样大规模语料库能够建成也科学地证明了韩国语言是一种优秀的语言。
该计划为了构建基础的语言资料数据库,专门把报纸、杂志、小说等各种资料进行了计算机处理,实现了利用计算机即时翻译、纠正语法和文章要素错误等机能。借助世宗计划韩国还开发出了包含60万词汇量的电子词典,这不但让信息检索、文本分析与制作、自动翻译等成为可能,多国语言电子词典的出现也给外国人学习韩国语带来了很大的福音。如今,已实现在线服务的网络词典(www.sejong.or.kr)包含了现代韩国语必用的名词、形容词等18个范畴的60余万词汇,是韩国最大规模的词典。世宗计划的一期工程已经告一段落,今后,韩国还将会在此基础上开展2期和3期的大型工程,今年2009年就有望让2期工程实现起动。
中韩两国语料库的发展较为迅速, 它为语言研究打开了一条新的道路。越来越多的从事语言学研究的人开始注意到其重要性和发展潜力。从两国语料库的建设和发展可以看出,两国语料库语的建设和研究已经取得了很大的成绩,以上的综述主要是依据所获得的研究资料进行总结,其中的叙述难免有重合和不周之处,但从中我们仍可以看出两国语料库语发展的各自轨迹和不同特征,通过借鉴各自的成功经验与不足,可以为两国语料库的继续强化打造和加深利用提供基础。也应该看到,在某些方面两国研究的范围仍需继续拓宽,已有的研究还需继续深入,以使两国语料库研究方面与国际研究更进一步接轨。
参考文献:
[1] 崔淑珍. 语料库语言学的发展[J]. 信阳农业高等专科学校学报. 2001.
[2] 丁信善. 语料库语言学的发展及研究现状[J]. 当代语言学. 1998.
[3] 黄昌宁. 语料库语言学[M]. 北京: 商务印书馆. 2002.
[4] 梁燕. 近十年我国语料库实证研究综述[J]. 解放军外国语学院学报. 2004.
[5] 梁旭红. 语料库语言学研究综述[J]. 晋东南师范专科学校学报. 2001.
[6] 刘满堂. 近40年英语语料库及语料库语言学研究的回顾与出展望[J]. 陕西教育学院学报. 2004.
[7] 杨惠中. 语料库语言学导论[M]. 上海外语教育出版杜. 2002.
[8] 甄凤超, 张霞. 语料库语言学发展趋势瞻望—2003语料库语言学国际会议综述 [J] . 外语界. 2004.
[9] 이승재[韩]. 21세기 세종계획의 개요와 금후의 활용 방안[J]. 일어일문학연구. 2005
[10] 국립국어원[韩]. 21세기 세종계획백서[J]. 국립국어원. 2007
参考网站
< 国语信息学 关联 网站 – 按韩文字母排序>
1. 高丽大学电子计算机系自然语言处理研究室 http://nlp.korea.ac.kr
2. 科学技术研究员 Computer System Lab(CS Lab) http://csone.kaist.ac.kr
3. 国立国语研究院 http://www.korean.go.kr
4. 国语信息库 KIBS http://kibs.kaist.ac.kr
5. 釜山大学数据库与韩文信息处理研究室 http://asadal.cs.pusan.ac.kr
6. 釜山大学 人工智能研究室 http://bandi.cs.pusan.ac.kr
7. 西江大学 自然语言处理研究室 http://nlparies.sogang.ac.kr
8. 首尔大学自然语言处理研究室 http://nsp.snu.ac.kr
9. 21世纪 世宗计划 http://www.sejong.or.kr/
10. 延世大学 语言信息开发研究院 http://ilis.yonsei.ac.kr/
11. KAIST 韩国语语料库 http://korterm.or.kr/