第一节 英汉释义词元提取过程对比
1. 英语释义词元的提取
1978年出版的《朗文当代高级辞典》(Longman Dictionary of Contemporary English)第一版,首次采用2 000个基本词元解释了56 000个义项。其后的1987年版、1995年版沿用这一做法,只是对这些释义词元稍作调整。在当代词典编纂中,这一方法已成主导趋势。2000年出版的《牛津高阶英语学习词典》(Oxford Advanced Learner’s Dictionary,第6版)采用3 000基本释义词元,2002 年出版的《麦克米伦高阶英语词典》(Macmillan English Dictionary for Advanced Learners)采用2 500个基本释义词元。同样,1995年版的基于英语语料库The Bank of English编纂的《柯林斯COBUILD英语词典》,也采用2 000多个常用词元解释了75 000个词条。
(1)元语言释义词典的先河
使用有限词汇进行词典释义的做法,最早依旧可以追溯到20世纪30年代奥格登和瑞恰兹的“基础英语”。为配合基础英语的系统学习,从1932年起,奥格登开始用限定词汇进行词典释义。他编成的《基础英语词典》(The Basic Dictionary)收录25 000个常用词,但释义词就只有这850个基础英语词汇。例如:disembark(下船)用get off a ship来释义。他还利用同形词组的不同搭配义表示不同的含义。以put in为例:
interject(插话) = put (a word) in
render(归还) = put (an account) in
infuse(注入) = put (the water) in
plant(种植) = put (a seed) in (the earth)
不同的组合赋予了put in多种不同含义,而其基本含义“把……放入”则保持不变。这种使用有限词汇的组合进行释义的做法开创了元语言释义词典编纂的先河。尽管后来该字典没有广为流传,但编纂者利用限量词汇释义的理念却被后人继承下来。
(2)备受推崇的《朗文》释义
《朗文》词典堪称定量释义的典范,自1978年采用2 000多个释义词汇以来,该传统一直沿用至今,虽然不同版本的释义词汇选择会有所变化,但释义词元数量一直保持在2 000左右。
《朗文》的释义词表是从West《通用词表》(1953)发展而来的,其最新版本(2003)的释义词共有2 051个,包括常用词组16个,列出如下:
according to (根据) deal with (处理)
find out (发现) let go of (放开)
lie down (躺下) look for (寻找)
look sth. up (查阅) look after (照顾)
make into (制成) make up (构成)
no one (没有人) only just (恰好)
as opposed to (与……相对) relating to (有关)
in spite of (尽管) upside down (颠倒)
此外,释义词表还包括前后缀30个:
-able -ed -ical ir- -less re- -al -ence im- -ish -ly
-self -ance -er in- -ith -ment -th -action -ful -ing
-ive -ness un- dis- -ic -ion -ize non- -y
与《通用词表》相比,两者有约85%的词汇在词根上是一致的,但因为两者的编写初衷不同,也必然存在差异。《通用词表》主要是为英语教学和教材编写提供基本词汇大纲,在义项选择上不可避免存在冗余。在高频词中存在很多近义词,如果多个近义词只保留一个,必然会给语言学习和使用带来麻烦。因此“教学词表”在词汇的常用性、完整性和适度性方面往往难以达到平衡。然而,作为释义词表,这些问题就容易得到解决。如果有多个常用的多义词可供选择,释义词表可以选取最常用或用法最多的一个,因为释义词表是为满足释义的需要。在释义过程中,释义词如有缺漏则可及时增补,从而保证了释义词表的语义完整。
《朗文》释义词表删除了《通用词表》中的460多个词,被删除的词汇有三分之二在《英国国家语料库》(1995 年)的2 500个常用词之外。删除的词汇主要是因为可被更简单的词汇代替。这部分词有动词、形容词和抽象名词。例如,动词explore(探测,探究)可以由examine或search代替;形容词miserable(可怜的,不幸的)可由poor、unhappy代替;名词mercy(仁慈,怜悯)可由sympathy或pity替换。这类词还包括:immense(巨大的),overflow(溢出),overcome(克服),roar(吼叫),review(复习),underneath(在下面),unity(联合),yield(屈服),wipe(擦),sacrifice(牺牲),puzzle(迷惑),observe(观察),refresh(使精神振作),rejoice(高兴),scarce(缺乏),modest(谦虚),interfere(干涉),exces(s过度),despai(r绝望),disagree(不同意),disappear(消失),disapprove(不赞成),conquer(征服),propose(提议),punctual(准时),preach(鼓吹),resign(辞职),resist(抵制),liberty(自由),reflect(反映),manufacture(制造)等。
另外,一些词因为不具备释义能力也被排除在外,主要是一些具体名词。它们的语义域很窄,不具有概括性。如:pigeon(鸽子)、paw(爪子)、straw(稻草)、rake(耙子)、landlord(地主)、lipstick(口红)、razor(剃刀)、veil(面纱)、saw(锯子)、mill(磨坊)、saddle(鞍)、cork(软木塞)、umbrella(伞)、wax(蜡)、tray(盘子)等。这些词的词频,通常排在2 500个词之后。
除了删除了部分词以外,朗文释义词表还增加了约250个词。主要有以下几类:
第一类是语法类用词,如:abbreviation(缩略词)、adjective(形容词)、adverb(副词)、consonan(t辅音)、tense(时态)、participle(分词)、singular(单数)、phrase(短语)等,这一类词是释义词表特有的。
第二类为国际上常用的长度、体积、容积、质量、钱币等的计量单位,如:meter(米)、centimeter(厘米)、gram(克)、kilogram(千克)、kilometer(公里)、liter(公升)、pence(便士)等。
第三类是没被《通用词表》收录的而在《英国国家语料库》中排在前2 500位的高频词,如:means(手段)、adult(成人)、sex(性)、remove(除去)、job(工作)、style(风格)、final(最终的)、area(地区)、period(时期)、computer(电脑)、television(电视)、economic(经济的)、environment(环境)、sum(总数)、team(队)、process(过程)、energy(能量)、method(方法)、legal(法律的)等。
第四类为常见物质类、科技类、军事类名词及其相关形容词,如:glue(胶水)、sticky(粘稠的)、plastic(塑料的)、transparent(透明的)、oxygen(氧气)、cell(细胞)、mathematics(数学)、chemistry(化学)、technology(科技)、bullet(子弹)、bomb(炸弹)、aircraft(太空船)等。
最后一类为其他具有释义功能的词,通常是容易与其他物品或名称建立关联的词和概括性的范畴类名词。如onion(洋葱)尽管意思非常具体,但它在西餐中是很多食品不可缺少的原料,在解释这类食品时往往会用到这个词汇。其他如:tennis(网球)、concert(音乐会)、theatre(剧院)、toilet(厕所)、trousers(裤子)、boot(靴子)、gasoline(汽油)、potato(马铃薯)、cigarette(香烟)等,概括性词汇如:vegetable(蔬菜)、traffic(交通)、goods(货物)、vehicle(车辆)、drug(药品)、等。
第四、第五类充分反映了释义词表与教学词表的明显差别,前者作为释义词汇,对语义域的要求更为严格,因为词典释义会涉及到所有可能的语义域,不可避免需要包含百科知识,而以词频统计为基础的教学词表在语义域覆盖范围的完整性方面会存在一些欠缺,因为百科类词汇一般不会非常频繁地被使用。
2. 汉语释义词元的提取
(1)历史及发展
与英语的释义词元研究相比,汉语的释义词元研究略显滞后。国内对汉字的计量研究起步较早,20世纪20年代,陈鹤琴就开始用手工方法统计汉字字频(刘英林、宋绍周,1992)。对汉语词汇进行较大规模的计量研究,大多数开始于20世纪80年代以后,出版了不少词表和频率词典。但是总的说来,汉语词典还没有采用受限释义词元的做法。《现汉》是公认权威的语文规范词典,虽然释义体例和释义语言比较注意总体统一规范,但释义性词语数量还没有从总体上给予控制(安华林,2004)。有研究表明,《现汉》共收字、词6万余条,而所用释义性词语总数达36 000多个、占被释字头、词目总数的一半以上。说明《现汉》释义用词庞杂,沿用的是传统随机释义法,没有考虑释义性词语量的总体控制,导致一些词的释义晦涩难懂(安华林,2004)。
尽管如此,汉语界的学者已经日益关注词典的定量释义。清华大学计算机系智能技术与系统国家重点实验室的张津、黄昌宁二位于1996年提出了国家自然科学基金重点项目研究报告《从单语词典中获取定义原语方法的研究及现代汉语定义原语的获取》,这是汉语学界第一份关于汉语释义词元研究的报告。他们的做法是以有完整释义的汉语词典为封闭材料,通过数学模式来计算释义词与被释词之间的语义关系,从而得出最低数的释义词语,形成了含3 857条词的释义词元集。但是该释义系统存在明显不足,苏新春(2003)指出了该研究的四大问题:1. 以《同义词词林》作为义类标码参照系可以,但“定义原语”的有无以之作比较对象则大而无当。2.“定义原语”资格的可疑。3.“定义原语”中专有名词过多,名词总量高达2 865条。4. 最突出的是提取出来的“定义原语”信度不高,里面存在大量不可能承担释义功能的词。此外,苏新春也致力于《现汉》词汇计量研究,他侧重于《现汉》所收词目的多角度分类统计分析,其成果已经出版专著《汉语释义元语言研究》(2005)。
(2)理论指导及实践
李葆嘉和安华林在汉语释义词元研究方面所作的开创性的探索。2001年,在“全国汉语词汇规范问题学术研讨”会上,李葆嘉、安华林在其合作的论文《现代汉语元语言系统研究和汉语词汇规范》中指出,近年来出版的汉语词汇学、语义学和词典学论著,几乎没有涉及汉语元语言专门性研究,汉语词典依然沿着自发性和传承性的随机释义法轨道滑行。李葆嘉指出,汉语词典学、词汇学、语义学以及中文信息处理等领域,多年来之所以难以出现重大突破,其表层原因在于尚未对现代汉语元语言系统这一基础性工作进行深入研究,其深层原因在于没有跨入元语言理论和研究方法这一领域进行创造性探索。基于这一认识,他提出现代汉语元语言系统研究的总体构想,设计了原创性的理论框架和可行性的操作程序。元语言系统是一个潜在性语义网络,只有通过对自然语言的计量分析和采取逐层抽象提取法得出。现代汉语元语言系统研究可以分为词汇元语言、释义元语言和析义元语言三个层面进行。这一研究的基础性工作就是对日常会话的跟踪性调查统计和对辞书释义性词语的计量分析(李葆嘉,2002;安华林,2004)。
在该理论原则的指导下,李葆嘉和安华林对现代汉语释义元语言进行了系统的研究,目前已经提取2 800余个释义词汇,经验证,可以满足一定范围内词语释义的要求。这一研究目前已经出版专著《现代汉语释义基元词研究》(安华林,2005)。该研究使用的基本材料是《现汉》。使用的比对材料包括五种词表:《现代汉语三千常用词表》,《普通话三千常用词表(增订本)》,《汉语词汇的统计与分析》,《现代汉语频率词典·生活口语中前4 000个高频词词表》和《汉语水平词汇和汉字等级大纲(修订本)》。为方便释义用词统计,首先制作《现汉》电子文本,然后分以下七个步骤进行:
第一步,《现汉》释义性词语的统计分级。第二步,利用五种比对材料的共现词制订《现代汉语受限词汇词表》,收词1 400余个。第三步,初步提取1 900个释义基元词。第四步,释义初步调整释义基元词,归并词形,汰除冗余。第五步,释义验证,检验效度,增补缺漏。第六步,释义基元词的系统优化。利用同义、反义、类义等语义关系,在最小义场内对释义基元词进一步增删调整,力求系统整体优化,最终确定2 800余个释义基元词。第七步,释义基元词的体系建构。对所有释义基元词进行词汇等级划分,并最后建构义类层级体系。
通过英汉释义词元提取过程的比照,不难看出英汉释义词元的共同特点:
其一,常用性 《朗文》和《现汉》的读者群是大众,这就要求释义词元必须是通俗易懂的词语。如果释义词元生僻晦涩,必然增加释义理解的困难,导致释义的功能的削弱。《朗文》的释义词元主要来自以高频词为基础的教学《通用词表》,《现汉》释义词元在提取过程中,同样参考了常用词表和高频词表,这都说明了释义词元主要选自常用词汇或高频词汇。
其二,周遍性 释义词元系统必须具有一定的语义覆盖面。通常的语文词典所收词汇涉及各个领域,涉及各种文体。要保证释义的明确性和周边性,一些并不常用的专门词汇也可能成为释义词元。《朗文》专门增加了语法类、科技类、物质类等词元,就是为了使释义词元系统能够覆盖各类百科知识的释义。汉语释义词元在常用词的基础上也增补了近900个词,其中包括语法类和百科类的词。如:宾语、代词、斑纹、把手、笔画、哺乳、厨房、醋、底片、痘、发酵、脊椎等。
其三,适度性 目前英语词典的释义词元规模都在2 000—3 000左右,现代汉语的释义词元规模也控制在这一范围内。规模的适度性要求释义词元在周遍性的基础上删除冗余,合并同义,使释义词元的数量得到有效控制。但是词典释义词元的趋简化与释义的明确易懂之间存在函数关系,如何处理好这一关系,需要不断验证和优化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。