首页 理论教育 平行语料库应用于双语词典的翻译

平行语料库应用于双语词典的翻译

时间:2023-03-29 理论教育 版权反馈
【摘要】:某些源语语料如果没有现成译文,但又是语料库必不可少的,可以组织专门人员在翻译和语料库专家的指导下译为目的语。未经加工处理的语料称为生语料,它是分散的、无组织的,也被叫作“一次文献”。所有这些平行语料库的手段都非常有助于快速而有效地为双语词典找到对等语,为编纂双语词典提供全面、真实、可靠的蓝本。

6.2.3 平行语料库应用于双语词典的翻译

6.2.3.1 语料入库与加工

平行语料库选取语料时,应考虑到语料的形式、内容、风格、作者都要多样化,译文要准确、地道、对应性好。某些源语语料如果没有现成译文,但又是语料库必不可少的,可以组织专门人员在翻译和语料库专家的指导下译为目的语。(王克非,2004:234)

语料入库前需要对选取的未加工处理的语料进行标注。未经加工处理的语料称为生语料,它是分散的、无组织的,也被叫作“一次文献”。而利用一定的标志符号,按照一定的方法和原则将一次文献中的内容特征(分类、主题等)和外部特征(题目、著者、出版时间、出版地、文种等)进行标注,这类标注具有检索意义,便于查找。经过这样处理的文献称为二次文献。经程序处理(数据切分)后,语料入库完成。

6.2.3.2 利用索引技术搜索翻译等价对

平行语料库可以通过KWIC(Key Word in Context,即“要语行索引”)等手段迅速搜索语料、通过在“句对齐”的基础上进行源语(source language)与目的语(target language)各种特性的比较、并在“句对齐”的基础上在原文与译文中利用函数计算“同现概率”并自动搜索“翻译等价对”[2]以及确定对应词(吕雅娟等,2003:19)、或通过“未对齐”技术在“分量距离”和“向量距离”等数据分析的基础上进行“翻译等价对”抽取(王斌,2000:40);此外,孙乐等(2000:33)也提出了另一种从英汉平行语料库中自动抽取术语的算法:首先采用基于字符长度、改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注和切分与词性标注;统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集;然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率;最后通过设定随词频变化的阈值来选取中文翻译,在对真实语料的术语抽取实验中取得了较好的结果。所有这些平行语料库的手段都非常有助于快速而有效地为双语词典找到对等语,为编纂双语词典提供全面、真实、可靠的蓝本。

一直以来,汉英、英汉词典的编写常依据一本或几本词典为蓝本,往往互相借用,释义、例句等大同小异这已经成了公开的秘密。如“天涯”一词,许多汉英词典都给出“the end of the world”等少数几个对应词语,而平行语料库通过索引技术可以为我们提供真实的语料:“the end of the earth”或“the earth’s end,the land’s end”等。数千万甚至上亿字词的大型双语平行语料库在这方面可发挥的作用范围更宽广,对双语词典的研编是极为有益的补充。例如,以下这些从双语语料库中发现的对应汉英词语就是现有汉英词典里罕见的:

消毒      cleanse

讨伐      crusade

认证      accredite

误时      in bad time

克服      work through

社论      a leading article

标准间     twin room

散页乐谱    sheet music

趾高气扬    coxy

卧床不起    bedridden

专题研究    industry

等等。

通过对平行语料库的检索,可以迅速有效地找到大量真实的翻译等价对,如高照明在双语语料库里就收集到短语“考试(不)及格”的对应英语十多种,句子“他情绪很低落”的对应或近似的英语句子也有十多种,远远超出一般的双语词典。(高照明,2002;柯飞,2002:35)凭借大型平行语料库的资源编纂双语词典潜力很大,是今后双语词典研编的重要趋势。

6.2.3.3 利用“源语-目的语”转换增加对译语

对应词语在平行语料库里表现得极其丰富,仅靠从“英汉”向“汉英”转换就可以大大增加词语的对译(解建和等,1995:1),如:

perspire   大汗淋漓 → 大汗淋漓  perspire

brainstealer 剽窃者  → 剽窃者   brainstealer

tinge    着色(于) → 着色(于)  tinge

ostentatious 华而不实 → 华而不实  ostentatious

coze     聊天   → 聊天    coze

在适当软件的帮助下,在短时间内、仅需简单的操作就可以基于英汉词典蓝本生成汉英词典的蓝本,不仅便于丰富对译词,而且还可以增设被以往汉英词典遗漏的、但是在实际应用中常见的词目,如“来宾签名簿”(visiting book)、“嘿哟嘿哟”(heave-ho)、“痕量元素”(trace element)等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈