首页 理论教育 日语语料库的构建

日语语料库的构建

时间:2023-04-08 理论教育 版权反馈
【摘要】:在语言研究中,语料库的方法是一种经验的方法,它能提供大量的自然语言材料,有助于研究者根据语言的实际得出客观的结论。语料库语言学是在语料库的基础上对语言进行分析和研究的科学。然而,在我国,由于受到各方面条件的制约,日语学习者语料库的建设迟迟得不到应有的发展。

在语言研究中,语料库的方法是一种经验的方法,它能提供大量的自然语言材料,有助于研究者根据语言的实际得出客观的结论。那么什么是语料库?学术界对这个问题的回答有着不同的表述,例如:

(1)语料库是指按照一定的语言学原则,利用随机抽样的方法收集的、有代表性的语言材料的总汇,它是语言运用的样本。

(2)语料库通常指为语言研究收集的,具有一定容量的大型电子文本语料库。语料库是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。

语料库语言学是在语料库的基础上对语言进行分析和研究的科学。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。从现有的文献看,语料库语言学更多的是作为一种研究手段,借助索引工具对大量自然发生的语料进行统计分析,并可以得出某些语言特征频率上的特点。不同文体中词汇和语法等语言特征的出现频率不同,而频率的不同能够直接反映出各种文体之间的差异。因此,利用语料库对语言变异现象的研究以及对文本的文体分析研究是颇有价值的。

一、语料库构建的背景

学习者语料库是指经过计算机处理的外语学习者口语与书面语的文本数据库。20世纪80年代,随着计算机技术和二语习得研究的迅速发展催生了这一特殊用途的语料库。基于学习者语料库的二语习得研究,不仅可以为研究学习者的习得过程、自主学习以及教学大纲的制定、教材编写、课堂教学的设计、学习词典的开发、语言测试提供重要的数据和反馈,而且更重要的是,从根本上拓宽了实证研究的方法视野,为外语教学研究提供了一种新的哲学思维方式。[1]

日语学习者语料库的研制工作在日本起步较早,目前在日本已建立多个学习者口语和书面语语料库,取得了令人瞩目的成绩。这些语料库有力地推动了日语二语习得研究的发展,并为学习者语料库的建设积累了宝贵的经验。

然而,在我国,由于受到各方面条件的制约,日语学习者语料库的建设迟迟得不到应有的发展。虽然通过国内学者的多年努力,已经有了自己开发的中国日语学习者语料库(CLJC),但是数量极少,难以满足二语习得和日语教学研究的需要。

二、构建语料库的目的

语料库指的是储存各种类型文章的大型文字仓库。我们可以根据各种需要对语料库里储存的语言信息进行各种各样的检索,抽取所需要的信息。

过去,收集和查找例句的方法主要有两种:一种方法是制作卡片,然后将卡片按照所需的分类标准进行排列,以供查询。另一种方法是根据某种需要在报纸书籍等中寻找例句,然后将所需的例句抄写在本子上。前者受存放场所和时间的限制,能够收集的信息非常有限,制作和查找方法十分繁琐。后者受研究对象的制约,研究对象发生变化,例句就必须重新寻找,费时费力。二者都很不经济,特别是因为受到容量的限制,所收集的信息涵盖面窄,很难进行量化统计。

为了克服上述两种方法的短处,几十年来,研究者们一直在研制和开发语料库上下工夫。有了语料库就可以不受时间、场所和容量的限制,随时根据各种需要检索到所需的例句,以供学习和研究使用。

语料库大致可以分为两大类:一类是无标签语料库;另一类是有标签语料库。无标签语料库指的是没有对构句成分加注任何标记的语料库,有标签语料库指的是对构句成分加注各类所需信息标记的语料库。

现在,除了一小部分偏误语料库外,大多数语料库都是无标签语料库。这类语料库中,有专业语料库,也有业余语料库。专业语料库指的是有编程专家参与制作并具备各类复杂性检索功能的语料库,业余语料库指的是非编程专家制作,只能进行有限的复杂性检索的语料库。

专业语料库不仅可以抽取某个词汇实际使用的例句,而且还可以抽取各种句式与各类构句成分之间的搭配用法的例句,同时对出处、作者性别、作品的体裁、作品的发表时间等加以限定,业余语料库除了不能自由地抽取句式与各类构句成分之间的搭配用法的例句外,其他功能基本上与专业语料库相同。

学会制作语料库,可以不受时间和上网条件等限制,根据各种需要随时进行检索,快速获取大量的例句。学会给例句加注标签,制作带标签的语料库,可以从根本上解决面对大量例句而束手无策的问题,提高发现规则的速度和精度。

[1] 王立非等:《国内外英语学习者语料库的发展:现状与方法》,载《外语电化教学》,2005(10), 23。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈