5.1.3 上海东华大学科技英语语料库
东华大学科技英语语料库(Dong Hua University English for Science and Technology Corpus,DHEST Corpus)是东华大学外语学院张继东和赵晓临两位老师主持的2009年度教育部人文社会科学规划项目《科技文本中实词基形和屈折变形的搭配异质性研究》(编号09YJA740019)的部分内容。该语料库包括三个子库:专业科技英语(学术论文类)、通用科技英语和纺织类科技英语。由于本文主要是利用DHEST语料库中的通用科技英语子库进行学术研究,所以以下的介绍内容主要是针对该子库所做的说明。
DHEST语料库子库,即《通用科技英语》是按照中国国家图书馆的图书分类方式进行分类,语料是从英语国家的门户网站下载的文本材料,涉及自然科学总论(N)、数理科学与化学(O)、生物科学(Q)、医药卫生(R)、农业科学(S)、自动化与计算机技术(TP)、化学工业(TQ)、工业技术(T-TN)、建筑科学(TU)、水利工程(TV)、交通运输(U)、航天航空(V)、环境科学与安全科学(X)等13个具有代表性的科技专业。每个专业目录收集100篇文章。该语料库由1300篇文章构成,具有语料的代表性(见表5.4)。
表5.4 DHEST语料库中专业学科分类和所占比例
语料库中的每个语料单元都有各自的检索码,用户可以通过检索码从不同的角度选用自己所需的语料。如果需要研究不同专业的文献在词汇上的差异,就可以让计算机自动对例如Q为代码的生物科学语料与以R为代码的医药卫生语料进行对比分析。
DHEST语料库建成后,我们既可以对传统的词表制定、教材编写、课件开发、词典编纂等方面提供语料检索、词汇搭配和主题词等基本的信息。在完成语言的共性特征研究的同时,我们还可以借助DHEST语料库对科技英语中的同义词或近义词的词汇异质性、基于词形的科技英语实词搭配的异质性、相同词形的次技术词在通用英语和科技英语中所突显的不同词汇概念意义的甄别、英语医学学术论文引言中的搭配框和搭配词在构建语篇及实现语步交际功能中的作用等方面的内容进行有针对性的研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。