语言研究新视野
大连海事大学 王 芳 中国汽车技术研究中心 李 君 东北财经大学 叶春萌
词表是指一种语言或其语域最基本、最重要的词汇,一般作为语言教学的基础,或者用于编写语言教学材料(Richards et al., 2000)。英语词表是英语教学的一个重要组成部分,它对学习者应掌握的词汇提出了基本要求。但有些词表由于所依据的素材年代久远,其通用性和实用性受到质疑。计量语言学家对语篇覆盖率有深入研究,但对词表的语篇覆盖率却鲜有涉猎。英语词表的覆盖率研究对语言教学或教材编写具有重要意义。文章拟从现代英语中的语篇覆盖率层面,参照大学英语四、六级词汇表,对两个经典词表,即桑代克《教师词表30 000词》(Thorndike,1944)和威斯特《通用英语词汇一览表》(West,1953)进行量化分析,探讨其在语言变化中的词汇特征。
2.1 经典词表
20世纪以来,从事语言教学研究的教育学家、心理学家和语言学家通过词频统计,编制了各种教学词表,例如《基本英语单词表》(Ogden, 1930)、《教师词表30 000词》(Thorndike,1944)、《通用英语词汇一览表》(West,1953)、《当代美国英语的计算分析》(Kucera & Francis,1967)、《美国传统英语词频手册》(Carroll etal., 1971)、《牛津高阶英语词典》 (Hornby, 1974)、《剑桥英语词汇册》(Hindmarsh, 1980)、《新学术词汇表》(Coxhead, 2000:213-238),以及我国大学英语四、六级词汇表等。其中,桑代克《教师词表30 000词》和威斯特《通用英语词汇一览表》最为权威(Nation,1997)。《教师词表30 000词》以词频统计著称,词表依据词频制定;《通用英语词汇一览表》也附有词频以及词义在文本中所占的比例。
2.2 桑代克《教师词表30 000词》
20世纪20年代,词频统计和教学词表编制都是手工完成。1921年,桑代克出版《教师词表》,收词10 000条;1932年补充到20 000词;1944年与欧文·洛奇合作将词表扩充到30 000词,即《教师词表30 000词》。该词表从1800万词的书面语文本中提取(Goulden et al., 1990:361-363),主要包括青少年读物、教科书、《圣经》、经典名著四个方面。《教师词表30 000词》分两部分,即每百万词中至少频次为1的词表和每400万词中频次至少为1、但没有达到每百万词中频次为1的词表。据统计,每百万词中至少频次为1的词有19 440个,频次小于1但在1800万词中频次大于4的词有9202个,另有1358个词在1800万词中频次为4,共计30 000词。
2.3 威斯特《通用英语词汇一览表》
《通用英语词汇一览表》以《词汇选择临时报告》(Lorge,1937:65-77)为基础,对以英语为第二语言或外语的学习者使用的500万词文本进行统计之后编制(Coxhead,2000:213-238)。该词表包括2 000个词,其中有165个功能词,如a,some,two,because,to,其余为实义词,即名词、动词、形容词、副词等(Nation,2001)。每个词都标有它在500万词文本中的词频、词义和用法及其所占比例。如:gain在500万词文本中的词频为1162,作为动词有三个词义,即obtain more(用法如gain strength/time/friends),get money(用法如He gained £100 by the deal)和get a victory(用法如gain the top of the hill, 4%; gain ground, 1%; gain upon, 1%……),所占比例分别为39%、16%和9%。作为名词与动词词义相同(用法如The gain is greater than the loss;count his gains;greedy of gain),所占比例为28%。
2.4 语篇覆盖率
语篇覆盖率(text coverage)是指某一词表中的词汇在一个文本中的累积频次与该文本单词总数的比率。语篇覆盖率研究有多种视角,例如,词汇量的大小与语篇覆盖的关系(Engels,1968:213-231; Liu & Nation,1985:3-12; Hirsh & Nation, 1992:689-696; Nation & Waring, 1997)、语篇覆盖与阅读理解的关系(Laufer & Ravenhorst-Kalovski, 2010:15-30; Schmitt et al., 2011:26-43)、语篇长度与词汇量大小和语篇覆盖率的恒定性(Chujo & Utiyama, 2005:1-22; Fan, 2013:288-300)等。这些研究的主要结论是读者的词汇量必须覆盖语篇单词总数的95%才能进行有效阅读(Fan, 2013:288-300)。
3.1 研究问题
通过对桑代克《教师词表30 000词》(以下简称TWB)和威斯特《通用英语词汇一览表》(以下简称GEW)在现代英语中的量化特征分析,探讨两个经典词表在现代英语中的语篇覆盖率特点,以及在语言变化中两个经典词表的词汇特征。
3.2 数据来源及研究方法
该研究采用了英国国家语料库(以下简称BNC)和上海交通大学学术英语语料库(以下简称JDEST),分别代表现代普通英语和现代综合科技英语。BNC是国外具有代表性的现代英语语料库,汇集1亿词次,其中包含口语语料1000万词及书面语语料9000万词,内容涵盖应用科学、艺术、自然科学、商务、社会科学等领域。JDEST是我国首批建成的含100万词的当代英语语料库,包括文科、理科、工科和生物医学领域,选自期刊、教科书、专著、论文、科普读物、文摘以及手册、书评和新闻报道等(杨惠中, 2002)。
该研究选用FoxPro9.0 程序作为语料分析及处理工具。从BNC和JDEST中分别提取100万词的随机样本作为样本库,其中各包括500篇长度为2000单词的文本,分别去除样本库文本中的编码和标记以获取纯文本,并对文本进行断词和削尾处理以获取样本的词频。同时,运用FoxPro9.0 程序计算语篇覆盖率以及提取覆盖词和未覆盖词。为了研究词表在两个样本库中的语篇覆盖率差异,文章运用SPSS17.0统计软件进行方差分析检验来检测其差异显著性。
为了对比分析,该研究还计算和分析了大学英语四、六级词汇表 (以下简称CETW) 在两个样本中的相关数据。大学英语四、六级词汇表依据教育部高等教育司最新版《大学英语课程教学要求(教学大纲)》(2007)规定的一般要求词汇4795个和较高要求词汇6395个。此外,通过对桑代克词表进行词形归并,该研究中TWB的实际类符为28 816个,GEW的类符为2000个。
4.1 语篇覆盖率
通过运行FoxPro9.0程序,分别得出TWB、GEW和CETW对从BNC和JDEST书面语随机抽取的500个语篇的单篇覆盖率数据,结果如表1、表2所示。
表1 TWB、GEW和CETW对BNC的单篇覆盖
表1数据显示,TWB、GEW和CETW对BNC 500个语篇的平均覆盖率分别为94.27%、76.00%、89.76%,其中TWB平均覆盖率最大,GEW最小。TWB和CETW对BNC部分语篇覆盖率超过95%,即达到词汇量覆盖语篇单词总数的95%,才能读懂这些文章的要求。GEW对BNC最大单篇覆盖率仅为90.63%,没有达到标准。
表2 TWB、GEW和CETW对JDEST的单篇覆盖率
表2数据显示,TWB、GEW和CETW对JDEST的500个语篇的平均覆盖率分别为90.93%、70.21%、87.15%。三个词表中只有TWB对JDEST部分语篇覆盖率超过95%,达到理解这些文章的最低词汇量要求。TWB和GEW虽然在BNC和JDEST中的平均覆盖率都小于95%,但仍旧覆盖至少70%以上。
在500篇长度为2000单词的100万词文本中,频次最高的1000个单词对所有语篇的覆盖率为72.0%;频次最高的2000个单词的覆盖率为79.7%;15 851个单词的覆盖率为97.87%(Francis & Kucera, 1982)。该研究中GEW包括2000个单词,在BNC和JDEST中的平均覆盖率分别为76.00%和70.21%,都低于79.7%。此外,由于TWB对BNC和JDEST的平均覆盖率分别为94.27%和90.93%,都低于Francis有关15 851个单词覆盖率为97.87%的研究结果。TWB对BNC和JDEST的最大单篇覆盖率为97.57%和96.87%,也都低于97.87%,然而却高于词汇量必须达到最低覆盖语篇单词总数的95%,才能达到有效阅读的标准。GEW对BNC和JDEST的最大单篇覆盖率分别为90.63%和82.76%,未达到95%的最低覆盖率标准。该研究结果与Hirsh(1993)和Engels(1968)关于GEW对任何语篇的覆盖率都低于95%的论述相同。
为检测TWB、GEW和CETW对BNC和JDEST的单篇覆盖率是否在95%的置信区间有显著区别,分别进行了显著水平的方差检验,结果如表3、表4所示。
表3 TWB、GEW和CETW对BNC的平均覆盖率比较方差检验
表4 TWB、GEW和CETW对JDEST的平均覆盖率比较方差检验
由表3和表4可知,方差检验结果中P值都小于0.05,这表明三个词表对BNC和JDEST的平均覆盖率差异显著。
4.2 覆盖词
语料库中词频排在前50~100的高频词占该语料库所有类符的50%左右(Kennedy,1998)。运用计算机程序,该研究还获取了三个词表在两个语料库中的覆盖词及其频数。按频数高低进行排序,并对频数位列前50的覆盖词进行分析。首先,在TWB、GEW和CETW对BNC覆盖词频数最高的50个词中,三个词表共同词汇有46个,即the, be, of, to,and, a, in, have, that, for, it, on, with, as, not, he, by, will, I, at, from, you, but, do, or, they, which, she, say, there, one, we, all, can, if, make, more, when, who, so, out, no, up, what, other, time;TWB和CETW的前50个词完全相同,即除了上述46个词之外,还有4个词,即 his、 her、 their、 its;GEW不同于TWB和CETW的4个词是some、 about、 use、 year。其次,在TWB、GEW和CETW对JDEST覆盖词频数最高的50个词中,三个词表共同词汇也有46个,即 the, be, of, a, and, to, in, for, that, by, as, with, have, this, on, it, or, at, which, from, can, system, not, will, these, one, may, but, more, time, such, other, if, show, high, than, when, make, also, we, material, ass, result, some, into, control; TWB和GEW有共同词汇47个,即除上述46个词之外,还有they;TWB和CETW共同词汇有49个,即除了上述46个词外,还有design, two, its;GEW不同于TWB和CETW的3个词是only, temperature, do。
可见,三个词表分别对BNC和JDEST覆盖词频数最高的50个词几乎相同,主要为限定词(determiners, 如the, a, that, this, one, these, its, his, her, their, some, two, only)、助动词(auxiliaries, 如be, have, will, do, can, may)、介词(prepositions, 如to, of, in, for, on, with, from, at, by, into, about)、连词(conjunctions, 如and, but, as, if, or, when, than)、代词(pronouns, 如it, they, all, we, other, which, what)。由于限定词、助动词、介词、连词和代词属于功能词(function words)(Biber et al., 2000),因此三个词表分别在两个语料库中覆盖词频数最高的50个词大多是功能词,而且几乎相同。这表明:功能词在词汇变化中始终作为高频词;英语为形合语言,语句的构建、篇章的衔接与连贯都依赖功能词。此外,在三个词表分别对BNC和JDEST覆盖词频数最高的50个词中,有一部分是实义词(content words),如say, make, use, year, time, system, design, show, high, material, result, control。这些实义词是英语中的常用词汇,在语言发展中一直是核心词。
4.3 三个词表的词汇比较
运用FoxPro9.0 程序,得出TWB和CETW、GEW和CETW之间的共同词汇和非共同词汇。如图1、图2所示。
图1 TWB和CETW之间的共同词汇和非共同词汇
图2 GEW和CETW之间的共同词汇和非共同词汇
图1所示,TWB(28 816个单词)和CETW(6395个单词)的共同词汇有6337个,占CETW的99.09%,TWB的21.99%。只有58个CETW词汇没有出现在TWB中,这些单词是Asian, astronaut, badly, by-pass, cassette, computer, delete, digital, dorm, ecology, electronic, expertise, fax, feedback, format, fridge, gene, global, guideline, haircut, hi, highlight, input, laser, Marxist, maths, computer, minimal, motel, nonetheless, nylon, operational, panda, parameter, pipeline, quantify, quiz, radar, radioactive, recycle, reflexion, robot, semiconductor, smog, software, spacecraft, spaceship, spatial, stereo, supermarket, supersonic, teenager, transistor, update, upgrade, upside-down, video, volleyball。可见,大多数只出现在大学英语四、六级词汇中的单词属于科技英语,常用于近几十年飞速发展的领域,如航天航空、计算机科学、电子技术、生物遗传、环境工程等。
如图2所示,GEW(2000个单词)和CETW(6395个单词)之间的共同词汇有1912个,占GEW的95.60%、CETW的29.90%。GEW中有88个单词没有出现在CETW中,这些单词是adoption, annoyance, applause, avoidance, axe等。这88个单词包含63个名词,占71.59%。GEW通常收录名词或“形容词+词缀en”构成的动词,例如:名词adoption(adopt), annoyance(annoy), avoidance(avoid), greed(greedy), offense(offend)等;或者动词darken, deafen, fatten, flatten等。这些未覆盖词都是大学英语四、六级词汇的派生词。
以上数据显示,TWB和CETW的共同词汇占CETW99.09%,GEW和CETW的共同词汇占GEW的95.60%。这表明,两个经典词表虽然年代久远,与大学英语四、六级词汇表相隔半个多世纪,但核心词汇没有明显变化。
该研究从现代英语中的语篇覆盖层面,比照CETW,对TWB和GEW进行量化分析,得出如下结论:第一,TWB和GEW对BNC和JDEST的平均覆盖率均低于词汇量必须覆盖语篇单词总数的95%,经过方差检验,三个词表的平均覆盖率差异显著;第二,三个词表对BNC和JDEST覆盖词中的高频词几乎相同,主要为功能词,例如限定词、助动词、介词、连词和代词;第三,在词汇变化中,两个经典词表与现代英语中的核心词汇没有明显变化。
两个经典词表的编制虽然距今已有六七十年,其间经历了巨大的科技发展和社会变化,也产生了大量新词,然而该研究表明,英语的核心词汇基本没有变化。核心词汇在二语习得中应该作为词汇学习的重点(Blum & Levenson,1979:43-63;Carter, 1987:178-193;Laufer, 1991)。两个经典词表在现代英语教学中仍具有指导意义,在教材编写、语言测试、机器翻译等领域仍有积极作用。
□
参考文献:
[1] Biber, D., Susan, C. & R. Randi. Corpus Linguistics[M]. Beijing: Foreign Language Teaching and Research Press, 2000.
[2] Blum, S. & E. Levenston. Lexical simplification in second-language acquisition[J]. Studies inSecond Language Acquisition, 1979(2).
[3] Carroll, J.B., Davies, P. & B. Richman. The American Heritage Word Frequency Book[M]. New York: American Heritage Publishing Co., 1971.
[4] Carter, R. A. Is there a core vocabulary? Some implications for language teaching[J]. AppliedLinguistics,1987(2).
[5] Chujo, K. & M. Yutiyama. Understanding the role of text length, sample size and vocabulary size in determining text coverage[J]. Reading in a Foreign Language, 2005(17).
[6] Coxhead, A. A new academic word list[J]. TESOL Quarterly, 2000(2).
[7] Engels. L. K. The fallacy of word counts[J]. Inter-national Review of Applied Linguistics, 1968(6).
[8] Fan, F. X. Text length, vocabulary size and text coverage constancy[J].Journal of QuantitativeLinguistics, 2013(4).
[9] Francis, W. N. & H. Kucera. Frequency Analysis of Eng-lish Usage[M]. Boston: Houghton Mifflin Company, 1982.
[10] Goulden, R., Nation P. & J. Read. How large can a receptive vocabulary be?[J]. AppliedLinguistics II, 1990(4).
[11] Hindmarsh, R. Cambridge English Lexicon[M]. Cambridge: Cambridge University Press, 1980.
[12] Hirsh, D. The vocabulary demands and vocabulary learning opportunities in short novels[D]. New Zealand: Victoria University of Wellington, 1993.
[13] Hirsh, D. & P. Nation. What vocabulary size is needed to read unsimplified texts for pleasure?[J] Reading in a Foreign Language, 1992(8).
[14] Hornby, A.S. Oxford Advanced Learner’s Dictionary of Current English[M]. London: Oxford University Press, 1974.
[15] Kennedy, G. An Introduction to Corpus Linguistics[M].London:Addison Wesley, 1998.
[16] Kucera, H. & Francis, W. N. Computational Analysis of Present-day American English[M]. Rhode Island: Brown University Press, 1967.
[17] Laufer, B. How much lexis is necessary for reading comprehension?[A]. In Arnaud, P.J.L. & H. Bejoit (eds.). Vocabulary and Applied Linguistics[C]. Basingstoke: Macmillan, 1991.
[18] Laufer, B. & G. C.Ravenhorst-Kalovski. Lexical threshold revisited: Lexical text coverage, learners’ vocabulary size and reading comprehension[J]. Reading in a Foreign Language, 2010(1).
[19] Liu, N. & P. Nation. Factors affecting guessing vocabulary in context[J]. RELC Journal, 1985(1).
[20] Lorge, I. The English semantic count[J]. Teachers College Record, 1937(39).
[21] Nation, P. Learning Vocabulary in Another Language[M]. Cambridge: Cambridge University Press, 2001.[22] Nation, P. & R. Waring. Vocabulary size, text coverage and word lists[A]. In Schmitt, N. & M. McCarthy(eds.). Vocabulary: Description, Acquisition and Pedagogy[C]. Cambridge: Cambridge University Press, 1997.
[23] Ogden, C. K. Basic English: A General Introduction[M]. London: Kegan Paul, Trench and Trubner, 1930.
[24] Richards, J.C., Platt, J. & H. Platt. Longman Dictionary of Language Teaching & AppliedLinguistics[M]. Beijing: Foreign Language Teaching and Research Press, 2000.
[25] Schmitt, N., Jiang, X.& W. Grabe. The percentage of words known in a text and reading comprehension[J]. The Modern Language Journal, 2011(1).
[26] Thorndike, E.L.& I. Lorge. The Teacher’s Word Book of 30 000 Words[M]. Teachers College. Columbia: Columbia University, 1944.
[27] West, M. A General Service List of English Words[M]. London: Longman, Green & Co., 1953.
[28] 杨惠中. 语料库语言学导论[M].上海:上海外语教育出版社, 2002.
通讯地址: 116026 辽宁省大连市 大连海事大学外国语学院 (王) 300300 天津市 中国汽车技术研究中心 (李) 116023 辽宁省大连市 东北财经大学国际商务外语学院 (叶)
WANG Fang
(School of Foreign Languages, Dalian Maritime University, Dalian 116026, China)
LI Jun
(China Automotive Technology & Research Center, Tianjin 300300, China)
YE Chun-meng
(School of International Business Communications, Dongbei University of Finance and Economics,Dalian 116023, China)
Abstract:With a combination of corpus-based quantitative and qualitative methods, this study aimed to investigate Thorndike’sThe Teacher’s Wordbook of 30 000 Words and West’s General ServiceList in terms of text coverage in modern English. The results indicated that the mean text coverage of the two classic wordlists was beyond 70%, despite the fact that it failed to cover at least 95% of the words of the target text for effective reading. The two classic wordlists shared common core vocabulary with modern English, which remained stable during the course of language change.
Key words:Text Coverage; Wordlist; Corpus; Word Frequency; Core Vocabulary
*版权所有 文责自负*
中图分类号:H319.3
文献标识码:A
文章编号:1001-5795(2016)04-0079-0006
基金项目:本文为辽宁省社会科学规划基金项目“基于语料库的商务英语词汇研究”(项目编号:L13DYY034)及辽宁省高等教育学会“十二五”高校外语教学改革专项课题“数字平台下航海类大学英语自主学习过程监控和绩效研究”(课题编号:WYZD150037)的阶段性成果。
收稿日期:2016-04-10
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。