中国大陆语文教材与马来西亚华文教材的用字比较——以小学1—3年级为例
中国大陆语文教材与马来西亚华文教材的用字比较[1]——以小学1—3年级为例
郭曙纶 上海交通大学国际教育学院
刘香伦 玛拉工艺大学语言中心
郭建平 江西省遂川县草林中学
【摘 要】 本文对比统计了一年级至三年级的中国大陆语文教材和马来西亚华文教材用字情况。统计表明:语文教材文本总长度远大于华文教材,用字总量比华文教材多,两套教材相同用字占语文教材的一半不到,却占了华文教材的大部分;低频字的绝对数是语文教材高,而相对数则是华文教材高;只出现在一个年级的汉字占了相当大的比例,语文教材中是三分之一多,华文教材中是近一半。
【关键词】 中国大陆语文教材;马来西亚华文教材;母语教材;教材用字;高频字;低频字;分布率;覆盖率
一、引 言
自从国家语言资源监测与研究中心教育教材语言分中心成立以来,教材语言的研究越来越受到人们的关注。
教材语言的研究可以是多方面的,有的分析重点字词、关键词句的使用对于课文内容表达的重要性,有的从总体上讨论教材语言的性质,也有的关注教材用字的数量。本文讨论的对象是作为母语学习的汉语教材的用字情况,我们希望通过统计比较,发现中外汉语母语教材用字的异同,以便为探讨母语识字教学提供参考。
二、教材版本说明
本文比较的是一年级至三年级的中国大陆语文教材和马来西亚华文教材用字的情况。之所以选择一年级至三年级,是因为考虑到在中国大陆基本上是把识字教学安排在一年级至三年级进行。
中国大陆语文教材(以下简称“语文教材”)我们选用的是国内比较有代表性的人民教育出版社义务教育课程标准教科书一年级至三年级的语文教材,第一、二、三册是2001年出版,第四册是2002年出版,第五、六册是2003年出版。我们统计的是标有课文序号的课文用字,没有包括专门用于识字的课文以及后面另外编号的选读课文。
马来西亚华文教材(以下简称“华文教材”)我们选用的是马来西亚比较有代表性的Penerbitan Pelangi 2003年出版的一年级华文教材、Sasbadi 2003年出版的二年级华文教材和Malaya Press 2004年出版的三年级华文教材。它们虽然是不同的出版社出版,但是是作为一个版本使用的。现在在马来西亚,小学一年级至三年级每星期各上10节华文课,每节课30分钟。一学年上课约为40周,学生一年学习华语时间约为200小时。马来西亚华校生是以母语的形式学习华语。
语文教材与华文教材,都是以母语的形式学习,因此二者具有一定的可比性,由于华文教材有的是一个年级一册书,也有的是分为上、下两册的,为便于比较,我们统一以年级为单位进行统计与比较。
三、教材用字总体情况比较统计与分析
为了对两套教材用字有个总的印象,我们先把两套教材用字的总体情况进行了统计,以期首先从总体上把握两套教材的用字情况。
1.一年级至三年级
下面是这两套教材的总体情况。
表1 两套教材总体情况表
续 表
说明:“字数”即为“字种数”,以下同。
分析:
从AAc格(即第AA行c列)数据可以知道,包括标点符号在内,语文教材的总字次数是华文教材的3.89倍。为了简化,也因为我们主要关注教材用字的比较,所以后面的数据都是不包含标点符号在内的。
从总体规模(A行数据)上可以看出,语文教材文本总长度远大于华文教材(3.91倍),用字总量也是语文教材比华文教材多(1.87倍)。这一点在分年级的统计中也是差不多的,只是数据大小有些差别,总体趋势是一样的。后面的讨论中就不再提及了。
而在低频字(只出现1次或2次的字)的使用方面,绝对数是语文教材高(高40%多),而相对数则是华文教材高(占总字次数高170%多,占总字数高30%多)。值得注意的是,语文教材低频字占总字数的比率是30.89%,而华文教材则是40.25%。
就覆盖率而言,从25%到99.999%,二者的比率是从0.91逐步上升到1.87,显现出较有规律的增长趋势。这或许体现了语料库规模大小对于覆盖率使用汉字数的影响。这一点在分年级的数据统计中也是差不多的,后面不再讨论。
接下来,我们再分年级从总体上来比较两套教材的用字情况。
(1)一年级
先看一年级的情况。
表2 两套教材总体情况表(一年级)
分析:
在低频字的使用方面,一年级语文教材显得特别突出,占了总字数49.54%的低频字仅占总字次数7.85%,而华文教材中,占总字数38.63%的低频字却占了总字次数的8.33%。这里的数据与前面讨论过的一年级至三年级教材用字的情况不同:前面的数据是华文教材比率低于语文教材,而这里则是相反。这说明一年级语文教材用字中低频字太多,即编者没有注意到这些字的复现率太低了。
在覆盖率方面,二者的比率也比一年级至三年级总体情况的数据要高一些。
(2)二年级
接下来看二年级的情况。
表3 两套教材总体情况表(二年级)
续 表
分析:
在低频字的使用方面,二年级华文教材显得特别突出,低频字占了总字数的49.16%,占了总字次数的10.85%,而语文教材中,低频字占总字数的41.39%,占总字次数的5.07%。两相比较,虽然由于二者规模相差较大,华文教材占总字次数的百分比还较高,但其占总字数的百分比却接近50%,比语文教材高了近20%。这说明二年级华文教材用字中低频字太多。
(3)三年级
最后来看三年级的情况。
表4 两套教材总体情况表
续 表
分析:
在低频字的使用方面,三年级与二年级的情况基本相似:华文教材显得特别突出,低频字占了总字数的49.04%,占了总字次数的10.77%,而语文教材中,低频字占总字数的39.41%,占总字次数的4.02%。华文教材占总字数的百分比接近50%,比语文教材高了24%。这说明,跟二年级的情况相比,三年级华文教材用字中低频字比例比语文教材又有所提高。
四、教材用字分布率比较统计与分析
如果把一个年级的所有课文放在一个文件当中,那么我们就可以比较一下哪些汉字在哪几个年级出现了,出现在所有年级的汉字有哪些,又有多少汉字只出现在一个年级当中。这也可以说是一种分布率的统计。
表5 教材用字分布率比较统计表
说明:“文本数”列中的数字“0—6”表示出现在多少个年级中,两套教材共有6个年级(每套各3个年级)。
分析:
从第一行(文本数为0)数据可以知道,华文教材用字中有82个没有在语文教材用字中出现,而语文教材用字中则有1 201个没有在华文教材用字中出现,这显然是因为语文教材用字远比华文教材用字多的缘故。如果再具体看看是哪些专用字,那么也会发现一些很有意思的现象:只在华文教材用字中出现的“百、尺、刀、弟、耳、父、哥、九、母、妹、字”等常用字没在语文教材课文中出现(当然这里要说明的是:只是没在正式课文中出现,可能出现在专门的识字课文中)。这些用字的差别可能也正好说明了中国大陆与马来西亚两地使用汉语的地域差别。这说明语料库规模的大小会影响到总用字量的大小,但是不同规模语料库的用字难以形成包含关系(大规模语料库用字包含小规模语料库用字)。
从第二行(文本数为1)数据可以知道,语文教材用字中有超过三分之一的866个汉字只出现在一个年级中,进一步统计发现其中只出现在一年级的汉字有82个,只出现在二年级的汉字有203个,只出现在三年级的汉字有581个;华文教材用字中有接近二分之一的604个汉字只出现在一个年级中,进一步统计发现其中只出现在一年级的汉字有29个,只出现在二年级的汉字有131个,只出现在三年级的汉字有444个。这些由小到大的数据可以说明,两套教材用字从一年级到三年级明显体现出了从易到难的过程。另外从华文教材只出现在一个年级的用字占了近一半这一数据可以看出,由于其总用字量较小,所以汉字的复现率也较低。语文教材用字总量尽管是华文教材用字总量的1.87倍,但其只出现在一个年级的用字量也还是超过了三分之一,应该说数量不少。究其原因,主要是因为汉字使用一般遵循着高频字使用集中(即高频字很少)而且是越高频越使用集中的规律(这从前面讨论的总体情况中的覆盖率用字数的变化可以看得很清楚)。所以如果要提高汉字使用的复现率,必须有意识地进行安排,否则文本规模(教材课文总长度)的增大对于提高汉字使用的复现率作用并不明显。也就是说通过增大文本规模来提高汉字使用的复现率可能是得不偿失的。
从第三行和第四行的数据可以知道,语文教材用字的复现率较华文教材要高。尤其是第四行的数据说明,语文教材用字中有超过三分之一的出现在三个年级中,而华文教材用字则只有四分之一不到的汉字出现在三个年级中。
上表第三列“合计”是把两套教材放在一起统计后得到的数据。从这列数据可以看到,只出现在一个年级中的汉字还是最多,而出现三个以上年级中的汉字只有三分之一多一点,下面把出现在所有6个年级中的275个汉字列在下面,以供大家参考:
啊爱安把爸白帮本比边病不布菜草长常场唱车吃虫出窗打大带蛋到道得的灯低地点电东动都对多朵儿二方放飞分风服干赶高歌个各给跟工公狗关光果过孩海喊好喝和河黑很红猴后候花画话欢还黄回会火鸡几己加家间见叫教姐今进睛就觉开看可空口哭快拉来老乐冷里丽两亮了留六路妈马吗忙毛么没每美门们米面名明木拿哪那能你年鸟牛排跑朋皮七起气前亲青轻清请球去热人日赛三色山上少身生声师狮十什石时食事是手书树双谁水睡说四送岁他它太天甜条跳听同头土兔外完晚为问我屋五物西喜下先香想象像小校笑鞋写谢心新星学呀鸭眼阳要也叶一衣以用游友有又鱼雨园圆再在早找这真正枝知只纸中种重住捉着子自走嘴坐做
另外我们还比较了一下每个年级新增加的汉字数量。
表6 分年级用字增加字数表
分析:
这个表的数据告诉我们,语文教材用字中一年级的总量最大,然后二、三年级的增量逐年降低,从1 078个降到747个,最后降到581个,可以说学生学习的难度(如果把要学习的汉字数量作为一个学习难度的指标)是在逐年降低;而华文教材用字中则三个年级差不多分布得比较均匀,每个年级都是四百多个,而且是每个年级的用字总量是在逐年升高(虽然增加的数量不大)。因此,从学习汉字来看,显然华文教材比语文教材的安排要好一些。
五、小 结
最后我们小结一下对比较统计数据的分析:
1.语文教材文本总长度远大于华文教材,用字总量也是语文教材比华文教材多,两套教材相同用字占语文教材的一半不到,却占了华文教材的大部分。从用字总量及增量看,语文教材没有遵循从易到难的规律,而华文教材则基本上是维持差不多相同的用字量与增加量。
2.低频字的绝对数是语文教材高,而相对数则是华文教材高。一年级语文教材和二、三年级华文教材用字中低频字都是占了将近一半。
3.分布率的数据说明,只出现在一个年级的汉字占了相当大的比例,语文教材中是三分之一多,华文教材中是近一半。从分布率看,两套教材用字从一年级到三年级遵循了从易到难(从少到多)的规律。
【参考文献】
[1]国家语委汉字处:《现代汉语常用字表》,语文出版社,1988。
[2]国家语言资源监测与研究中心:《中国语言生活状况报告(2007)·下编》,商务印书馆,2008。
[3]郭曙纶、方有林:《网络汉字的大规模统计与分析》,载于中国文字学会、河北大学汉字研究中心:《汉字研究·第一辑》,学苑出版社,2005。
【注释】
[1]本文得到上海交通大学国际教育学院科研创新计划项目“基于语料库技术的汉语教材编写系统”(课题批准号08YTS02)、国家语言资源监测与研究中心教育教材语言分中心科研项目“基于语料库的基础教育语文教材历时比较研究”(课题批准号E10102)和2011年度上海市教育科学研究市级项目“基于语料库的小学语文教材对比统计研究”(课题批准号B11008)的经费资助。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。