从数据看宫泽贤治童话作品的文体——以文长为中心
江苏大学 曹雅洁
〔摘要〕本文试图使用词素解析软件ibukiC来分析宫泽贤治童话作品的文体。通过统计其文长(每文的文节数与字数)的相关数据,并与同时期其他作家的作品进行比较,再结合桦岛忠夫关于文体、文长的相关理论,对宫泽贤治童话作品的难易度进行了分析。
〔关键词〕宫泽贤治 童话 文体 文长 难易度
1.引言
本文的目的在于用统计的方法考察宫泽贤治童话作品的文体。桦岛忠夫认为,文体即是“内容的展开方式”、“作者的表现态度”和“所选取的表达方式”的结合。他认为作者的表现态度决定了文体。具体来说就是,是要向读者提供信息还是诉诸感情,是简明扼要还是细致描绘,是要暗示还是明示等等,随着这些表现态度的不同,作者选择的表达方式也不一样。
人的外貌与其内心未必一致。同样道理,文章的内容和表现也无必然联系。但是,我们在阅读文章的时候,对文章的印象往往会被其内容左右。因此,如果从印象上来把握文章的话至少要考虑三个不可或缺的因素,即内容、表现和读者的理解。但是,想要科学地分析文体就不能涉及内容,而只是考察其外在表现。因此,本文对宫泽贤治童话作品的文体考察实际上是对某一语言特征的考察,即运用语言学的方法将文本作为语言形式来进行文体分析。这种文体分析具体来说是对文章的音韵、文字和句子的具体形态进行分析。例如,文章有无音韵规律、经常使用的词语类型、句子的构造和功能、多运用短文还是长文等。现代文体研究已有约半个世纪的历史,也取得了一定成果。比如通过抽取文章语言并进行统计,明晰了某一类文学作品或是某一位作家的语言特征。但到目前为止,所研究的文学作品多为诗歌、短剧等篇幅短小、统计起来较为方便的文学类别,并且统计分析对象大多集中于英语圈作家的作品。而本文试图对长篇的日语文本进行分析。
2.适合分析小说文体的方法
由于小说一般篇幅较长、字数较多,在分析统计上需要花费大量时间,因此到目前为止的文体分析多集中于短篇作品。但是,随着一些高性能的词素解析软件的出现,长篇作品的统计分析已经不再是难事。在文体研究上,建构文本库的做法较为常见。文本库是指“有组织地收集对象语言的使用实例,进而准确反映其语言实态。那通常由计算机来完成。”[1]最简单的文本库即原文文本。本文在分析宫泽贤治童话文体时,首先搜集其童话原文文本。第二步就是运用词素解析软件ibukiC来分析宫泽贤治童话文本中的各文节类型,并结合桦岛忠夫的相关理论对统计结果进行分析。
在桥本进吉的文法学说中,文节被视为阅读时自然发音能停顿的最小单位。例如有这样一句话:
「私は昨日友達と図書館へ勉強をしに行きました。」
这句话中就分别由「私は」、「昨日」、「友達と」、「図書館へ」、「勉強を」、「しに」和「行きました」这七个文节构成。文节虽是阅读上的最小单位,但构成句子的最小单位却是单词。仍以上文为例,在「私は」这个文节中,就分别由「私」和「は」这两个单词构成。当然,也有由一个单词构成的文节,如「行け」、「いらっしゃい」等。同时桥本进吉认为,单词可以分为两类,一类是能够单独构成文节的可以独立的「自立語」,另一类是伴随第一种单词构成文节的「付属語」。总之,每个文节中必须含有一个自立语。本文使用的词素解析软件ibukiC统计的是文章中文节的数量和类型,依据桥本进吉的理论,可以说该文节数量和类型与自立语的数量和类型相对应。
桦岛忠夫认为可以通过对以下十个项目的分析来把握文章的文体特征。
(1)名词的比率(%)
所谓名词的比率是指文章中名词数量在自立语总数中所占的比率。一般来说,归纳性文章中名词的比率较大,描写性文章中名词的比率较小。依据桦岛忠夫的调查,各类型文章中名词的平均使用率如下:
谈话语即日常会话使用的语言,名词的使用率是最小的。与之相对,归纳程度最高的标题中的名词使用率高达74%。
(2)MVR(Modifier and Verb Rate)
M为modifier的缩写,指形容词、形容动词、副词、连体词等起修饰作用的词;V指动词。这项指标衡量的是修饰性词语与动词的比率。计算时,用100乘以M再除以V。即MVR=100×M÷V。
因此,MVR的值越大就表示M越大,那么该文章中修饰性词语、描写性表现就使用得越多。相反,当MVR较小时,意味着V的数量偏多,表示文章较多地使用动词。
(3)指示词的比率(%)
指示词的比率是指指示词在文章自立语总数中所占的比率。指示词的作用不仅仅是避免相同词语的重复使用,它还起着连接上下文的作用。因此指示词使用得越多就代表该文章对文脉的依存度越大,因而文章较难理解。
(4)字音语的比率(%)
字音语的比率是指使用音读的汉字词语文节在总文节中所占的比率。字音语多的文章一般是归纳性的,阅读起来也较为困难。因此此类文章一般较难理解。
(5)文长(自立语数量)
该项指标考察的是每句所包含的自立语的数量。前文已述,每个文节中必定且只会包含一个自立语,因此,该文长也可以说是每句所包含的文节数量。一般来说,句子越长就越难理解,文长较短的文章较容易阅读。
(6)会话文的比率
会话文的比率是指文章中引用对话部分占全文的比率。即
文章中如果较多地引用对话的话,能够给读者直观地感受到人物性格特征及场景气氛等,因而更加引人入胜,这样的文章属于描写性文章。
(7)有接续词的句子的比率(%)
这是表示含有接续词的句子在文章全部句子中所占比率。由于使用接续词能够说明上下文之间的关系,因此其使用频率关系到文章说明性的程度。也就是说,接续词使用得越多,文章的说明性就越强。
(8)文末为现在时的句子的比率(%)
采用现在时进行描写能够使读者直观地感受到事件的进行与发展。即把一件件事情仿佛依次罗列在读者眼前一样,让人目不暇接。特别是在文长较短、动作性描写较多的情况下能够产生一种紧迫感和速度感。
(9)拟声拟态语的比率(%)
拟声拟态语是一种从感觉上把握描写对象的语言。拟声拟态语使用较多的文章聚焦于眼前发生的事情,并将其如实反映出来。这一类文章阅读起来较容易理解,且描写性强。
(10)色彩语的比率(‰)
该项指标指色彩语在全文中所占的比率。色彩语也是修饰性语言的一种,因此其使用频率的高低关系到文章的描写性。也就是说,色彩语使用的多少是衡量文章描写性强弱的一个指标。色彩语比率的计算公式如下:
桦岛忠夫共提出以上十项指标来分析文体。本文在试图分析宫泽贤治童话作品的文体时将着重考察其作品理解上的难易度,因此将重点分析以上十个指标中的第五项,即文长。
3.宫泽贤治童话作品的文长
(1)十八篇宫泽贤治童话作品的文长
表1为本文将要进行计算机处理并分析数据的宫泽贤治作品一览表。为使数据尽量客观而全面,笔者选取了宫泽贤治各个时期所创作的童话。其中因为1921年为宫泽贤治创作的高峰期,本文选择的该时期作品也略多一些。
表1 用于统计分析的宫泽贤治作品一览表
*为其生前未发表作品
在本文即将考察的四个项目中,文长与文章的难易度有着直接关系。因此在探讨宫泽贤治童话作品的难易度时将要分析的就是其作品的平均文长。
前文已述,文长即每一句中所包含的自立语的数量。在此,本文将不仅仅考察自立语数量,还将统计每一句中所包含的文字数量。本文使用的词素解析软件ibukiC统计的对象并非自立语而是文节,但前文已介绍过每一文节必定含有一个自立语,所以在考察文长时也可以用文节数量来代替自立语的数量。表2为宫泽贤治18部作品中文长的相关数据。
表2 宫泽贤治作品的文长
有了这些数据,就可以很容易地计算出每一句的平均文节数和平均字数。其结果如图1所示。
图1 宫泽贤治18部作品的平均文节数和平均字数
从上图可以看出,除了第1、2、18号作品,宫泽贤治的其他15部童话的每一句的平均文字数几乎都在25~35字。其中有一半的作品都是在30字左右。再来看一下每一句的平均文节数,总体来说,这18部作品的平均文节数都在5~10之间。其中第1、2、18部作品的数据更低一些。具体来说,每一句的平均文节数为9或10的只有三部作品,其余作品大多为7个或8个文节。
但是,仅凭这些数据并不能说明问题。因为句子的长度是一个相对的概念,所以我们判断一篇文章或是一位作家多使用长文还是短文也应建立在比较的基础之上。首先,我想先介绍一下关于判断句子的字数多少的标准。该标准是任意抽取500部小说中的章节统计得出的数据。据统计,小说每句的平均字数为34.5字。表3为包括宫泽贤治在内的日本六名文学家的文长数据(宫泽贤治的数据为上述18部作品的统计结果,另五位作家的数据为抽样统计结果)。
表3[2] 宫泽贤治等6名作家的文长
表中的文长指数是指各作家每句的平均字数除以小说的平均数34.5,再乘以100所得出的结果。
从上表可以看出,每句平均字数最多的是谷崎润一郎的作品,最少的是宫泽贤治的童话作品。从文长指数来看,岛崎藤村的作品最接近小说的平均文长。
那么,每句的平均文节数的标准又如何呢?桦岛忠夫说:“口语中,平均每句话使用的文节数为3.2~3.6,大约为小说的三分之一。”由此,我们可以知道,小说中每句的平均文节数大约在9.6~10.8之间。但是,根据上文对宫泽贤治18部童话作品的统计,其每句话的平均文节数只有7.7,仅为小说每句平均文节数的四分之三。
(2)岛崎藤村作品的文长
上文已述,在考察宫泽贤治童话作品的文长时,必须有所比较才能得出较为客观、科学的结论。前文已将贤治作品的数据和一般小说的数据进行了比较,但后者为抽样所得数据,因此为了比较对象的准确性,在此我将统计岛崎藤村五部作品的相关数据与宫泽贤治的进行比较。选取岛崎藤村的作品作为比较对象原因有三。其一,藤村(1872-1943)和贤治(1896-1933)所生活的时代相近,因此在比较时基本可以忽略因时代不同而造成的写作风格的差异。其次,据抽取统计,藤村的文长指数最接近小说的平均值,因此以此作为比较对象较为客观。最后,由于藤村也创作童话,因此比较完全相同类别的作品将使数据更具说服力。
表4中的五部作品均为岛崎藤村的代表作,创作时期也各有不同,跨度达到二十余年。其中《故乡》为童话作品。这五部作品的字数、文数和文节数如下:
表4 岛崎藤村五部作品的字数等数据
由上表数据可以算出岛崎藤村这五部作品的文长,即每句的平均字数和平均文节数。其结果如图2所示。
图2 岛崎藤村五部作品的文长
从图2可以看出,岛崎藤村的五部作品中,除了《破戒》以外,每句的平均字数均在35~45之间。此外,五部作品每句的平均文节数均为10~13左右。通过计算,这五部作品的平均文长为每句38.8字和11.4文节。这一数据与宫泽贤治的有相当大的差距,图3可以直观反映出来(每项左边为宫泽贤治作品的数据)。与岛崎藤村的作品相比,宫泽贤治作品每句的平均字数少十余字,每句的平均文节少近4个文节。
图3 宫泽贤治与岛崎藤村作品的平均字数与平均文节数的对比
(3)同时代其他童话作品的文长
为了更客观、科学地说明宫泽贤治童话的语言特征,单单与岛崎藤村的作品作对比是不够的。若再与同时代的其他童话作品进行比较的话,宫泽贤治童话的文体特征将更加明晰地凸现出来。
1918年,铃木三重吉创办了童话童谣杂志《赤鸟》。该杂志于1929年至1931年间一度停刊,1931年恢复发行,直至1936年铃木三重吉去世后才停刊。在此,本文将选取刊登在《赤鸟》上的四部重要作品,使用ibukiC进行文体分析。四部中有两部为《赤鸟》的创刊者铃木三重吉所作,另两部分别为芥川龙之介和当时的新人作家新美南吉的作品。创作时间分布在1918年、1919年和1932年,和宫泽贤治处于同一时代。表5为这四部童话作品文长的相关数据。
表5 芥川龙之介等四名作家的童话作品的文长等统计数据
通过以上数据,可以计算出这四部童话作品每句的平均文长。如图4所示。其中两道虚线分别代表宫泽贤治童话每句的平均字数和文节数。
从图4可以看出,其中芥川龙之介的童话作品文长最长,每句的平均字数和文节数分别达到了46.56字和12个文节。其他三部作品数据相当,但均高于宫泽贤治童话的相关数据。事实上,当年宫泽贤治也曾投稿给《赤鸟》,但铃木三重吉并没有录用。宫泽贤治童话与《赤鸟》中童话的差异由此可见一斑吧。
图4 芥川龙之介等四名作家的童话作品的平均字数和文节数
4.结论
通过以上数据和比较分析我们可以看出:宫泽贤治童话作品的文长与同时代的小说与童话相比特别短小。本文开头已述,桦岛忠夫认为,一般来说,文章每句话的长度越长就越难理解,文长较短的文章易于阅读。但是,人们在阅读文章时对文章的感知度却因人而异。同样的文长,对某些人来说可能较短,而对另一些人来说可能就是长文。此外,即使是同一个人,在不同的情况下对同一篇文章的感知度也不尽相同。因此,在考察句子的长度时,将其数字化是一种科学的、客观的考察方法。本文在考察宫泽贤治童话作品的文体时,使用词素解析软件对其文长进行量化计算,并进行了横向比较。用一系列数据对宫泽贤治的童话作品较易于阅读和理解的原因进行了客观的验证。
参考文献
[1]宮島達夫『図説日本語——グラフで見る言葉の姿』角川書店、1982年。
[2]樺島忠夫『表現の解剖——続文章工学』三省堂、1968年。
[3]波多野完治『現代文章心理学』新潮社、1950年。
[4]樺島忠夫『日本語のスタイルブック』大修館書店、1979年。
[5]橋本進吉『国文法研究第二冊』岩波書店、1948年。
[6]原子朗「賢治の文体表現」、『国文学解釈と教材の研究』特集、1989年12月。
[7]岡崎和夫「宮沢賢治のことば学」、『国文学解釈と鑑賞』1993年9月号。
[8]原子朗「真の文体論的批評への期待」、『日本語学』特集、1997年9月号。
[9]小松聡子「『ことば』から賢治を読む」、『日本語学』特集、1997年9月号。
[10]前川喜久雄「コーパスとは何か」、『国文学解釈と鑑賞特集=日本語研究とコーパス』至文堂、2009年1月号。
[11]小椋秀樹「コーパスのための形態論情報」、『国文学解釈と鑑賞特集=日本語研究とコーパス』至文堂、2009年1月号。
[12]渡部基彦「村上春樹の自作小説と翻訳作品の文体に関する統計的研究」、『計量国語学』2003年12月。
[13]刘世生,朱瑞青:《文体学概论》,北京大学出版社,2006年。
[14]程祥徽:《语言风格学》,广西教育出版社,2000年。
[15]古月:“日本关于宫泽贤治的研究与评论”,《外国文学研究》1984年第4期。
[16]《日语学习与研究》,日语学习与研究杂志社,2003.2,2007.1。
【注释】
[1]前川喜久雄「コーパスとは何か」、『国文学解釈と鑑賞』至文堂、2009年1月号。
[2]表中除宫泽贤治以外的数据出自波多野完治《现代文章心理学》(新潮社,1950年),153页。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。