第三节 国外计算语言学研究
作为一门新兴交叉学科的计算语言学是在一定的社会历史条件下应时代的要求而逐渐成长起来的,其很多理论也来自于国外,所以要想深入了解计算语言学的全貌,必须了解国外计算语言学的研究状况。
一 国外计算语言学发展历程
国外计算语言学的发展历程大致可以分为萌芽期、发展期、繁荣期三个时期。
(一)萌芽期
从20世纪40年代到50年代末是计算语言学的萌芽期。计算语言学的研究起始于机器翻译。1946年,美国宾夕法尼亚大学的埃克特(Eckert)和莫西莱(Mauchly)设计的第一台计算机ENIAC问世,这启示人们考虑翻译技术的革新问题。同一年,美国的韦弗(Weaver)和英国的布斯(Bouth)就开始了机器翻译的研究。1947年3月,韦弗在给维纳(Wiener)的信中谈论了机器翻译问题。1949年,韦弗发表一份以《翻译》为题的备忘录,正式提出了机器翻译问题。但在这份备忘录中,韦弗把机器翻译仅仅看成一种机械的解读密码的过程,他没有看到机器翻译在词法分析、句法分析以及语义分析等方面的复杂性。1954年,美国乔治敦大学在国际商用机器公司(IBM)的协同下,用IBM-701计算机进行了世界上第一次机器翻译实验,首次用计算机把俄语翻译为英语,并取得初步成功,这是计算机在非数值处理方面最早的应用。但是机器翻译问题相对复杂,而早期的机器翻译系统都把机器翻译的过程与解读密码的过程相类比,试图通过查询词典的方法来实现词对词的机器翻译,因而译文的可读性很差,难于付诸实用。1964年,美国科学院成立一个自动语言处理咨询委员会(Automatic Language Processing Advisory committee,简称AL⁃PAC),调查机器翻译的情况。1966年,该委员会写了一篇《语言与机器》的报告,简称ALPAC报告。报告宣称:“在目前给机器翻译以大力支持还没有多少理由。报告还指出,机器翻译研究遇到了难以克服的语义障碍。”[11]机器翻译研究出现了空前萧条的局面。在ALPAC报告中首次出现了“计算语言学”这个术语,据说提出者是美国语言学家海斯(Hays),计算语言学就是自然语言计算机处理的基本理论和方法的总称。从此进入了计算语言学的萌芽期。
(二)发展期
20世纪60年代中期到80年代后期是计算语言学的发展期。ALPAC报告以后,计算语言学逐渐转向自然语言理解。自然语言理解系统分为第一代系统和第二代系统两个阶段:第一代系统建立在对词类和词序分析的基础上,经常使用统计方法;第二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开统计技术。第一代系统主要有以下几个:(1)特殊格式系统。例如,1963年,林赛(Lindsay)设计的SAD-SAM系统,采用特定格式进行亲属关系方面的人机对话。(2)以文本为基础的系统。例如,1966年,西蒙斯,布格尔(Burger)和朗涉及的PROTOSYNTHEX-I系统。(3)有限逻辑系统。例如,1968年,拉斐尔(Raphael)建立的SIR系统,采用模式匹配并进行简单的逻辑推理,识别输入句子的结构。(4)一般演绎系统。例如,1968至1969年,格林等建立的QA2和QA3系统,采用谓词演算的方式和格式化数据来进行演绎推理,解答问题。
1970年以来,出现了第二代自然语言理解系统,这些系统多数是程序演绎系统,大量地进行语义和语境甚至语用分析。比较有代表性的系统是LU⁃NAR系统、SHRDLU系统、MARFIE系统、SAM系统和PAM系统;LUNAR系统是1972年伍兹(Woods)设计的一个自然语言情报检索系统。SHRDLU系统是威诺格拉德(Winograd)于1972年在麻省理工学院建立的一个用自然语言指挥机器人动作的系统;MARGIE是商克于1975年在美国斯坦福人工智能实验室研制的一个自然语言理解的直观模型,系统使用概念依存来进行推理;SAM系统是埃布尔森(Abelson)于1975年在美国耶鲁大学建立的采用“脚本”的办法来理解自然语言写的故事;PAM是威林斯基(Wilensky)于1978年在美国耶鲁大学建立的另一个理解故事的系统。一些著名的句法分析算法,例如:基于上下文无关文法的GLR算法,以及语义知识系统,例如,格语法、义素分析法等也被应用于句法及语义的自动分析上。
(三)繁荣期
计算语言学的繁荣期是从1989年开始的。这个时期是大规模真实文本处理的新时期,其重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等。
基于实例的机器翻译最早是日本机器翻译专家长尾真(Makoto Nagao)于1984年提出的。基本思想是,人们翻译一个简单句时并没有作深层的语言分析,而是首先将句子拆分为适当的片段,然后将这些片段翻译成目标语言片段,最后将这些目标语言片段组合成一个完整的句子。目前,基于实例的机器翻译系统主要有日本京都大学长尾真和佐藤的MBT1和MBT2系统和美国卡内基—梅隆大学的多引擎机器翻译系统PAGLOSS,这个系统的主要引擎是基于知识的机器翻译,基于实例的机器翻译系统是它的一个引擎。日本口语翻译通信研究实验室的ETOC和EBMT系统等。
随着互联网的发展,计算语言学进入了大规模真实文本处理时期,语料库语言学盛行,经验主义方法复苏。20世纪80年代,马莎(Mashall)设计了第一个用统计方法的词性标注系统CLAWA,对LOB语料库进行自动标注,准确率达97%。把基于统计的经验主义方法和基于规则的理性主义方法结合起来,一方面可以消除由统计方法所得到的不合乎语言学规则的信息,又可以由统计方法所建立的语言模型能够很方便地与现有的语言学方法结合起来,互相补充;另一方面,语言学家在总结语言规则的时候会有主观性,所以把两种方法结合起来,可以让他们集中精力研究语言现象。总之,基于规则的方法与基于统计的方法的结合,必然能推动计算语言学的发展。
二 国外计算语言学研究内容
从应用角度来看,计算语言学主要有自然语言处理、语料库、信息检索、语言本体的自动化分析、机器翻译、计算机辅助语言教学等几个方面内容。
(一)自然语言处理
1.20世纪40年代末至50年代初期
自然语言处理领域的研究最早可以追溯到第二次世界大战,那时刚发明计算机。由于计算机能够进行符号处理,所以自然语言处理成为可能。在理论方面,有两个基础性研究值得注意:一是自动机的研究,另一个是概率或信息论模型研究。这些早期研究成果为后来形式语言理论的产生奠定坚实的基础。
1949年,美国工程师韦弗发表了《翻译》,正式提出机器翻译问题。这也是自然语言处理最早的研究领域。1954年,美国乔治敦大学在国际商用机器公司(IBM)协同下,用IBM-701计算机,进行了世界上第一次机器翻译实验,把几个简单的俄语句子翻译成英语。
2.20世纪50年代末至70年代
在20世纪60年代中期,人工智能学者开发了一批新的计算机程序进行简单的机器自然语言理解。这些早期系统称为“第一代系统”,主要是:SAD-SAM系统,主要研究亲属关系方面的人机对话;BASEBALl系统,主要功能是回答有关棒球赛一些问题;DEDYCOM系统,主要功能是情报检索中进行演绎推理;ELIZA系统,主要功能是模仿心理治疗学家;DEACON系统,主要功能是英语管理虚头的军用数据库;PROTOSYNTHEX-1系统,主要功能是文本信息的存贮和检索;STUDENT系统,主要功能是英语应用题列出方程求解;SIR系统,主要功能是事实演绎回答问题;CONVERSE系统,主要功能是根据事实人机对话;QA2,QA3系统,主要功能是演绎推理和英语回答。
3.20世纪七八十年代
这一时期语法分析方面出现了句法分析的扩充转移网络,语义分析方面成果在上个世纪70年代有所进展,出现了一些理论成果:伍兹的扩充转移网络基于图论数学概念的应用和语法研究的有限状态机;菲尔摩的格语法在深层结构中,借用传统语法“格”的概念,来表示名词与谓语动词间一种固定不变的语义结构关系;商克的概念依存理论与格语法相似,句子意义表达以行为为中心,但句子的行为不由动词表示而中原语行为集表示。
到20世纪80年代出现了一批新的语法理论成果,具有代表性的是布列斯南与卡普兰的词汇功能语法,来源于转换生成文法,突出词汇在语法理论中的作用,用函数表示谓语与主语,谓语与宾语之间的关系;马丁依功能合一语法,避免沿用转换规则,以复杂特征集和合一运算作为语法系统基础;广义短语结构语法等。随后在语用领域也展开研究,巴外斯和佩利情境语义学,语言表达式的含义是两个境况之间的关系,语言使用规则的约束决定了语言表达式的含义。在80年代中后期,自然语言处理领域两个新的分支是语料库语言学和神经网络自然语言处理机制。
4.20世纪80年代中期至90年代中期
这一时期人们开始转向大规模语料库,试图从中获取颗粒度较小的语言知识来支撑大规模的文本的自然语言处理系统。国外学术界利用这种方法取得了一定成绩,1994年IBM的亚当·博格(Adam L.Berger)等人发表了“The Candidate System ofMachine Translation”的文章,称为“统计翻译”。此系统翻译准确率超过美国著名的SYSTRAN系统。
5.20世纪90年代后期至今
这一时期主要成果在研究方法方面有两个代表性的动向:一是以宾州大学为代表的把语料库内容的结构化,即树库的方法和词汇树邻文法;另一个是加大语言处理单元的颗度,即语段思想。
这一时期在使用系统开发上也有新的成果,例如,语音识别、拼写检错、语法检查这些子领域,有可能进行商品化开发。
(二)语料库
语料库建设中涉及的主要问题包括:设计和规划,主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等;语料的采集,主要考虑语料获取、数据格式、字符编码、语料分类、文本描述以及各类语料的比例以保持平衡性等;语料库的加工,包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式;语料管理系统的建设,包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等),用户功能(查询、检索、统计、报表等);语料库的应用,针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。
1.计算机化前的语料库
(1)为教学目的而编制的书面语语料库与词表
此类语料库中最具影响的是桑戴克(Thorndike)于1921年编制的英语文章库,共含450万词,主要由《圣经》和其他一些经典的文学作品构成。1944年,桑戴克和洛奇(Lorge)根据对含有1800万词的取材更为广泛的语料的分析,更新了原来的词表,提出一部分词需要牢固掌握,另外一些词只需从阅读理解与欣赏的角度进行教学的观点。之后的时间里,欧洲和北美也出现了以语料为手段的词汇研究,涉及德语、法语、俄语、西班牙语、意大利语和拉丁语等多种语种,出版了相关的基础词汇表、标准词汇表和习语表等。
(2)为语言调查而收集的方言库
19世纪最大的方言库是由埃利斯(Ellis)于1889年带领收集的。基于对1145处不同方言的记录和调查,英格兰和苏格兰被划分为42个方言区;另一项大规模的英国方言调查则有哈罗德·奥尔顿(Harold Orton)和尤金·戴斯(Eugen Dieth)领导开展,其目的是为了编制英国范围内的英语口语地图(at⁃las)。
2.计算机化的语料库
随着计算机技术的发展,计算机化的语料库又包括两个阶段:
(1)第一代计算机化语料库
这一阶段,通常是指20世纪60年代至80年代的电子语料库,其典型代表是1963、1964年建成的布朗语料库。该语料库是典型的平衡结构语料库,也是当今最早的机读语料库。
(2)第二代计算机化语料库
第二代计算机化语料库通常指20世纪80年代之后出现的一些语料库,主要特点是:一是规模上要远远超过第一代计算机化语料库;二是大多采用了较新的KDEM(Kurzweidata Entry Machine)光电符号识别技术,使得语料的编码和编辑得以从繁重的人工输入中解脱出来,促进了语料的分析和利用,因此语料库的建设周期大为缩减,结构也趋于合理。
(三)信息检索
信息检索系统总体上包括如下步骤:第一步是对大规模信息的获取,即得到信息;第二步是对信息内容的分析、加工和处理;第三步是将查询与加工后的信息内容进行相关度计算,从而为用户提供信息服务。简单地说,信息检索系统的特点可以归纳为:事先下载、后台处理及在线访问。
纵观国外计算机信息检索系统的发展,可以将发展过程分为以下三个阶段:
第一阶段:1971年以前,这个阶段计算机信息检索系统刚起步,就引起人们的重视。1954年美国海军兵器中心图书馆首先在IBM701型计算机上成功建立了世界上第一个计算机文献检索系统。这一阶段的信息检索主要采用批处理方式,这一阶段的数据存取与数据通信能力都比较差。
第二阶段:从1971年开始,信息检索系统发生很大变化,产生并发展了联机情报检索系统,许多系统都实现了在线检索。例如,美国国家医药图书馆中心发展了在线的计算机图书馆中心。此时的计算机信息检索系统都采用集中式的管理方法,但其数据通信能力较差,所以关键问题是如何最好地实现系统中的数据通讯。
第三阶段:1983年至今,全球最大的网络系统从一个小型的试验研究项目发展成世界上最大的计算机网络。同时,通讯及网络技术的发展使得信息检索系统的三个基本要素之间达到了协同使用的最佳状态。这一阶段主要采用分布式的网络化管理。
经过科研人员近半个世纪的研究,一些有效的信息检索模型陆续提出并逐渐应用到相关的系统中。这些模型的数学基础来源是很多方面的,包括了代数、逻辑、概率和统计。其中影响比较大的检索模型包括:布尔模型、向量空间模型、概率模型以及最近提出的统计语言模型检索方法。
(四)语言本体的自动化分析
1.语音合成
语音合成是把输入电脑的文字符号串经过语音合成软件处理后转换为自然语音输出。这是中文信息处理领域的一项前沿技术,广泛涉及语言学、语音学、声学、信号处理、计算机科学等多个学科技术,在人机对话、自然语言人机接口、指挥自动化等领域,具有重要的应用价值。
人类很早就开始了让机器说话的尝试。1779年,圣彼得堡基督徒克拉典舒坦(Kratenstein)研制了一个能发出五个长元音(a,e,i,o和u)的声道模型。后来经过改造,增加了舌头和嘴唇,能够发出辅音和元音。20世纪30年代,贝尔实验室发展了声音传播机的设计,嵌入一台电子语音合成器,提高了语音合成的清晰度。50年代计算机诞生后,很快就开始研制基于计算机的语音合成系统。1968年研制出世界上第一台计算机语音合成系统。60年代,计算机应用推动语音识别的发展。动态规则和线性预测分析技术的提出,在分析技术和算法上提高了语音分析和语音识别研究的水平。70年代后,语音识别研究得到了广泛重视。美国国防部支持DARPA语言理解系统研究项目,把语音识别列为核心攻关技术。此项目在小词汇量和孤立词语识别方面取得了突破性进展。80年代以后,世界各发达国家相继开始重视并加强语音识别技术的理论和方法研究。采用准马尔科夫模型和人工神经元网络等理论和方法,突破了基于词典和规则的局限性,较好地解决了非特定发音人、大词汇量句法语义分析模型问题。进入90年代,随着多媒体技术的发展,许多发达国家都把语音识别技术的研究作为第五代计算机和人工智能的基础与核心工程来对待。语音识别系统开始从实验室走向实用。
2.句法分析
句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构。一般而言,句子的句法结构并不是自然语言处理的最终目标,但是它往往是实现具体目标的重要环节,甚至在某些情况下是非常关键的一步。句法分析指输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构。句法结构一般用树状数据结构表示,通常称之为句法分析树。完成这种分析的过程的程序模块称为句法分析器,通常简称为分析器。
一般来说,构造一个句法分析器需要考虑两部分内容:一是语法的形式化表示和磁条信息描述问题。形式化的语法规则构成了规则库,词条信息由词典或相关词表提供,规则库与词典或相关词表构成了句法分析的知识库;二是分析算法的涉及。
词法歧义和句法歧义在自然语言中是普遍存在的,而句法结构歧义的识别和消解也是句法分析面临的困难之一。
3.语义自动分析
对自然语言进行信息处理,光有词法、句法分析是不够的,还要有语义分析。曾有学者指出,要让计算机能够解决下面三个问题:一是消除自然语言的一词多义,二是揭示自然语言的潜在意义,三是掌握自然语言的联想推理。计算机处理自然语言有两大难题:一是如何让计算机获得自然语言,二是如何能够使计算机选择语义。显然,任何一个问题都需要语义分析帮助。
(五)机器翻译
多年来,世界上很多国家都投入了大量人力和资金进行机器翻译的实验开发,而且也有一些达到一定水平的研究成果实现了商品化,投入了实际的应用。例如,现在市场上就可以买到带有自动翻译功能的软件和一些简易的自动翻译器。但应该说目前距离真正实现准确度高的机器翻译还相差很远,已经研制的产品也还远远没有达到理想的程度。因此,“机器翻译作为一项难度极大的高层次信息处理技术,仍然是未来语言信息处理研究的重点。”[12]
机器翻译的发展可以分为以下几个阶段:MT初创期,以第一个机器翻译系统的诞生为标志;以直接翻译方法为基础的第一代MTS的活跃期和ALPAC报告之后的低潮期;20世纪70年代中期的第二代MTS的研制;20世纪80年代末第三代MTS的出现至今。
1.初创期(20世纪40年代至50年代初)
1946年,在美国宾夕法尼亚大学的埃克特和莫西莱设计并制造出了第一台计算机的时候,人们就开始思索用计算机代替人从事翻译工作的问题。这一阶段标志性的事件之一是1949年韦弗发表了有关机器翻译的备忘录《翻译》,正式提出了机器翻译的问题。
2.活跃期(20世纪70年代至80年代)
随着微处理器的出现,计算机能力己经获得了突飞猛进的发展。这个时期已经开始深入研究语法和语义,计算语言学的基础工作,许多重要的算法等都得到很深入的研究。词法分析、句法分析算法相继产生,并且更加强了软件资源建设。例如,电子词典的建设。翻译方法则以转换方法为代表,开始普遍采用以分析为主,辅以语义分析的方法。采用抽象转换表示的分层实现策略。这一时期机器翻译的另一个特点是语法与算法分开,所谓语法与算法分开,就是把语言分析和程序设计分开。程序设计工作者提出规则描述的方法,而语言学工作者使用这种方法描述语言的规则。法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(CETA)的机器翻译系统是典型的代表,机器翻译中的“独立分析—独立生成—相关转换”的方法。他们用这种研制的俄法机器翻译系统,已经接近实用水平。
1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发实用性的机译系统TAUM-METRO,METEO系统的成功使用是MT发展史上的一个里程碑,标志着MT在子语言领域方面的应用走向成熟。这期间,比较著名的MTS还有法国的GETA系统和TITUS系统、美国的PAHO系统和LOGOS系统、德国的SUSY系统和日本的ATLAS系统。20世纪70年代以后,计算语言学在语义理论方面有了突破,先后建立了格文法、语义网络理论等一系列描述语言深层机制的语言理论,机器翻译系统的研制获得新的生机。美国斯坦福大学威尔克斯提出了“优选语义学”。另一方面,计算机的软件及硬件技术和计算机处理数据的功能都越来越强,这些成就为机器翻译系统在技术上的实现提供了良好条件。20世纪70年代初,美国乔治敦大学在其机器翻译系统的基础上发展了一个实用系统——SYSTRAN机译系统.该系统一直为美国空军进行俄—英机器翻译,目的仅在浏览情报,译文质量不高。1976年,欧共体获得SYSTRAN机译系统的许可证,引用该系统进行英法和法英翻译。
3.繁荣期(20世纪80年代末至今)
这一时期机器翻译己经成为自然语言处理研究的热门,以语义为主的第三种机器翻译系统出现了,主要是基于实例和基于统计的方法,特点就是注重大规模语料库的建设,开始了针对大规模真实文本的处理。
在新阶段机器翻译工作在研究与实践环节都发生了很大的变化。第一,语言理论与计算机技术的结合更加紧密与深入;第二,统计方法和语料库方法的复兴;第三,规模的语言资料与测试平台开始应用。
1993年在日本举行的“MT Summitt IV会议”上,英国学者约翰.哈钦斯(John Hutchins)在特邀报告中指出,机器翻译已进入了第三代机器翻译系统的研究,其主要标志是语料库方法的引入。近年来,统计机器翻译取得了长足的进步,并且在国际评测中屡创佳绩,引起了人们广泛的关注。20世纪90年代初,IBM公司的彼得·布朗(Peter Brown)等人首先提出了基于信源信道模型的统计机器翻译思想。1999年,一批对统计机器翻译感兴趣的研究者聚集在约翰·霍普金斯夏季讨论班重复了IBM当年的工作,并开发了一套开放源代码的统计机器翻译工具软件Egpyt。2000年,研究奥赫(Oher)为主的13位科学家写了一个总结报告,报告的题目是《统计机器翻译的句法》,报告提出了把基于规则的方法和基于统计方法结合起来的有效途径。奥赫在国际计算语言学2002年的会议(A-CL2002)上发表论文《统计机器翻译的分辨训练与最大熵模型》。从2002年起,美国国家标准技术局每年进行一次机器翻译评测,并且首度采用了BLEU的一种变化形式NIST作为机器翻译的评价指标,取得了很好的效果。这个时期是以“译星1号”机器翻译系统的问世为标志的。
由于机器翻译评测问题的复杂性,目前在机器翻译领域还没有比较成熟的测试平台。整个自然语言处理领域近年来的变化是巨大且深刻的。相比较而言,机器翻译领域的变化要小一些。主要原因是,机器翻译领域几乎涉及自然语言处理所有领域中最困难的问题,某些单方面或浅层次的突破都不足以对机器翻译的整体产生根本的影响,只有当整个自然语言领域的各个方面的研究工作都取得全面的突破时,才有可能导致机器翻译的突破。
近年来,国外开始自动翻译电话的研究,在日本关西地区成立了自动电话研究所(ART),其目的在于把语音识别、语音合成技术用于机器翻译中,实现语音机器翻译。可以看出,机器翻译涉及语言的形态分析、句法分析、语义分析、篇章分析、语音识别、语音合成等各个方面的内容,对于语言学研究提出了新的要求,推进了信息时代语言学研究的进一步发展。
(六)计算机辅助语言教学
20世纪50年代开始,计算机技术在教育领域中得到应用。计算机辅助语言教学是机辅教学中的一部分,以计算机为基础,利用计算机辅助技术来帮助外语教师进行外语教学活动与研究活动。
在电子计算机问世之初,有人就设想把它用于教学。美国在20世纪50~60年代开始研究计算机辅助教学。计算机辅助语言教学从20世纪60年代兴起到现在大致经历了三个发展阶段:行为主义阶段、交际性阶段和综合性阶段。每个阶段的形成和发展都具有其必然的科技和教育思潮作基础。
1.行为主义阶段
行为主义学习理论对计算机辅助教学的影响始于20世纪50年代,并于60年代和70年代开始运用到教学之中。这个阶段的教学软件主要是语言操练,计算机成为向学生提供材料的工具,当时使用的较复杂的教学软件叫做PLA-TO系统,包括词汇练习、简单语言解释、操练、翻译、测试等。但是在70年代后至80年代随着微型计算机的发展,行为主义的影响力慢慢消失,相继出现了交际教学和多媒体等综合教学辅助手段。
2.交际法阶段
这个阶段,人们己认识到了机械的语言操练不能产生真实的交际,因而不能达到语言教学目的。交际法计算机辅助教学的倡导者之一安登伍德(Undenvood)早在1984年就提出了交际法计算机辅助教学的前提条件,其中主要包括:注重语言运用而不是语言形式本身;淡化语法教学,在语言运用中渗透语法而不是讲授语法;运用目的语教学,创造自然运用目的语的语言环境。
在交际法计算机辅助教学中诞生的教学模式不注重目的语的输入,而是注重语言学者能接触和使用目的语,例如:把计算机作为书写器,承担包括文字处理、拼字检查、语法检查等工作。
3.综合阶段
机辅语言教学模式更好地发挥了计算机在教学中作用,无疑在行为主义机辅语言教学模式的基础上向前迈了一大步。但是,到了20世纪80年代后期、特别是90年代初期,它也同样招致了来自各方面的批评,主要原因在于批评者认为它也未能如人们期望的那样充分发挥计算机科学给语言教学带来的优越性。交际机辅语言教学对语言学习过程的“边缘性因素做出了小少贡献,却忽视中心性的因素”。因此一种新的教学模式—综合机辅教学模式出现了。这种教学模式最大特点在于学习者把学习技术(例如,计算机和网络技术)作为语言学习和使用的一个有机部分,而不是到计算机中心进行孤立的练习。因为现在是信息时代,教师再也不是让学生获取信息的唯一来源,现代的教师应该让学习者通过现代技术手段获取自己所需要的信息。
三 主要理论基础及形式模型
早在计算机出现以前,英国数学家图灵(Turing)就预见未来计算机会对自然语言提出新的问题。他曾经说过:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”[13]
在计算机出现的初期,乔姆斯基把计算机程序设计语言与自然语言置于相同的平面上。在《语法的形式特征》一文中,讨论了程序设计语言的编译程序问题,这些问题是作为“组成成分结构的语法的形式研究”,从数学的角度提出来,并从计算机科学理论的角度来探讨的。
乔姆斯基的形式语言理论是早期计算语言学的句法理论。他定义了O型文法、上下文无关文法、上下文有关文法和有限状态文法。其中上下文无关文法又叫短语结构语法,应用于自然语言的自动句法分析和生成中。但由于短语结构语法的分析能力不高,难以区分大量的歧义句子。20世纪50年代末期,乔姆斯基指出短语结构语法在描述自然语言方面的种种局限性,并提出了转换生成语法来克服短语结构语法的这些局限性。70年代以来,乔姆斯基发现,转换生成语法的生成能力太强,于是提出管辖约束理论来限制转换生成语法过强的生成能力。然而,转换生成语法通常要涉及若干个句子之间的关系,在自然语言处理中使用不便,不如短语结构语法那样便于进行机器翻译的语法分析和自然语言处理。计算语言学的学者们抛弃了转换生成语法,转向短语结构语法,出现了各种增强的短语结构语法,例如,扩充转移网络、词汇功能语法、功能合一语法、广义短语结构语法、中心词驱动的短语结构语法等。这些语法采用复杂特征来改进短语结构语法,采用合一运算来改进传统的集合运算,从而有效地克服了短语结构语法的缺点,保持了短语结构语法的优点。[14]
1969年,厄尔利提出厄尔利算法,把自底向上分析与自顶向下分析结合起来,提高了分析效率。1980年,马丁提出线性分析法,为短语结构语法的自动分析提供了一种较好的控制方法。1985年富田胜(Wikipedia)提出富田胜算法,这是一种基于上下文无关文法的高效自然语言剖析算法,这都是自然语言自动句法分析的理论基础。
语义自动分析方面,1966年,菲尔摩提出了格语法,建立了句法和语义之间的关系。1968年,美国心理学家奎廉(Quilian)在研究人类联想记忆的时候提出语义网络。1972年,美国人工智能专家西蒙斯和斯罗肯首先将语义网络用于自然语言理解系统中。威尔克斯于1974年提出优选语义学,提高了英法机器翻译的译文质量。商克提出了概念依存理论,用于英语的自动理解。20世纪70年代初,美国数理逻辑学家蒙塔格提出蒙塔格语法用数理逻辑来研究自然语言的句法结构和语义关系,开辟了一条新的研究途径。
这些基础理论的研究,为计算语言学的进一步发展奠定理论基础。计算语言学从另外的角度促进了这些学科的发展。同时,计算语言学在机器翻译、信息检索、人机接口等信息处理领域有广泛的应用前景。
随着计算语言学研究的发展,一系列的形式模型开始建立起来。这些形式模型大致可以归纳为如下几种:[15]
(一)基于短语结构语法的形式模型
主要有乔姆斯基的短语结构语法、递归转移网络和扩充转移网络、自底向上分析法与自顶向下分析法,通用句法生成器和线图分析法、管辖——约束理论与最简方案,厄尔利算法、左角分析法、CKY算法,富田(Tomita)算法。
(二)基于合一运算的形式模型
主要有卡普兰的词汇功能语法,马丁的功能合一语法,加兹达尔的广义短语结构语法,波拉德(Pollard)的中心语驱动的短语结构语法,皮雷拉(Pereira)的定子句语法等。
(三)基于依存和配价的形式模型
主要有特斯尼耶尔(Tesnière)的依存语法,哈德森的词语法等。
(四)基于格语法的形式模型
主要有菲尔摩的格语法和框架网络。
(五)基于词汇主义的形式模型
主要有格罗斯(Gross)的词汇语法,斯里特(Sleator)和坦波利(Temperley)的链语法,伯德里奇(Baldridge)等的组合范畴语法(Combinatory Categorial
Grammar,简称CCG)、词网(WordNet)等。
(六)基于概率和统计的形式模型
主要有N-元语法(N-gram),隐马尔可夫模型(Hidden Markov Mode,简称HMM),最大熵模型(Maximum Entropy,简称ME),条件随机场(Condition Random Field,简称CRF),查尔尼亚克(Charniak)的概率上下文无关语法和词汇化的概率上下文无关语法,贝斯(Bayes)公式、动态规划算法、噪声信道模型、最小编辑距离算法、决策树模型、加权自动机,维特毕(Viterbi)算法、向内向外算法、向前向后算法等。
(七)语义自动处理的形式模型
主要有美国数理逻辑学家蒙塔鸠(R.Montasue)的蒙塔鸠语法,威尔克斯(Wilkes)的优选语义学,斯坎克(Schank)的概念依存理论,迈尔查克(Melchuk)的意义——文本理论等。
(八)语用自动处理的形式模型
主要有曼恩(Mann)和汤姆逊(Thompson)的修辞结构理论、文本连贯中的常识推理技术等。
计算语言学形式模型的研究大大地丰富了传统的理论语言学的内容,是计算机时代理论语言学研究的重要成果,我们应当特别关注这个领域的研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。