最人性的人
在制造可以像人一样思考的机器的竞赛中,“图灵测试 ”就是试验场——一年一度的竞赛在世界上最先进的人工智能程序和几个普通人之间展开。目标是什么?为了看看计算机能否比人更像人。身为一名拥有计算机与哲学双学位的诗人,本文作者在亲身经历了“人机大战”之后,发现技术的进步不仅改变了我们的生活方式,更提出了新的问题:人之为“人”,到底意味着什么?
文/布莱恩·克里斯蒂安 翻译/菲必
2009年9月,英国布莱顿。我在距离西雅图的家5000英里的一个酒店房间里醒来。吃完早饭,我走入那飘着微微咸味的空气中,沿着海岸步行。这是孕育了我的母语的国家,我却发现一路经过的那些标识中有好多我都看不懂——LET AGREED(“此房已租”),其中一个这么写着,非常醒目,大字印刷,我却一头雾水。
我停下,默默地看了一会儿大海,脑子里一遍又一遍地对那个标识进行语法分析。通常说来这种有趣的语言现象和文化差异总是令我很着迷,但今天却让我倍感担忧。在下面的两个小时中,我得坐在计算机旁,和几位陌生人进行几回合5分钟长的即时聊天。对方分别是一位心理学家、一位语言学家、一位计算机科学家,还有一位是英国很受欢迎的一个科技节目的主持人。他们几位将组成评委会,评定我有生以来被要求展现的最奇怪的一种能力——我必须说服他们,我是个人。
幸运的是,我确实是个人;不幸的是,我不知道这一点到底能有多大帮助。
图灵测试
在过去的二十年间,人工智能的相关研究人员每年都会聚集在一起,参加业内这项众人期待已久,同时也争议颇多的盛会——大会将把“洛伯纳奖” (Loebner Prize)颁给这个被称为“图灵测试”的比赛的胜出者。这项测试是以英国数学家艾伦·图灵(Alan Turing)的名字命名的,他是计算机科学的创始人之一。1950年,他曾试图回答这一领域内最初的一个问题:机器能思考吗?也就是说,有没有可能建造一个足够先进的计算机,真的能够思考,拥有真正的智能与思想?如果某天这样的机器真的出现了,我们怎么能够知道呢?
图灵没有把这个问题局限在理论探讨中,而是提出了一个实验。几位评委通过计算机终端,分别向几对他们看不到的回应者——其中一个是人类方的“联盟选手”,另一个则是计算机程序——提出问题,然后分辨出谁是谁。对话内容从日常闲谈到琐碎提问,从名人八卦到严肃哲学——总之是人类谈话一切可能的范畴。据图灵预计,到2000年,计算机将可以在5分钟的谈话后骗过30%的真人评委,届时人们将“毫无争议地说机器是会思考的”。
图灵的预言还没有实现,然而在2008年的比赛中,得分最高的计算机程序仅以一票之差输给了它的人类对手。当我读到这则新闻的时候,我立即意识到2009年在布莱顿举行的比赛将有决定性的意义。我之前从未参加过这个比赛,但我觉得我应该去——并且不仅仅是作为一名观众,而是作为人类防守联盟的一员。一个钢铁般的声音不知打哪儿在我心中升起:那种事决不能在我的眼前发生。于是我决定加入联盟方,参加比赛。
一想到要跟世界最顶尖的人工智能程序开展面对面(或者说,头脑对主板)肉搏,我心中立刻充满一个浪漫的念头:作为联盟一员,我捍卫的将是整个人类,以卡斯帕罗夫大战“深蓝”那种方式(编者按:国际象棋冠军加里·卡斯帕罗夫曾于1996、1997年两度出战IBM开发的超级计算机“深蓝”,第一次胜出,第二次落败)。
在比赛过程中,四位评委每人都要跟每对参赛者的其中一位交谈5分钟,然后换另一位,接下来他们有10分钟的时间考虑并判定哪一个是人类。他们还要为所有的参赛者进行排名——万一出现平局时可作为参考标准。之后,得票最多,排位最高的计算机程序(无论其是否成功过骗过30%的评委并通过图灵测试)将赢得“最像人类的计算机”称号。这是所有研究团队竞相追逐的目标,附带现金奖励(通常是3000美元),但有趣的是,还有另一个称号,是颁给胜出的联盟选手的——“最人性的人”奖。
作为最初的获奖者之一(1994年),查尔斯·普拉特 (Charles Platt) 是一名记者,同时也是一位科幻小说家。《连线》杂志采访他,问他是怎么拿到“最人性的人”奖时,他回答说, “你只要表现得情绪无常、暴躁易怒、言语可憎就行了”。这话一下击中了我,让我觉得又好笑又凄凉,但从更深层次来讲,这是一声战斗的号角:我们到底怎样才算尽了“人之为人”的本分——不仅在与机器的比赛中,而且是在人生里?
“做你自己”的重要性
自1991年开始,图灵测试一直由 “洛伯纳大奖赛”组织进行。赞助人休·洛伯纳的背景十分有趣:一个靠卖迪斯科跳舞毯起家的商业大亨。当被问到策划年度图灵测试的动机时,他最主要的理由竟然是懒惰:在他所设想的乌托邦式的未来中,失业率将近于百分之百,几乎所有的人类事业和产业都被外包给了智能机器。
为了知道怎样能加入联盟方参赛,我找到了洛伯纳本人。我向他解释说我是一个科学和哲学方面的非虚构类作家,我对“最人性的人”奖非常着迷。很快我就进入了联盟参赛者名单,简单了解了比赛的操作流程,但除此之外就没什么了。“其实也没什么别的需要知道的了,说实话。”他说,“你本来就是人嘛,做你自己就行了。”
“做你自己”已经成为联盟方的格言了,但在我看来,多少是对人类本能过于天真的自信。我们的对手中有许多是数十年努力的结果(当然了,我们自己也是),他们的人工智能研究团队拥有巨大的数据库,记录了大量的试运行数据,并做了很多统计分析。也就是说,那些程序非常清楚如何扬长避短,它们知道哪些方式会将谈话引入深层交流,哪些会导致草草收场。而我们这些联盟选手不怎么上道的直觉——还有评委们的直觉——可没这么精准。多年来我们对约会教练和公共演讲课程的需求已经充分证明了这一点。从2008年的比赛记录可以看出,真人参赛者简直太无趣太扫兴了,以至于评委们都感到难过——“我为屏幕后面那些真人选手感到抱歉,一直谈天气,我想他们肯定觉得有点烦了”。与此同时,一个程序正把另一位评委迷得神魂颠倒,一直在不停地发LOL(太好笑了)和笑脸的表情。我们实在应该做得更好一点。
因此,从一开始我就打算彻底违背那个“露个脸,做自己”的建议——我打算花上几个月的时间准备,竭尽所能。
特别命题
为了理解人类对自我的认知为何与计算机的历史如此密切相关,很重要的一点是要意识到Computer(“计算机”,也可以理解为“计算员”) 也曾经是“人”。在20世纪初,在Computer这个词成为遍及我们21世纪生活每个角落的一种数字处理设备之前,它曾经是一种对职业的描述。
从18世纪中叶以来,computer(计算员) 曾出现在集团、工程公司以及大学等各类企业及机构的工资单上,并且有很多是女性。他们的工作是进行计算和数据分析,有时候需要用最简单初级的计算器来辅助工作。这些最初的计算员曾参与过所有的计算工作,从1757年对哈雷彗星回归的第一次准确预测——这是牛顿万有引力定律的早期证据之一——到由物理学家理查德·费曼带领的“曼哈顿计划”,他们的身影无处不在。
回顾计算机科学的早期文献,我们惊奇地看到那些作者是如何描述和定义这种新型的高级装置的。举个例子,图灵的论文在描述这种前所未见的“数字计算员”时,曾将它与人类计算员进行类比:
数字计算员(机)背后的概念也许可以这样解释:设计这些机器的目的就是让它们去完成人类计算员可以完成的任何操作。
当然,在之后的数十年,“数字计算机”不仅成了默认的用法,而且取代人类计算员成为了真正存在的东西。在20世纪中期,一个具有划时代意义的数学研究的新玩意曾被称为“像个计算员一样”。而在21世纪,反而是一个人类数学天才常常被说成是“像个计算机一样”。在关于人类独特性的漫长传奇中,这是一次奇诡的扭转:我们变得像曾经像我们的东西,我们模仿着我们曾经的模仿者。
自有历史记载以来,哲学家、心理学家和科学家就一直试图为人之为人的独特性找到一个本质的定义。哈佛大学的心理学家丹尼尔·吉尔伯特 (Daniel Gilbert) 说,每一个心理学家,在他或她事业生涯的某个时刻,必须要写下一个属于他或她自己版本的一句话,他称之为“特别命题”。具体说来,“特别命题”应该是这样一句话:
人类是唯一______________的动物。
也许可以说,人类自我认知的历程,就是这句“特别命题”在不断的失败和被揭穿中被重写的历程。唯一不同的是,我们现在要担心的不仅仅是“动物”了。
我们一度以为只有人类会使用语言,但这点一年比一年更不确定了;我们一度以为只有人类可以使用工具,但随着动物行为研究的推进,这种说法也慢慢动摇了;我们一度以为只有人类会做数学,而如今若要我们来完成我们的计算器所能做的运算,简直不可想象。
我们也许要扪心自问:在某种意义上,我们对自己独特性的定义变成了对科学发展前沿的一种反应,这样合适么?还有,为什么从一开始我们就非要觉得自己是独一无二的呢?
“甚至有时好像是这样,”普利策奖得主,认知科学家侯世达(Douglas Hofstadter)说,“朝人工智能方向前进的每一步,与其说产生了某些大家认为是真正智能的东西,倒不如说揭示了什么东西不是真正的智能。”这句话乍一看像是一种安慰——它保全了我们作为唯一的思考者的优越感——但令人不安的是,它更像是节节败退,像中世纪的军队放弃了城堡而退守主楼要塞一样。但这种撤退不会无限期持续下去。试想:如果一切我们以为跟思考有关的东西慢慢都变得与思考不相干了,那么……究竟什么是思考?人类“自我”最后的要塞要退到哪里呢?
21世纪的故事,从某种程度上来说就是“现代智人”在不断易主的领地上一次又一次立桩划界的故事,一边是洪水猛兽一边是机械大军,一边是茹毛饮血一边是高等数学。
这种退守是好事还是坏事?比如说,计算机的计算能力已经炉火纯青,它们是侵占了人类活动领域,还是说将我们从非人类的活动中解放出来,给了我们更人性化的生活?后一种观点似乎更加吸引人,但转念一想又并非如此。设想将来某天留给我们的“人类活动”越来越少,我们被“解放”到了一个越来越逼仄的空间,那时又怎么办呢?
图灵测试最初的创设,固然是为了衡量技术发展的进程,但它也可以轻易的转化为对我们自身的测量。牛津大学的哲学家约翰·卢卡斯(John Lucas)说,如果我们无法阻止机器通过图灵测试,那将“不是因为机器变得太聪明,而是因为人类——至少是很大一部分人类——太蠢了”。
除了作为一种技术衡量标准之外,图灵测试实际上跟交流活动密切相关。在我看来,它最深刻、也最实际的问题在于:我们如何实现彼此之间有意义的交流,并且在有限的语言和时间条件下,尽可能充分地表达意义?共情是如何做到的?某个人进入我们的生活,并对我们变得越来越重要,这一过程是怎么发生的?这些东西,于我而言,是这项测试最核心的问题——也是人之为人最核心的问题。
研究那些在图灵测试中表现出色的程序时,最令人着迷的是观察在没有任何情感亲密性的前提下,谈话交流是如何可能的。坦白说,阅读那些程序的谈话记录本身就是一次醍醐灌顶之旅,让我们看清楚人类谈话的种种方式——反对、回避问题、调节气氛、转移话题、分散注意力、消磨时间。那些在图灵测试中被认为不构成真正谈话的东西,很可能放到现实生活中也一样。(请阅读Eliza谈话样本)
Eliza谈话样本
1950年,当图灵测试第一次被提出时,它还只是个假设:那时的科技水平还远没有达到可以将这个测试付诸现实的程度。第一个引起巨大关注的对话型计算机程序叫Eliza,它是在1964和1965年由麻省理工学院的约瑟夫·魏泽保(Joseph Weizenbaum)编写的。Eliza以一位罗杰斯学派心理医师为原型,工作原理非常简单:从用户自己的语言中提取关键字,然后用他们的原话进行反馈。(“我不开心。” “你觉得来这里能缓解你的不开心吗?”)一旦用户有所怀疑,它就会回到一些更泛泛的表达,比如“请继续”。这种将用户自己的说法调整成预设的模式,然后用它自己的预定语言进行回应的技巧被称为“模版配对”,这是Eliza唯一的功能。
Eliza的谈话记录显示,尽管这套规则很简单,但若语境得当,乍一看会显得非常善解人意。
结果令人震撼:许多第一次跟Eliza交谈的人都觉得他们是在跟一个真人聊天。有时候连魏泽保亲自解释实情都没有用。很多人要求“私聊”,而且一聊就是几个小时,离开时还说觉得自己刚刚经历了一场非常有意义的心理治疗。学者们迫不及待的得出结论,说Eliza代表了“计算机如何理解自然语言问题的一种普适解决方案”。
医学界对Eliza的反应,可以算是这个故事里最奇怪的插曲之一。他们认为魏泽保找到了一种绝妙而实用的心理治疗术。比如《神经与精神疾病》杂志在1966年对Eliza的评论:
“这一专门为治疗而设计的计算机系统每小时可以接待数百名病人。参与设计和操作这一系统的真人治疗师不会被替代,而是变得更加高效。”
著名科学家卡尔·萨根(Carl Sagan)在1975年也表示同意:
“我可以想象整个计算机心理治疗终端网络的发展,就像成排的大型电话亭一样,我们只需支付几美元一次的咨询费,就可以和一位专注的、久经考验的,并且基本上是非指导性的心理治疗师进行一次深入的交谈。”
至于魏泽保,则在掌声和惶恐中做出了一个令人意想不到的决定:他叫停了Eliza计划,并成为科学界对于人工智能研究最公开的反对者。但是,潘多拉的盒子已经打开,一切不可能再回头了。Eliza“模板配对”的基本框架和方法此后不断完善,并以这样或那样的形式应用在之后出现的几乎所有聊天程序中,也包括2009年洛伯纳大奖赛的参赛程序。对于这些程序的热情和不安,有增无减。
混蛋变天才
第一届洛伯纳大奖赛于1991年11月8日在波士顿计算机博物馆举行。最初的几年,竞赛要求每个计算机及真人参赛者选择一个话题,以便限制谈话范围。1991年真人联盟方的参赛者之一是研究莎士比亚的专家辛西娅·克莱(Cynthia Clay),在关于莎翁的一段谈话结束后,三位评委一致裁定她是台计算机,因为“没有人能知道那么多关于莎士比亚的事。”(克莱一直将此事视为一种恭维。)
程序员约瑟夫·温特劳布(Joseph Weintraub)则为他所编写的程序PC Therapist III选择了“古怪谈话”作为策略,并赢得了首届“最像人类的计算机”大奖。观察这个程序的运行过程,你会发现,“古怪谈话”根本就不是一个话题,而是一种态度。温特劳布成功地钻了一个赛制上的空子,同时利用了聊天机器人的自然行为模式以及人们对计算机和人脑的刻板印象。从策略上来讲,这是一步高招。(请阅读古怪谈话样本。)
古怪谈话样本
通过忠实严谨地回应与问题有关的信息,克莱展示了她的知识和理解力——但这种就事论事,百科全书式的方式很容易让人联想到计算机系统。右上是克莱谈话的一段样本。
程序员约瑟夫·温特劳布(Joseph Weintraub)则为他所编写的程序PC Therapist III选择了“古怪谈话”作为策略。右下是“古怪谈话”的一段样本。
“我真的以为 [PC Therapist] 是个人,因为它……古怪而好笑,但又挺正常的。”一位评审说道,他是哈佛大学的研究生。温特劳布的程序切换话题时天马行空,大量使用不合逻辑的推论和预先设定好的俏皮话,插科打诨,像是一个更加“人性化”的性格类型。
正如三次获得“最像人类的计算机”大奖(00年、01年和04年)的设计者理查德·华莱士(Richard Wallace)所解释的:
跟ALICE(华莱士的聊天机器人)聊天,你会发现,最随意的交流是“没有背景的”,每一次回应都只针对当下的问题,而不需要了解整个谈话的上下文。
“无背景交谈”最经典的类型之一就是PC Therapist III那种天马行空式的插科打诨。而另一种呢,是骂人。
1989年5月的一天,21岁的都柏林大学本科生马克·汉弗雷(Mark Humphrys)在网上发布了他编写的一个类似于Eliza的计算机程序,叫“MGonz”,然后离开实验室出门了。爱荷华德雷克大学的一个家伙(网名“某人”)给他发了一条信息——“手指”(finger),这是早期互联网上询问对方用户基本信息的一种指令。令“某人”惊讶的是,他立马收到了回复:“少说这种加了密的屁话,不会说整句啊。”这一来引发了“某人”和MGonz之间持续近一个半小时的对骂。(最精彩的部分莫过于“某人”所说的“你听起来他妈的像个机器人,就会重复别人说的话。”)
第二天早上,汉弗雷回到实验室,看到谈话记录,简直惊呆了,还有点百味杂陈的情绪:MGonz没准能通过图灵测试呢,不过证据实在污秽不堪,他不敢发表。
汉弗雷对Eliza范式的改动在于,把治疗师的角色换成了一个爱骂人的混蛋。当MGonz找不到明显的线索进行回应时,就会退回到那些翻来覆去的骂人套话——不再是心理咨询里的“你有什么感觉?”,而是“你他妈就是个混蛋”,或者“要么说点有趣的,要么趁早闭嘴”之类的话。这招简直太高明了——吵架就是典型的无背景谈话,与语境没有任何关系,只是一种马尔科夫链式的反击、元反击、元元反击,每一句回应都只针对上一句。如果一个程序能诱导我们掉入这个陷阱,它当然能通过图灵测试了。
究竟哪种类型的人类行为可以被计算机所模仿,这个问题再次启发了我们对自己的反思。以污言秽语伤人只是一种不那么复杂的对话形式而已。读了关于MGonz的论文以及它的谈话记录以后,我发现自己能更有建设性的处理一些激烈的对话了。在下意识想要冲口而出那些无背景回应之前,我立刻意识到这只是一种条件反射,而不是针对我正在说的具体问题或是正与我交谈的人。这种不假思索的说话方式之荒唐可笑,忽然间一目了然。
小心无聊
走进布莱顿中心,我找到了洛伯纳大奖赛的赛场,一排排的座位边上已经聚集了不少观众。在前面奋力工作着的,大概都是程序员了。他们忙着连接一团团的电线,指如疾风般敲击键盘,进行最后的操作。我还没来得及好好看一眼,就被今年的组织者菲利普·杰克逊(Philip Jackson)带到了帘幕后的联盟方区域。在观众和评审的视线之外,我们联盟方的四个人围坐在一张长方形的桌子旁,每人面前一台笔记本。几位成员分别是:道格(Doug),加拿大语言学研究员;大卫(Dave),美国圣地亚国家实验室的工程师;奥尔加(Olga),来自南非的搞语音研究的硕士生;还有我。就在我们互相自我介绍的时候,评审和观众们已经陆续落座。一个穿着绿色花衬衫的家伙突然闪到我们旁边,一边连珠炮似的说话,一边大口啃着三明治。我立即意识到他只可能是一个人:休·洛伯纳。“一切就位”,他边吃边说,“第一轮测试马上就要开始了”。我们安静下来,眼睛直盯着笔记本屏幕上闪烁的光标。我的手架在键盘上方,就像狙击手的双手紧张地架在枪套上一样。
光标,一闪一闪。我,一眨不眨。突然间,文字和词语开始逐渐显形:
嗨,你好吗?
图灵测试开始了。
洛伯纳大赛的评审通常分两种:一种闲聊为主,一种喜欢质询。后者单刀直入,抛出各种文字问题、空间推理问题,以及故意的拼写错误。他们设置好一个口头障碍田径场让你去跑,就跟严刑逼供似的。对程序员来说,这种谈话方式很难准备,因为一切都可能发生——这也是为什么图灵最初选择了语言和对话作为测试方式,因为它确实能够测试一切,但负面效果是无法给个人太多自我表达的空间。
闲聊的优势则在于比较容易让人感受到谈话的对方是怎样一个人——如果你真的是在跟人交谈的话。这种风格的谈话对外行的评审来说也比较自然。所以,洛伯纳奖的评审或明或暗地都倾向于闲谈,但它的劣势在于,对话大都是类似的,程序员很容易预测出很大一部分问题。
我开始回复了。
联盟选手:嗨!
联盟选手:我很好,真的开始说话了,挺兴奋。
联盟选手:你怎么样?
我可以想象一堆无聊的谈话在我眼前展开:挺好。你从哪儿来?/西雅图。你呢?/伦敦。
只剩下4分43秒了。我的手指焦虑地上下翻飞。
时光飞逝,而我们却还停留在无关痛痒的小笑话上。我急切地想要撇开台词,废话少说,直入主题——因为我知道计算机也能进行这种闲谈,而且它们是有备而来的。一堆客套话在我眼前很不妙地展开,我意识到每一句都差不多都像是机器人会说的话。到底怎样,我一边想一边又敲上去一句客客气气的小玩笑,到底要怎样才能引出一段明显是人和人之间的沟通呢?
话轮转换
我必须弄明白的一点是,如何利用洛伯纳大奖赛新规定的“即时输入”(Live typing)模式。它与电子邮件、短信息,以及标准的即时通讯系统有一个关键性的不同:它会显示每一次的按键输入。聊天双方可以看到彼此每一次拼写错误,每一次退格等等。90年代的网络聊天工具曾经试图用过这种逐字显示的方式,但大部分人是抗拒的,因为有种被侵犯的感觉:人们之所以喜欢书写,也是因为有充分的时间和空间组织好语言,编辑好一条信息,然后再发送给别人。但逐字显示也有它的优势,它更贴近说话时的真实状态,语言转换更随意,语法变化多端——在雄辩上或有欠缺,但更灵活。
同时,它让我们看到对方犹豫的过程。在以每个回车键为单位显示文字的对话中,一般的停顿都不会有特别的交流含义。但当反馈变得更加灵活,更加即时,沉默就产生意义了。比如说,在面对面谈话中若不能立即回答某个问题,在许多情况下其实相当于已经做出回答了。我记得我曾向一个朋友询问他和新女友进展如何,他一边发出“嗯”的声音,一边想寻找合适的词来表达,很明显他们之间出现了问题。
那么,对于这种不同寻常的输入模式,可以用些什么策略,又要注意回避哪些问题呢?长篇大论显然行不通了。几年前,这还是一种很有效的策略,各种程序大口吞噬着比赛时间,连篇累牍地放出答案,势如洪水地冲击着评委。下面就是1996年某个程序的对话记录:
计算机:给我讲个笑话怎么样?
评审:不。
计算机:我最喜欢的笑话是这样的……一条狗一瘸一拐地走进一间酒吧,脚上缠着条带血的绷带。他头上戴着一个10加仑重的帽子,还配了一支六发左轮手枪。他咆哮道:“我在找那个打了我爪子的人。”
“这笑话不好笑……”评审写道,并且让程序再讲一个——于是它就照做了(“一根打了结的、磨的很旧了的琴弦走进一间酒吧……”)。此时,已经整整三分钟过去了。
在即时输入的新赛制下,如果一个计算机(或联盟选手)开始长篇大论地说话,评审会及时打断。
于是我想到了另一个作战策略——在输入文字的时候,把它更多的当成是一种口语,而不是书面语。轮流发言、“边等边解析”是计算机能理解的模式,但人类口语里的随意变化性与时间感是机器所不能模拟的。
比如,如果评委有一段时间没回应了,那么无论是不是轮到我说话,我都会对我的上一个回答稍微展开一下,比如加一句说明,或者向评委抛回一句疑问——就像我们平常交谈中出现沉默时会做的那样。如果我知道评委下一句话打算写什么,我会省掉他打字的工夫,直接接过来说。
当然了,在“发球上网”(速战速决)的机会和回答本身的复杂性之间是需要权衡的。前者需要简洁,后者则需要长度。在我看来,人类对话中的许多微妙之处(或者说困难之处)恰恰来自于理解(有时是误解)一个问题并给出合适(或不合适)的答案——所以,应该尽可能最大化双方交互的次数。
我发现有些评委在看到我“抢跑”发言时会感到惊讶或迷惑,他们停顿、犹豫、让步,有时甚至会把他们写了一半的话删掉。另一些评审则立即就理解了,并紧跟着也开始使用这种方式。
在2009年竞赛的第一轮,作为评审之一的沙勒姆·拉宾(Shalom Lappin)——他是伦敦国王学院的一位计算机语言学家——先跟一个叫做Cleverbot的程序对话,然后跟我对话。我的喋喋不休是显而易见的:5分钟内我进行了1089次敲击(平均每秒钟3.6次),Cleverbot则有365次(1.2次/秒)。拉宾在跟我的谈话中输入了548次(1.8次/秒),跟Cleverbot对话中则仅为397次(1.3次/秒)。我不仅完成了我的机器对手三倍的谈话量,而且提高了评审的参与度——比起cleverbot,拉宾在同我对话时说的话要多38%。
事后回顾谈话记录时,我试图找出一种能量化这种人与人之间沟通的流动性的方法(人机对话则是死板的)。我发现最好的办法是数一下双方交谈发生轮换的次数——我们姑且称之为“交换”吧。我确实比Cleverbot多输入了两倍的话,但真正的关键在“交换”之中——拉宾在跟Cleverbot谈话时交换了33次,而在他跟我的谈话中这个数字为492,几乎是前者的15倍。
联盟方的制胜开局
许多洛伯纳大奖赛的评审将图灵测试视为一种交叉盘问(攻辩双方一对一进行互相盘问的方式),奇怪的是,很多联盟方选手也这么认为。
2008年的一组人对人交谈从始至终没能摆脱那种呆板的“提问-反应”的模式。但下面的谈话中计算机从一开始就跟评审打趣:
评审:嗨!
计算机:阿门!
评审:传教士啊。
计算机:我们的父啊,在那网络空间中,赋予我们每日的带宽。
评审:传教士/书呆子 哈哈哈。你今天怎么样?
联盟选手生硬的回答引起了更多的盘问和强迫性的对话——你对如此如此的政治问题怎么看?但在跟计算机的对话中,评审被开场的俏皮话误导,以为对面是真人,于是一直保持着随意的态度,比赛于是朝着有利于计算机而不利于联盟方的方向进行了。
我发现有些联盟选手在面对评委时经常含糊其辞。在被问到他是哪一种工程师的时候,我左边的大卫回答说 :“出色的那种。:)”而我右面的道格,在回答是什么促使他来到布莱顿这个问题时说,“如果我告诉你的话,你一下子就会知道我是人类了。;-)”
在我看来,机智是很重要的,但闪烁其词则是把双刃剑。你表现出了幽默感,但也阻滞了谈话继续进行的齿轮。在图灵测试中联盟方最危险的做法也许就是拖延了。拖延是可疑的——因为设置阻碍的那一方看起来比较有问题——而且这还耗费了你最珍贵的资源:时间。
参加图灵测试的人都是陌生人,被限制在一个缓慢的、没有声调的媒介中,而且没有太多时间。五秒钟的图灵测试对机器来说很容易获胜:评委也就只有说句“哈喽”的时间,根本不可能从对方那里获得足够的信息来做出判断。要是五小时的测试,人类就会赢得轻而易举了。洛伯纳奖的组织者自大赛创立之初以来尝试过不同的时限,但最近几年他们基本上都坚持了图灵最初的5分钟的设定:这差不多是一段谈话开始变得有趣的临界点。
作为联盟选手,我很大一部分任务就是要在这几分钟内尽我体力和智力上的一切可能,最充分地参与谈话。我选择展现出一个作家的雄辩,而不是像法庭上的证人那样简洁。换句话说,我说的很多。只有当继续说下去可能显得非常无礼或可疑的时候,我才会暂停打字。其余的时间,我的手指一刻不停。“一个无聊的人就是当别人问他‘你怎么样?’时就真的开始告诉你他怎么样的人”,这就是我在人机大战中践行的准则。
评审:嗨,事情进展如何啊?
联盟选手:哈喽。
联盟选手:还不错。
联盟选手:等了好半天,不过……
联盟选手:能回来继续,还是挺好的。
联盟选手:你怎么样?
当我们结束之后,我的评审开始和我的计算机对手之一对话了。我围着桌子转了几圈,想看看我的战友们都在做什么。看到我的伙伴大卫的屏幕时,我注意到他的对话从一开始就好像他在接受审问一样,而他在用最俭省的短句回答:
评审:你来自布莱顿吗?
联盟选手:不是,来自美国。
评审:你来布莱顿做什么?
联盟选手:公事。
评审:你是怎么来参加了这个比赛的?
联盟选手:我回了封邮件。
像个很好的宣誓者一样,他把活儿全部交给了提问方去做。当看到大卫如此死板的表现时,我承认自己自信陡增——我,刚表现得像是世界上最差的宣誓者,倒可能很符合“最人类的人类”奖的条件。
这种自信持续了约莫60秒,够我转到桌子的另一边,看看我的另一位伙伴道格和他的评审都在说些什么。
评审:嗨,兄弟,我来自多伦多
联盟选手:酷。
联盟选手:枫叶队烂透了。
联盟选手:;-)
评审:我刚从多伦多大学计算机系的休假回来。
联盟选手:不错嘛!
评审:我还记得他们原先是个很棒的球队。
评审:老的可以去做碳素测试了,哈?
联盟选手:蒙特利尔加拿大人原先也是个很棒的球队……
联盟选手:叹气……
评审:嗯啊,他们现在也烂爆了。
联盟选手:(我蒙特利尔的,如果你刚没猜到的话)
道格和他的评审刚发现他们两人都是加拿大人。他们用各种缩写和昵称和俚语和当地的故事聊得热火朝天。然后他们开始谈论冰球了。
我有麻烦了。
在2009年比赛过去六个月后,YouTube上出现了一段视频,是一个人在跟计算机聊莎士比亚的《哈姆雷特》,他们的谈话逼真地令人震惊。有人怀疑这可能意味着聊天机器人以及人工智能的新时代就要来临了。另一些人,包括我在内,则觉得这没什么特别。复杂的行为不一定意味着有思想。也许只是记忆而已。正如达利所说:“第一个将年轻女子的双颊比作玫瑰的人显然是个诗人;而第一个重复它的人可能是个白痴。”
1997年的竞赛中,一位叫Catherine的选手一直在滔滔不绝地聊政治,积极评论着克林顿和白水事件。一切都进行得十分顺利,就在评审决定宣布对方为一位见解独到的“人”时——
评审:看来我得走了,Catherine。跟你聊天很愉快。
评审:下一轮开始前你要喝杯水什么的吗?
这时程序开始胡言乱语了。
计算机:好啊,总的来说……该结束这个话题了,我觉得,得做点实际的了!
评审:比如?
计算机:当然了!咱们继续吧。
计算机:我认为这取决于你来自哪里,但就像是《窈窕淑女》里那首歌唱的:“为什么女人不能更像男人一些呢?”
Catherine就此与胜利失之交臂。
这个故事告诉我们:任何演示都是不充分的。只有真正的交流才有说服力。
我们常常把智能、人工智能与行为的复杂性或成熟程度联系在一起,但很多时候,一个程序的行为可能是由几个“智能”程度迥异的软件共同产生的。所以,我不认为关键在行为的复杂性或成熟程度上,就像你不能通过一个演说家事先准备好的演讲稿来判断他的智商,而必须等到问答互动环节,看他怎么处理提问。计算理论学者哈瓦·西格尔曼(Hava Siegelmann)曾将智能描述为“一种对事物的敏感”。图灵测试赛场上那些滔滔不绝的程序可能会产生许多有趣的输出,但它们依然是僵化的、不灵活的。换句话说,它们是麻木无感的——即使有时它们是迷人的演说者,但它们不懂倾听。
随着21世纪的计算技术越来越朝着移动设备推进,我们看到90年代以来处理器速度上的爆炸性增长已经逐渐平息,产品开发的重点不再是单纯的计算能力的提升,而是更关注整体设计及其灵活性、反应性和易用性。这种转折可能会导向一种更健康的人类智力观——不再将“智力”理解为复杂、强大的,而更多是反应的、回应的、敏感的、伶俐的。尽管是面有瑕疵的镜子,但计算机还是帮我们返照到了自己身上的这些特质。
最人类的人类
2009年“最像人类的计算机奖”颁给了大卫·列维(David Levy)和他的程序Do-Much-More。列维是活跃于七八十年代数字象棋领域的早期领军人物之一,曾组织过马里恩·汀斯雷(Marion Tinsley)与切努克(Chinook)之间的跳棋比赛(这场比赛为90年代卡斯帕罗夫与“深蓝”之间的巅峰对决做了铺垫)。他最近还写了本书叫《与机器的爱和性》——你可以想象他脑子里都在想些什么。
列维站起身,鼓了鼓掌,从菲利普·杰克逊和休·洛伯纳手中接过奖,做了个简短的发言,说了说人工智能对于我们光明未来的重要性,以及洛伯纳奖对于人工智能的重要性。我知道接下来的环节是什么,我紧张得就像胃里打了个结一样。我很肯定道格要赢了,他和他的评审在谈话刚开始30秒的时候就已经聊加拿大聊的热火朝天了。
荒谬的加拿大人和他们的冰球,我想。然后我又想,居然会对这个愚蠢的奖杯如此在意,也算够荒谬的。接着我又想,飞了5000英里就是为了来参加个只有几分钟的即时聊天,更是荒谬。接着我又想了,也许当个亚军也不错啊,我可以再参加2010年的比赛,到时会在洛杉矶,靠这个主场的文化优势,最终向人证明——
“在此,结果同样显示了对真人参赛者的识别程度,”Jackson宣布道,“从排行榜上我们可以看出‘联盟1号’也就是布莱恩·克里斯汀,是‘最人性的人’。”
接着他颁给我“最人性的人奖”证书。
我说不清当时究竟是什么感觉。如果把当这奖是无意义的、微不足道的,似乎有些奇怪,但赢得这个奖项真的能说明我作为人的一些什么本质么?不过,最重要的是,我和我的联盟方战友们毕竟用一种戏剧性的方式扭转了2008年的那场失误。那一年,12位评审5次认定计算机程序比联盟方真人选手更像人类,其中有3次他们是被一个叫做Elbot的程序给骗了。如果再多一次,它就会骗过三分之一评审——超过图灵当年所说的30%的记录,并以此创造历史。Elbot是一家叫做Artificial Solutions的公司的作品,在获得洛伯纳奖,以及紧随其后的媒体报道和宣传之后,这家公司似乎将Elbot的商业应用放在了首位。无论如何,它没有作为返场冠军参加09年的比赛。
要是能跟它来一次短兵相接,那就更戏剧化了。2008年人与机器旗鼓相当,而2009年机器们则全线溃退——我们没有让一票流向机器那边。我们总以为科学的前进势不可挡,但就图灵测试而言,人类一直没有丧失阵地。
至于人工智能的前景,有些人把计算机技术的未来想象成一个天堂。像雷·库兹韦尔(Ray Kurzweil)那样的人集结在一个叫“奇点”的概念之后,他和他的大批信徒预想着某个时刻我们能制造出比我们更聪明的机器,它们再造出比它们自己更聪明的机器,如此这般,整个过程朝着我们几乎无法预计的巨型超智能的方向呈指数级地发展。在他们看来,这样的时代终究会来临,那将是一个技术迷狂的时代,人类可以把意识上传到因特网上,并设想在电子世界里获得一种永恒的、不灭的来世生活——即使肉体上不能实现,至少可以是精神上的。
剩下还有些人则将计算机技术的未来看成地狱。机器遮天蔽日,夷平了我们的城市,把我们封进高压舱里,然后用我们的身体制造能量,直到永远。
我不是个未来主义者。但如果一定要表态的话,我比较倾向于把人工智能的长远未来设想成为一个净化所:那些虽有缺陷,但本性善良的人们在这里得到净化——以及试炼——出来时会变成更好的人。
谁能想到,计算机最初的成就竟在于逻辑分析——一种被认为将人类同这个星球上的其他一切生物区别开来的最重要的能力?谁能想到,计算机在学会骑自行车之前,先学会了驾驶飞机,指挥导弹?谁能想到它在学会闲聊之前,已经能像模像样地谱写出巴赫那样的序曲?谁能想到它在像大部分蹒跚学步的孩子们那样,看到椅子就会说“椅子”之前,已经能够写出一篇半看得过去的关于后现代理论的论文了?
尽管计算机逐渐掌控了越来越多曾被认为只有人类才有能力涉足的领域,但它们依然掌握不了人类经验中那些最最基本的技能——空间定位、目标识别、自然语言、适应性目标定位——由此也告诉我们,这些每时每刻与我们相伴的基本能力是多么的不简单。
我们忘记了自己有多么不简单。计算机提醒了我们这一点。
我高中时代最好的朋友是兼职咖啡师。一天之中,她要对意式特浓咖啡进行无数次的微调,她得照顾到一切,从咖啡豆的新鲜程度到机器的温度到气压计对蒸汽量的影响,同时还一边像章鱼般灵活地操作机器,一边用各种不同语气姿态跟顾客聊着随便一个突然冒出来的话题。后来她上了大学,并得到了第一份“真正的”工作:无聊的按部就班的数据录入。她无限怀念地回想着自己的咖啡师岁月——那时她的工作才真正运用到了她的智力。
对于分析思维的盲目迷恋,以及随之产生的对生命的生物性——或者说动物性——和身体特性的贬低,都是我们应该抛弃的成见。在人工智能时代到来之前,我们也许应该重新回归中心——以往一代又一代的人都活的有点偏,偏向逻辑的、左半脑的那一边。另外,人类一直对“没有灵魂的”动物心怀蔑视,不甘心将自己视为动物的后代,但这种想法已经受到多重挑战:不断扩大的世俗主义和经验主义、对除我们之外的其他生物的认知及行为能力不断深入的认识等等。如此说来,人工智能也许能还为动物权益贡献力量呢。
我们应该回归到一个更平衡的关于我们大脑和思维——以及关于人类身份——的视野。我坚信,只有经历和理解了真正的脱离形体的认知之后——只有看到那些只关乎纯粹抽象而彻底脱离了可感现实的东西,看到它们的冷漠与荒芜之处——我们才能够冲破它。只有这样,才能将我们带回感官世界。
在2006年的一篇关于图灵测试的文章中,洛伯纳奖的创始人之一罗伯特·爱普斯坦(Robert Epstein)写道:“有一件事是肯定的:参加竞赛的联盟选手不可能变得更聪明了,计算机却可以。”我同意后半句,至于前半句,我彻彻底底强烈反对。
1996年时国际象棋世界冠军加里·卡斯帕罗夫第一次对战“深蓝”并取得压倒性胜利。当时他和IBM当即达成一致,同意下一年再赛。而当“深蓝”在97年击败卡斯帕罗夫(并非压倒性取胜)时,卡斯帕罗夫提出98年再赛,IBM却不愿迎战了。他们拆掉了“深蓝”,它再也没能下象棋了。
这个故事似乎要告诉我们——技术革新比生物进化要快得多(以年而非千年计),一旦“现代智人”被征服,他就不可能再迎头追上了。简单说来:图灵测试,一旦通过,就永远通过了。我可不这么想。
IBM在97年比赛后的急于脱身,恰恰显示出它的不安全感。事实是,人类之所以能走到今天,就是因为我们是这星球上适应性最强、最灵活、最有创造力,学东西最快的物种。我们不会原地倒下,就此认输的。
不会的,我想,计算机通过图灵测试的那一年当然会是历史性的一年,但那也不会为这个故事画上句号。实际上,再下面一年的图灵测试才真的值得一看——到那时,被打倒在地的我们,必须努力站起来;那时我们将学会如何成为更好的朋友、艺术家、老师、父母、爱人;然后我们将卷土重来。回来之时,我们会比以往任何时候都更“人类”。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。