大脑新皮质分6层,共包含300亿个神经元,它们又组成了3亿个模式识别器。这些模式识别器按层级关系组织,它们是思想的语言和思维模式识别理论的基础。只有具备自联想能力和特征恒常性能力,大脑新皮质才能识别模式。思维模式分两种:无目标思维和导向式思维,做梦就是无目标思维实例。
大脑是一种生理组织,而且是一种错综复杂的织物组织,与我们所知的宇宙中的其他任何事物都不同。但是,就像其他生理组织一样,它是由细胞构成的。确切地讲,这些细胞是高度专业化的细胞,但控制它们的原理和控制其他所有细胞的原理是一样的。人们能够检测、记录和解释这些细胞的电学信号和化学信号,也能够识别它们的化学成分。同时,人们还能够描述构成大脑织物神经纤维网的关系。总之,人们能够研究大脑,就像研究肾脏一样。
大卫·休伯尔
假设有一台机器,它的构造使它能够思考、感觉以及感知;假设这台机器被放大但是仍然保持相同的比例,因此你可以进入其中,就像进入一间工厂。假设你可以在里面参观访问,你会发现什么呢?除了那些互相推动和移动的零部件以外,什么都没有,你永远都不会发现任何能够解释感知的东西。
戈特弗里德·莱布尼茨
分层模式
在前面的章节中,结合不同的上下文,我多次介绍了那些简单的实验和观察资料。从这些观察资料中得出的结论必然会束缚我的那些关于“大脑必须做什么”的解释,就像19世纪初期和晚期进行的那些关于时间、空间以及质量的简单实验必然会束缚青年大师爱因斯坦关于“宇宙怎样运行”的思考。在接下来的论述中,我也会论述一些关于神经系统科学的基础的观察资料,并尝试避开那些尚存在争论的细节部分。
首先,让我解释一下为什么这一节会专门论述大脑新皮质。我们都知道,大脑新皮质负责以分层方式处理信息模式。没有大脑新皮质的动物(主要是非哺乳动物)基本上无法理解层次体系。能够理解和改变现实社会的内在层次性是哺乳动物独有的特征,因为只有哺乳动物才拥有这种最新进化的大脑结构。大脑新皮质负责感官知觉,认知从视觉物体到抽象概念的各项事物,控制活动,以及从空间定位到理性思考的推理以及语言——主要就是我们所说的“思考”。
人类的大脑新皮质,也就是大脑最外层,其实是一个较薄的二维结构,厚度约为2.5毫米。啮齿类动物的大脑新皮质大约邮票大小,表面光滑。灵长类动物在进化中的收获是,大脑顶部的其余部分出现复杂的褶皱,伴随有深脊、凹沟以及褶痕,它们扩大了大脑皮质的表面积。因为有了这些复杂的褶皱,大脑新皮质成为人类大脑的主体,占其重量的80%。智人拥有一个巨大的前额,为拥有更大的大脑新皮质奠定了基础;而我们的额叶则是处理与高层次概念有关的更为抽象模式的场所。
这种薄薄的结构主要包括6层,编号Ⅰ(最外层)到Ⅵ。来自Ⅱ层和Ⅲ层的神经元轴突投射到大脑新皮质的其他部位。Ⅴ层和Ⅵ层的轴突则主要建立起大脑新皮质外部与丘脑、脑干和脊髓的联系。Ⅳ层的神经元接收来自大脑新皮质外部神经元的突触(输入)联系,特别是来自丘脑的。不同区域的层数稍有不同。处于皮质运动区的Ⅳ层非常薄,因为在该区域它很少接收源自丘脑、脑干或者脊髓的输入信息。然而,枕骨脑叶(大脑新皮质中负责视觉处理的部分)还有另外3个子层,也被视为隶属Ⅳ层,因为有大量输入信息流入该区域,包括源自丘脑的。
一项关于大脑新皮质的重要发现是:其基础结构出现了超乎寻常的一致性。首先意识到这一点的是美国神经系统科学家弗农·蒙卡斯尔(Vernon Mountcastle)。1957年,蒙卡斯尔发现了大脑新皮质的柱状组织。1978年,他进行了一次观察,这次观察对于神经科学的意义,就相当于1887年反驳以太存在说的迈克尔逊—莫利实验对于物理学的意义。蒙卡斯尔对大脑新皮质显著的不变结构进行了描述,假定它是由不断重复的单一机制构成,还提议将皮层柱(cortical column)作为基本单位。上述不同区域某些层厚度的区别只是由各区域所负责处理的互联性的差异造成的。
蒙卡斯尔假定皮质柱中存在微小柱状体,但这一假定引发了争议,因为这种更小的结构没有明显的界定。可是,大量的实验揭示,皮层柱的神经元结构中确实存在重复的单元。我的观点是,这种基本单位是模式识别器,同时也是大脑新皮质的基本成分。与蒙卡斯尔关于微小柱状体的观点不同,我认为这些识别器没有具体的物理分界,它们以一种相互交织的方式紧密相连,所以皮层柱只是大量识别器的总和。在人的一生中,这些识别器能够彼此相连,所以我们在大脑新皮质中看到的(模块的)复杂连通性不是由遗传密码预先设定的,而是为反映随着时间的推移我们学到的模式而创造的。我将细致论述这一论点,我认为这就是大脑新皮质的组织方式。
应当指出,在我们进一步研究大脑新皮质结构之前,在合适的层面上建立新系统是很重要的。尽管化学理论建立在物理学的基础上,并且完全源自物理学,但在实际运用中,用物理学解决化学问题会显得很呆板,也行不通,所以化学才建立了自身的规律和模式。与之相似,我们得以从物理学中推论出热力学定律。我们曾经将一定数量的微粒称为气体,而非简称为一堆微粒,当时,解释粒子间相互作用的物理学方程式不适用,但热力学定律却适用。生物学同样也有其自身的规律和模式。单一的胰岛细胞十分复杂,在分子的层面上进行模仿更是如此;但若就胰岛素和消化酶调节的水平对胰脏运作的模型进行模仿,就简单很多。
相同的原理也适用于对大脑的理解和展示。在分子水平上对大脑进行反向操纵,展示其相互作用,的确是必不可少而且极具意义的。但是我们这一努力的目标是从本质上完善这个模式,以说明大脑是怎样处理信息,并产生认知意义的。
美国科学家赫伯特·西蒙(Herbert A.Simon)作为人工智能领域的创建者之一而闻名于世,他用适当抽象且极富才情的语言描绘了理解复杂系统的问题。1973年,在描述他发明的基本认知存储器(elementary perceiver and memorizer,以下简称EPAM)时,他写道:“假设你决定要把神秘的EPAM程序弄懂。我可以为你提供两个版本。一个是人工智能程序书中的版本——包含惯例和子惯例的整个结构……或者,我可以提供一个机器语言版本的EPAM,它是经过完整的转化之后的……我想我不必详尽地说明两个版本中哪一个能提供最简洁、最意味深长、最合法的描述……我也不会向你推介第三种……不能向你提供程序的版本,但可以提供计算机(被视为物理系统)按照EPAM运转时必须遵守的是电磁方程式和界定条件。那是最简单也最易理解的。”
人类的大脑新皮质中约有50万个皮质柱,每个皮质柱占据约2毫米高、0.5毫米宽的空间,其中包含约6万个神经元,因此大脑新皮质中总共有大约300亿个神经元。一项粗略的评估表明,皮质柱中的每个识别模式包含大约100个神经元,因此,大脑新皮质大约共3亿个识别模式。
当我们在考虑这些识别单元如何发挥作用的时候,我首先会说连从哪里开始讨论都是一个很复杂的问题。在大脑新皮质中,所有的事情都是自然而然地发生的,因此很难找到整个过程的起点和终点。我将会不断地提到一些我还没来得及解释但随后会重新讨论的现象,请大家谅解。
虽然人类只拥有简单的逻辑处理能力,但却拥有模式识别这一强大的核心能力。为了进行逻辑性思考,我们需要借助大脑新皮质,而它本身就是一个最大的模式识别器。大脑新皮质并不是实现逻辑转换最理想的机制,但却是唯一能帮助我们进行逻辑思考的武器。我们将人类下国际象棋的方法与典型的电脑程序下国际象棋的方法进行比较。1997年,电脑“深蓝”凭借每秒分析2亿个棋盘局面(代表不同的攻守序列)的逻辑分析能力,击败了人类的国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov)——现在这项任务由几台个人计算机就可以完成。当卡斯帕罗夫被问及每秒能分析多少个棋盘局面的时候,他的回答是一个都不到。那么他为什么还能和“深蓝”对弈呢?答案就是人类拥有很强的模式识别能力。然而,我们需要对这个能力进行训练强化,这可以解释为什么不是所有人都能玩大师级的国际象棋。
卡斯帕罗夫学习了大约10万个棋盘局面,这是一个真实的数据。因此,我们估计,一个精通某一特定领域的人大约掌握了10万个知识点。莎士比亚创作戏剧用到了10万个词义(涉及29000个不同的单词的多种组合)。涵盖人类医学知识的专家系统表明,一个人类医学专家通常掌握了大约10万个其所在领域的知识块。从这个专家系统里识别某一知识块并非易事,因为每当某一个具体的知识点被检索过后,就会呈现略微不同的面貌。
掌握了这些知识之后,卡斯帕罗夫下棋时,就会将他所精通的10万个棋盘局面同时与其眼前的局面相比较。所有的神经元在同一时间一起运作——思考“模式”。但这并不意味着它们在同时“激活”(如果真是如此的话,我们可能会摔倒在地),而是在进行处理的时候考虑“激活”的可能性。
大脑新皮质可以存储多少种模式呢?我们需要将冗余现象作为一个因素进行考虑。例如,一个你喜欢的人的脸并不是只存储一次,而是按顺序存储数千次。其中很多次都是在重复相同的图像,但大多数情况下展示的是不同的视角,包括不同的灯光效果、不同的表情等。这些重复的模式都不是以图像本身的形式存储(即,二维阵列的像素),它们是作为功能列表存储起来的,而模式的组成元素本身就是模式。下面我们将更加细致地描述这些功能的层级关系以及它们的组织方式。
如果一个专家的核心知识大约为10万个知识“点”(即模式),每个知识点的冗余系数约为100,这就要求我们存储1000万个模式。专家的核心知识以更为普遍、更为广泛的专业知识为基础,因此层级模式的数量可增加到3000万到5000万。我们日常运用到的“常识”的知识量甚至更大,实质上,与“书中智慧”相比,“街头智慧”对大脑新皮质的要求更高。把这项包含进去,再考虑到约为100的冗余系数,总量预计将超过1亿个模式。需要注意的是,冗余系数并非固定的——极其常见模式的冗余系数高达几千,而一个全新的现象的冗余系数也许小于10。
如下文将讨论的,我们的程序和行动中也包含了模式,同样也存储在大脑皮质区域内,所以我预测人类大脑新皮质的总容量并非只有数亿个模式。这个粗略的统计与我在上文中做出的约有3亿个模式识别器的估计紧密相关,所以每个大脑新皮质模式识别器的功能是处理一个模式的一次迭代(即大脑新皮质中大多数模式的多重冗余副本中的一个副本)是很合理的。据我们估测,人脑所能处理的模式数量与生理模式识别器数量处于同一量级。应当在此指出的是,我所说的“处理”一个模式,其实是指我们利用这个模式能做的所有事:学习、预测、确认以及执行(要么进一步思考,要么借助一种生理运动模式)。
3亿个模式处理器听起来也许是一个大数字,它也确实足以让智人发展出口头语言和书面语言、所有的工具,以及其他各种各样的创造。这些发明都是在原有发明基础上产生的,这也使得技术的信息含量呈指数级增长,正如我在库兹韦尔定律中所描述的一样。其他的物种都没能做到这一点。正如我曾讨论过的,其他一些物种,如黑猩猩,确实有理解、形成语言的基本能力,也能使用原始工_具。毕竟,它们也有大脑新皮质。但由于其形态较小,特别是额叶较小,所以能力有限。人类大脑新皮质的大小超过了阈值,所以我们能创造出更有力的工具,包括让我们理解自身智慧的工具。最终我们的大脑,结合它所发明的技术,将使我们创造出人造大脑新皮质,它包含的模式处理器将远远超过3亿个。为何不是10亿呢?或者10000亿?
模式结构
我在此介绍的围绕思维的模式识别理论是建立在大脑新皮质中模式识别模块进行的模式识别的基础上。这些模式(以及模块)是按照层级关系进行组织的。接下来我会讨论这个观点的智力来源,包括我在20世纪80年代和90年代做的层级模式识别工作和杰夫·霍金斯(Jeff Hawkins)与迪利普·乔治(Dileep George)在21世纪初提出的大脑新皮质模型(如图3—1所示)。
图3—1 大脑新皮质模式识别模块
每个模式(由大脑新皮质中约为3亿个模式识别器中的某一个进行识别)由3部分组成。
第一部分是输入,包括构成主要模式的低层次模式。不需要对每个低层次模式进行重复描述,因为每个高层次模式都为它们注明了出处。例如,许多关于词语的模式包含字母“A”。但不是每一个模式都要重复描述字母“A”,只要用相同的描述就可以了。我们可将它想象为一个网络指针。存在一个关于字母“A”的网页(即一种模式),包含字母“A”的单词的所有网页都会与“A”页链接。不同的是,大脑新皮质用实际的神经连接代替网页链接。源自“A”模式识别器的轴突连接到多个树突,一个轴突表示一个使用“A”的单词。另外,还要记住冗余系数:不止存在一个关于“A”的模式识别器。所有这样的“A”模式识别器都能向与“A”合并的模式识别器发送信号。
第二部分是模式的名称。在语言世界里,高层次模式就是简单的词语“APPLE”。尽管我们是直接利用大脑新皮质进行理解并处理语言的每个层面,但它包含的大多数模式本身并非语言模式。在大脑新皮质中,一个模式的名称就是每个模式处理器中出现的轴突[1];轴突激活后,相应的模式也就被识别了。轴突的激活就是模式识别器叫出模式的名称:“嗨,伙计们!我刚刚看到书写体的词语‘APPLE’了。”
第三部分是高层次模式的集合,它其实也是模式的一部分。对于字母“A”,就是所有包含“A”的词语,这些也与网页链接一样。处于某一层的每个被识别的模式触发下一层,于是该高层次模式的某一部分就展现出来了。在大脑新皮质中,这些链接由流入每个皮质模式识别器中神经元的生理树突[2]呈现出来。记住,每个神经元能接受来自多个树突的输入信息,但只会向一个轴突输出。然而,该轴突反过来却可向多个树突输出。
举一些简单的例子。图3—2的简单模式就是形成印刷体字母模式的一小部分。
图3—2 “A”的3个冗余(不完全相同)模式输向包含“A”的高层次模式
需要注意的是,每一个层次包含一个模式。这样的话,图形是模式,字母是模式,词语也是模式。每个这类模式都有一组输入信息、识别模式的处理程序(以模块内发生的输入为基础),还有一次输出(输向相邻的更高层次的模式识别器)。
西南至北部中间连线
东南至北部中间连线
水平横梁
最左垂直线
向上凹进
底部水平线
顶部水平线
中部水平线
上部环形区域
以上模式都是相邻更高层次的模式的组成部分,相邻更高层次也就是一种被称为印刷体字母的范畴(不过大脑新皮质中没有这种正式的分类,实际上,并不存在正式的分类)。
“A”:
组成“A”的两种不同模式,还有更高层次上的两种不同模式(“APPLE”和“PEAR”),“A”是其中一部分。
“P”:
此模式是更高的层次模式“P”的组成部分。
“L”:
此模式是更高的层次模式“L”的组成部分。
“E”:
此模式是更高的层次模式“E”的组成部分。
这些字母模式向被称为“词语”的更高层次模式输出。(“词语”这个词是人类语言的一种分类,大脑新皮质只将其视为模式。)
“APPLE”:
大脑皮质的不同区域都有同一层级的模式识别器,它们负责处理物体的真实图像(与印刷体不同)。如果你正盯着一个真实的苹果,低层次识别器会察觉到弯曲的边缘和表面颜色模式,从而导致模式识别器激活轴突,实际上就是说:“嗨,伙计们!我刚刚看到一个真实的苹果。”而其他的模式识别器会察觉到声音频率的组合,进而导致听觉皮质中的模式识别器激活轴突:“我刚刚听到了口语词‘APPLE’。”
别忘了冗余系数——对于每一种形式的“苹果”(书面语的、口语的、视觉化的),我们拥有的模式识别器不止一个,至少有数百个。冗余不仅能增加成功识别每个苹果实例的概率,还能处理现实世界中苹果的复杂多样。对于苹果这个对象来说,会有许多处理各种形态苹果的模式识别器:不同视角、颜色、光线、形状,还有品种。
还要记住,上述层级关系是概念层级关系,这些识别器并非真的放置在彼此之上。由于大脑新皮质的结构很薄,实际上仅有一个模式识别器处于上层。模式识别器之间的连接关系创造了概念层级。
思维模式认知理论的一个重要特征是,每个模式识别模块如何完成识别。模块中存储的是每个输入树突的分量,它表明了输入对于识别的重要程度。模式识别器为激活设立了一个阈值(表明该模式识别器已成功识别它所负责的模式)。不是每个输入模式都要在模式识别器激活时出现。即使存在输入缺失,只要不太重要,识别器仍会激活,但假如很重要的输入缺失的话,它就不大可能被激活了。被激活时,识别器实际上是在说:“我所负责的模式大概都来了。”
模式识别模块的成功识别绝不只是计算激活的输入信号(即使是对重要参数加权的计算)。每个输入的数值也会产生影响。对于每个输入,有一个参数表示预计的数值大小,另一个参数表示数值的变化程度。要弄清楚它的运作机制,可以假设我们有一个负责识别口语词“steep”的模式识别器。该口语词有4个音:[s],[t],[E]和[p]。[t]音位就是“舌齿辅音”,是当空气切断上齿的接触时,舌头发出的声音。慢慢地将[t]音位清晰地发出来基本上是不可能的。[p]音位是“爆破辅音”或者“闭塞音”,它是由于声带突然阻塞([p]就是被双唇阻塞),空气无法通过而产生的声音。它发音也很快。元音[E]是由声带和张开的嘴共振产生的。因为它比[t][p]那样的辅音持续的时间更长些,所以就被当成“长元音”。但它的持续时间也是多变的。[s]音位是我们所知的“嘶声辅音”,是由空气通过紧闭的上下齿边缘发出来的。一般来说,它的持续时间比[E]这样的长元音要短,但也多变(换言之,你可以将[s]发得很快,也可将其拖长)。
在语音识别工作中,我们发现:为了识别语音模式,需要编码这类信息。例如,词语“step”和“steep”非常相似。尽管“step”中的[e]音位与“steep”中的[E]音位元音上有些区别(它们有着不同的共振频率),但根据这些经常混淆的元音区别这两个词并不可靠。更为可靠的区分方法是,与“steep”中的[E]相比,“step”中的[e]要短些。
对于每个输入,我们可以用两个数字为这类信息编码:预计的数值大小和该数值的变化程度。在“steep”中,[t]和[p]的预计持续时间都非常短,预计变化程度也非常小(即我们并不期望听到长音[t]和[p])。[s]的预计持续时间短,但变化程度也大一些,因为它可能拖长。[E]的预计持续时间长,变化程度也非常大。
在语音识别的例子中,“数值大小”参数指的是持续时间,但时间仅是其中一个可能维度。在字符识别中,我们发现类似的空间信息对于识别印刷体字母很重要(例如字母“i”上面的点应比其下面的部分小得多)。在更高的抽象层次中,大脑新皮质将模式和所有的连续统[3]一起来处理,例如吸引力的水平、讽刺、快乐、沮丧,还有其他无穷无尽的感觉。我们可以从复杂多样的连续统中找到一些相似点,就像当初达尔文把地质峡谷的物理尺度与物种变异程度联系起来一样。
在人的大脑中,这些参数都源自大脑自身的经验。我们并非天生就有音位知识,不同语言的音位系统区别很大。每个模式识别器的习得参数,都来源于众多的模式实例。(因为,要有许许多多的模式实例才能把该模式输入的预计数值分布确定下来。)在某些人工智能系统中,这些类型的参数是由专业人员手工编码而成的(例如,向我们说明不同音位预计持续时间的语言学家)。我在研究中发现,让人工智能系统从训练数据中自行找出这些参数(与大脑处理的方式相似)是一条更好的途径。这就是说,将人类专家的直觉设为系统首选(即参数的初值),然后让人工智能系统利用真实语音实例的获取过程自动对这些估计值进行完善。
模式识别模块所做的是计算概率(基于以往所有的经验),实际上,它负责识别的模式由其有效输入来表示。如果某个低层次模式识别器被激活(意味着低层次模式被识别出),那么与模块相对应的输入就是有效的。每个输入也是对已监测到数值大小的编码(如短暂的持续时间或者物理量值或者其他连续变量等维度),这样在计算模式总体概率时,模块就可以对该数值大小进行比较(与每个输入已设定的参数值进行比较)。
假设已经知道(1)输入(每个输入都有一个观测值)和(2)每个输入已设定的参数值(预计的数值大小和数值大小的变化程度)以及(3)每个输入的重要性参数,那么大脑如何计算模式展现的总体概率呢(该模块负责识别的)?20世纪80年代和90年代,为获取这些参数并利用它们识别层级模式,我和其他人首倡了一种叫作分层隐马尔可夫模型的数学方法。我们将该项技术应用到人类语音识别和自然语言的理解当中。我会在第7章中做进一步的描述。
再回到识别的流程:从模式识别器的一个层次到下一个层次。从上面的举例中,我们看到:信息沿着概念层级向上流动,从基本的字母特征到字母再到词语。识别会继续向上流动到短语,再到更为复杂的语言结构。如果我们向上再推进几个层次,就会涉及更高层次的概念,如讽刺和嫉妒。尽管各个模式识别器同时运作,在概念层级中,也得花费些时间才能向上推进。穿过每个层级所需的处理时间为数百分之一秒或几十分之一秒。实验表明,识别一般的高层次模式,如一张脸,要花费至少1/10秒。如果扭曲很明显,则要花费长达1秒的时间。如果大脑运作是连续的(就像传统电脑一样)并且按照序列运行每个模式识别器,在继续向下一个层次推进时就必须考虑每个可能的低层次模式。因此,通过每个层次就需要经历数百万个循环。那就是我们在电脑上模仿这些程序时实际发生的情况。但请记住,电脑处理的速度比我们的生理电路要快数百万倍。
在此需要重点注意的是,信息不仅会沿着概念层级向上推进,也会向下传递。事实上,信息向下传递甚至更为重要。例如,我们从左至右阅读,早已看到并识别了“A”、“P”、“P”还有字母“L”,“APPLE”识别器就会预测下一位置上可能看到的是“E”。它就会向下传递信号到“E”识别器,也就是说:“请注意,你可能马上就会看到‘E’模式,请留意它的出现。”然后,“E”识别器就会调整其阈值,识别出“E”的可能就更大。所以,如果接下来出现的是有些像“E”的图象,但模糊不清,正常情况下无法识别,“E”识别器也可能会因为预期因素而指示看到的确实是“E”。
因此,大脑新皮质的工作就是对预计会碰到的事物进行预测。想象未来是我们拥有大脑新皮质的一个主要原因。在最高的概念层次,我们在不断预测——下一个经过这扇门的人将是谁,某个人接下来会说什么,转过弯我们将看到什么,我们行动的可能结果,等等。这类预测在大脑新皮质层级结构的每个层次中不断发生。我们之所以经常无法识别出人、事或词语,是因为当时确定的预期模式阈值太低。
除积极信号外,还有消极信号或抑制信号,它们的意思是说,某一特定的模式不太可能存在。这些信号可能来源于较低的概念层次(例如,在排队结账时,通过对胡子的识别,我就可以排除看到的人是我妻子的可能),或者更高层次(例如,我知道我妻子在外旅游,所以在排队结账的人不可能是她)。当模式识别器收到抑制信号时,它会提升阈值,但模式仍然可能被激活(所以如果排队结账的真是她,我仍会认出来)。
流向大脑新皮质模式识别器的数据本质
接下来,我们来讨论模式的数据是什么样的。如果模式是一张脸,数据就至少存在两个维度。我们不能说必须先是眼睛,然后是鼻子,等等。对于大多数声音来说也是这样。一个音乐片段至少要有两个维度,可能同时存在不止一个乐器或者声音发声。此外,复杂乐器的一个音符,例如钢琴,就包含多个频率。一个人的嗓音同时包含随着发音能量水平不同而产生的许多个不同频带,所以任何时刻的声音都可能很复杂,而且会随着时间的推移变得更加复杂。触觉输入也是二维的,因为皮肤是二维的感知器官,这种模式可能会随着时间这个第三维度的影响而改变。
所以,似乎大脑新皮质模式处理器的输入如果不是三维的模式,就一定是二维模式。然而,在大脑新皮质结构中,我们看到模式输入只是一维列表。我们建立人工模式识别系统(例如语音识别和视觉识别系统)的所有工作都证明,我们能(并且已经做到)用这些一维列表展现二维或三维现象。我会在第7章中描述这些方法是如何发挥作用的,但现在我们可以认为每个模式处理器的输入是一维列表,尽管模式本身反映出来的也许不止一维。
在这一点上,我们需要考虑到我们已经能够识别的模式(例如,某只狗或一般概念上的“狗”,一个音符或一段音乐)实际上是同一机制,该机制就是我们记忆的基础。我们的记忆其实是按列表模式组织的(其中每个列表值是皮质层次结构中的另一个模式),我们已经获取了该列表,并在受到适当的刺激时进行识别。事实上,记忆存储在大脑新皮质中的目的就是为了被识别。
唯一的例外存在于可能概念层次的最低一级,其中模式的输入数据代表具体的感官信息(例如,源于视神经的图像数据)。可是当它到达皮质时,就连这个最低模式层次也已明显地转化为基本模式。组成记忆的模式列表是按时间先后顺序排列的,而且我们也只能按照这个顺序留下记忆,反向记忆对我们来说很难。
一段记忆需要另一个想法或另一段记忆触发。当我们认识一个模式时,就能经历这种触发机制。当我们感知到“A”、“P”、“P”还有“L”时,“APPLE”模式就预测我们将看到“E”,并触发预期的“E”模式。在看到之前,我们的皮质就会“设想”看到“E”。如果皮质中这个特定的交流引起了我们的注意,我们就会在看到之前,甚至在从未看到的情况下,想着“E”。相似的机制则会触发过去的记忆。通常会有一整串这样的链接。虽然我们对触发旧记忆的记忆(即模式)有某种程度的意识,但记忆(模式)却没有语言或图像标签。这就是为何过去的记忆会突然跳进我们的意识中。这些记忆已经尘封多年,并且一直未被激活,它们需要一个触发因素,就像网页需要链接激活一样。同样,就像一个没有其他网页链接的网页被孤立一样,记忆也会被孤立。
我们的思想可以由定向模式或发散模式激活,它们都使用相同的皮质链接。在发散模式中,我们让链接自行运作,并不试图将它们引导至某一特定方向。某些形式的冥思(就像我练习的超觉冥思)就是建立在随心所欲的基础上,梦也有这种特点。
在定向思考中,我们尝试通过一个较有次序的过程逐步回想起一段记忆(例如,一个故事)或是解决一个问题。这也涉及在大脑新皮质中逐步通过列表,但是发散思维中结构化程度较低的慌张行为也伴随有这个程序。因此,我们思维里的所有内容非常无序,这就是詹姆斯·乔伊斯(James Joyce)在他的小说《意识流》(Stream of Consciousness)中阐述的现象。
在生活中,当你思考记忆、故事或模式的过程时,不论是与散步时是否可能遇到一位推着婴儿车的妇女带着孩子有关,还是与你与伴侣如何相遇的情节有关,你的记忆都是由一个序列的模式组成的。因为这些记忆没有贴上词语、声音、图像、视频的标签,所以当你尽力回想某一件重要的事情时,实际上,你要在头脑中重建图像,因为真实的图像不存在。
即使我们去“阅读”某个人的思想,并且实际观察他大脑新皮质中的真实情况,依然很难对其记忆进行解读——我们到底是要单纯观察存储在大脑新皮质中等待触发的模式,还是要看那些已经被触发且当前正作为有效的想法而被体验的模式呢?我们看到的将是数百万模式识别器同时被激活的场面。1/100秒过后,我们又将看到一组不同数量的被激活的模式识别器。每个这样的模式又将变为一列其他模式,这列模式中的每一个又将变为另外一列模式,如此继续下去,直到转化成最低层次的最基本模式为止。如果不把所有层次的所有信息都复制到皮质中,就很难解读出这些高层次模式的意义。因此,只有考虑到较低层次携带的所有信息,大脑新皮质中的模式才有意义。此外,同层次以及更高层次的其他模式在解读特定模式时也是相关联的,因为它们能提供背景信息。因此,真正的思想阅读需要的不仅仅是监视人脑中相关轴突的激活情况,也要从本质上连同所有的记忆一起,检查整个大脑新皮质,才能理解这些激活究竟是什么意思。
当我们经历自身的想法和记忆时,我们“知道”其中的意味,但这种意味并不是易于言表的想法和记忆。如果我们想与人分享,就必把它们转化成语言。这个任务也需要大脑新皮质,借助我们为使用语言而习得的模式识别器来完成——该识别器通过模式训练得来。语言本身高度层级化,而且通过进化利用大脑新皮质层级化的本质,反过来反映出了现实世界的层级本质。人类天生就有认识语言层级结构的能力,诺姆·乔姆斯基(Noam Chomsky)在论述大脑新皮质结构的反映时就曾提到这一点。在2002年与人合著的论文中,乔姆斯基在说明人类独特的语言才能时引用了“递归”特征。根据乔姆斯基的说法,递归是把小的部分拼凑成大块,再将该大块作为另外一个结构的部分,并反复继续这一过程的能力。这样我们就能以一组有限的词语造出结构复杂的句子和段落。尽管乔姆斯基并没有由此明确指向大脑结构,但他描述的正是大脑新皮质所具备的能力。
在很大程度上,哺乳动物的低等物种会利用它们的大脑新皮质应对其特殊生活方式中的挑战。人类则更多地通过发展皮质,获得其他处理口头和书面语言的能力。有一些人获取的技能比其他人更好。如果我们把某个故事说了很多遍,我们就可能开始认识到语言的序列,它将故事描述成一系列分割的序列。即使这样,我们的记忆也不是严格意义的词语序列,而是语言结构序列,每次讲故事我们都需要将之转化为具体的词语序列。那就是我们每次分享同样的故事时总会有些变化的原因(除非我们将确切的词语作为模式获取)。
这些对详细具体思考过程的描述,我们也要逐个考虑冗余问题。就像我提过的那样,我们并没有一个能够代表生活中重要实体的模式,不论这些实体是感官内容、语言概念还是事件的记忆。每个重要的模式——处于每个层次中,都会重复多次。其中一些重复是简单重复,但还是有许多代表不同的视角和观点。这就是我们能从不同方向、在不同的灯光条件下识别熟悉脸庞的一个主要原因。层级结构向上的每个层次都有大量的冗余,允许与该概念保持一致的、一定变化程度的存在。
所以,如果我们检查你看着某个喜欢的人时的大脑新皮质,我们将看到模式识别器的每个层次都有大量轴突激活(见图3—3),从原始的感官模式的基本层次一直上升到许多不同的、代表那个人图像的模式。我们也会看到代表其他场景的大量激活,例如那个人的动作,她说的话等。因此,正如它表现的那样:这种经历比较单纯的、有次序沿着层级结构的旅程更丰富。
图3—3 电脑模拟的大脑新皮质中大量模式识别器同时被激活的场景
但是,上升到模式识别器层级的基本模式仍然有效,其中每个更高的概念层次代表一个更为抽象、更为完整的概念。向下的信息流更为重要,因为识别模式被激活的每层都会向相邻低层级模式识别器传递预测信息——接下来可能会遇见什么。人类经历的丰富多彩是大脑新皮质中数以百万计的模式识别器在同时考虑输入的结果。
在第5章中,我会讨论从触觉、视觉、听觉,以及其他感觉器官向大脑新皮质传递的信息流。这些早期的输入由负责相关类型感觉输入的皮质区域进行处理(新皮质的不同区域都有极大的可塑性,但各自反映的功能却基本一致)。大脑新皮质的每个感觉区域中最高概念之上的概念层级关系仍然适用。(概念层级在大脑新皮质的每个感觉区域最高概念之上仍能发挥作用。)皮质联合区将来自不同感觉器官的输入综合在一起。当我们听到某种可能与我们的妻子发出的声音类似的声音时,接着就发现某些表明她在场的迹象,我们并没有进行复杂的逻辑推理,而是从这些感觉识别的综合中,察觉到妻子的出现。我们综合所有相关的感觉和知觉线索——也许还有她的香水味,作为多层级的感觉。
皮质联合区之上的概念层级中,我们能处理更为抽象的概念,如感知、记忆和思考。在最高层次中,我们可以识别“这是有趣的、她长得漂亮或者那很讽刺等”模式。我们的记忆也包含这些抽象识别模式。例如,我们也许会回忆起和某人散步,然后他说了一些趣事,引得我们大笑,尽管我们也许不记得那个笑话的内容了。那段回忆的记忆序列只是记录了幽默的感觉,而没有记录趣事的确切内容。
在上一章我曾提到,尽管我们对模式的识别没有达到对其进行描述的程度,但往往却能够完成识别。例如,我相信我能从一堆女人的照片中挑出我今天早些时候见过的那个女人的照片,尽管我并不能描绘出她的形象,也不能描述她的具体特征。在这种情况下,我对她的记忆是一系列特定高层次特征。这些特征并没有附属的语言或图像标签,也不是具有像素的照片,所以我想着她时,并不能描述她究竟长什么样。可是,如果我看到她的图片,我就能处理那张能够引发与我第一次看到她时识别相同的高层次特征的图片。我由此能够确定特征相符,也就能自信地挑出她的照片。
即使我只在散步时见过她一次,我的大脑新皮质中也可能早已经形成多个她的模式的副本。然而,如果我在某一段时期不去想她,这些模式识别器将再分配给其他的模式。那就是为何随着时间的推移记忆会变得模糊:因为冗余量会逐渐减少直到某些记忆逐渐消失。但是,既然我在此写到我记住的那个女人,也就不那么容易忘记她了。
自联想和恒常性
我在上一章曾讨论过,怎样在整个模式并不完整且被扭曲的情况下识别出一个模式。第一项能力叫作自联想:将一个模式与其自身的某一部分联系起来的能力。模式识别器的结构本来就支持这项能力。
来自低层次模式识别器的每个输入都流向一个高层次模式识别器,每个连接关系有一个“权重”,表示模式中特定因素的重要性。因此,模式中的因素越重要,在考虑该模式是否应该触发进行“识别”时所占的权重就越大。林肯的胡须、猫王的鬓角和爱因斯坦著名的舌头姿势可能在我们认识这些标志性人物面容的模式中占很大权重。模式识别器计算概率时会考虑到权重参数。因此,如果一个或更多的元素缺失,总概率就会变低,尽管仍然可能达到阈值。就像我指出的那样,总概率的计算(模式出现)比简单计算加权和要复杂得多,因为还要考虑数值大小参数。
如果模式识别器接收到了来自高层次模式识别器的信号——该模式是“预期的”,那么阈值就会有效降低(即使之易于完成)。或者,这样一个信号只是简单地添加到加权输入总量当中,这样就可以补偿缺失的因素。这在每个层级都会发生,以致一个模式即便有多个特征缺失,例如一张脸与底层相距多个层次,也可以被识别。
在多个方面发生改变的情况下仍能识别模式的能力称为特征恒常性,主要有4个处理方法。第一个方法是在大脑新皮质接收到感觉数据之前对其进行整体变换。我们将在后文专门讨论来自眼睛、耳朵以及皮肤的感觉数据的传递过程。
第二个方法利用了皮质模式记忆中的冗余。我们获得了针对每个模式的许多不同视角和观点,特别是对于重要的事项。因此许多变化都是分别存储和处理的。
第三个方法是合并两个列表。一个列表有一组我们已习得的变换,我们也许会将之应用到某一列模式当中。另外,皮质也可能会将这列可能的改变应用到另一个模式。这就是我们对隐喻和明喻这类语言现象的理解方式。
例如,我已认识到某些音位(语言的基本音)在口语中也许会缺失,例如“goin”。如果我们认识一个口语新词,例如“driving”,即便它的一个音位缺失,我们也能识别该词语。尽管我们之前从未见过该词语的这一形式,但我们已熟悉某些音位被忽略的现象。此外,我们也许了解某些艺术家喜欢强调(通过放大)一张脸的某些元素,例如鼻子。所以虽然这张脸经过了这种修饰,而且即使我们之前并未见过,我们仍能识别出我们熟悉的一张脸。特定的艺术修饰注重特别的特征,而这些特征能被基于模式识别的大脑新皮质识别。正如前面提到过的那样,这恰恰就是讽刺画的基础。
第四个方法源于尺寸参数,借助于这些参数,单个模块可以包容多个模式实例。例如,我们听到过词语“steep”很多次。正在识别这个口语词的特定模式识别模块能编码多个实例,因为[E]的发音持续时间预期发生变化的可能性很大。如果所有的词语(包含[E])模块都有相似的现象,这种变化就能在[E]自身的模块中被编码。可是,包含[E](或其他音位)的不同词语会有不同程度的预期可变性。例如,词语“peak”就不可能有像词语“steep”那样拉长的[E]音位。
学习
难道我们不是自己创造的地球上拥有至高无上地位的继承人?每日都为他们的组织增添美和优雅,每日都赋予他们更优秀的技能和越来越多的自制力与自动能力。还有什么比智慧更好呢?
塞缪尔·巴特勒
大脑的主要活动是进行自我改造。
马文·明斯基,《心智社会》
到目前为止,我们已检查了如何识别(感觉的、知觉的)模式以及如何回忆模式序列(对于事物、人,以及事件的记忆)。然而,我们的大脑新皮质中并不是生来就充满这些模式。在大脑创建之时,大脑新皮质还是尚未开垦的处女地。它有学习的能力,因此也就有了建立模式识别器之间联系的能力,但这些联系都是从经验中获得的。
这个学习的过程甚至在我们出生之前就开始了,与大脑生长的实际生理过程同时发生。一个月时,胎儿已有了大脑,但本质上是爬行动物的大脑,因为胎儿在子宫中经历了生物进化的高速再创造。怀孕6到9个月时,胎儿的大脑成为具备人类大脑新皮质的人类大脑。这时,胎儿正在接收感受,大脑新皮质正在学习。他能听到声音,特别是母亲的心跳,这可能是音乐有节奏这一特点普遍存在于人类文化中的一个原因。至今发现的每种人类文明都将音乐作为其文化的一部分,这与其他艺术形式不同,例如绘画艺术。另外,音乐的节拍也与我们的心率接近。当然,音乐节拍会改变——否则音乐就不能让我们对它保持兴趣,但是心率也会改变。过于规则的心跳是心脏患病的一个征兆。在孕后26周,胎儿的眼睛半张着,到孕后28周时,胎儿的眼睛大部分时间都是完全睁开的。在子宫内也许没什么可看的,但随着大脑新皮质开始进行工作,子宫内的小孩已经开始知悉白天黑夜的区别。
不过,尽管新生儿能够在子宫中获得一些经验,但仍然是有限的。大脑新皮质也可以向旧脑学习(第5章的一个主题),但婴儿出生时通常还有很多东西要学习——从基本的原始声音和形态到隐喻和讽刺的一切事物。
学习对人类智力而言十分重要。如果我们要完整地塑造和模拟人类大脑新皮质(就像蓝脑计划[the Blue Brain Project]正尝试的那样)以及它要运行的其他大脑区域(例如海马体和丘脑),能做的实在不多——就像一个刚出生的婴儿不能做什么一样(除了变得可爱,当然,这是很重要的生存适应行为)。
学习和识别同时发生。我们很快开始学习,并且只要我们获得一个模式,就马上开始对其进行识别。大脑新皮质不断尝试理解向其呈现的输入。如果一个特定层次不能完全处理并识别模式,就会被发送到相邻更高层次。如果所有层次都不能成功识别某个模式,该模式就会被视为新模式。将一个模式归类为新模式并不意味着它必须方方面面都是新的。如果我们正欣赏某个艺术家的画作,并看到猫脸上有个大象的鼻子,虽然我们能识别每个明显的特点,但还是会注意到这种组合模式是某种新颖的事物,并可能会记住它。大脑新皮质的高概念层次能理解背景,例如,这幅图是某个艺术家的作品,我们正在参加那个艺术家的新画展开幕式,还会记录猫一象脸中不寻常的模式组合,但也会收集背景的细节作为另外的记忆模式。
新记忆,如猫-象脸,存储在一个有效的模式识别器中。在这个过程中,海马体将发挥作用——我们将在下一章节中讨论已知的实际生理机制。为了我们的大脑新皮质模型,未被识别的模式作为新模式被存储起来,并且恰当地与低层次模式联系起来,正是低层次模式形成了这些模式。例如,存储猫一象脸有几种不同的方式:新颖的脸部布局会被存储,还有背景记忆,包括艺术家、情景,也许还有我们刚看到时发笑的事实。
成功识别的记忆也许会导致新模式的创造,以实现更大的冗余。如果模式未被完整识别,就可能被当成反映被识别内容的不同视角而被存储起来。
那么,决定存储哪些模式的整体方法是什么呢?在数学方面,问题可作如下阐述:我们如何才能利用有效的模式存储限制,最好地展现已有的输入模式?然而,允许存在一定量的冗余是有意义的,但用重复的模式填满整个可用的存储区域(即整个大脑新皮质)就不实际了。因为这样就不允许模式有足够的多样性。我们经历了无数次像口语词中[E]音位这样的模式。它是声音频率的简单模式,在我们的大脑新皮质中占有重要的冗余。我们可以用[E]音位重复的模式来填满整个大脑新皮质。然而,若存在一个有用冗余的限制,像这样常见的模式就会受到限制。
名为“线性规划”的优化问题有一个数学解决方案,它求解有限资源(在这里是数量有限的模式识别器)的最佳分配,有限资源也代表系统训练过的所有情形。线性规划是为一维输入的系统设计的,而用线性输入串代表每个模式识别模块的输入最理想。在软件系统中,我们可以利用这个数学方法,尽管真实大脑在很大程度上被物理联系束缚,但仍可以在模式识别器之间调整,因此该方法仍然可行。
这个最佳方案的重要含义是,一般经验会被识别但并不会产生永久记忆。至于散步,我经历过各个层次的数百万个模式,从基本的视觉边缘和阴影到事物,如我经过的灯柱、邮箱、人、动物和植物。
基本上,我所经历的都不是独一无二的,而且我早已识别过的模式都已达到最佳水平的冗余。结果,这次散步我没什么可回忆的。到我再散步几次时,我仅存的一点记忆也可能被新模式覆盖了——除了我现在记得的这次散步,因为我已写下来了。
既适用于我们的大脑新皮质也适用模拟大脑新皮质的一条重要原则是很难同时学习多个概念层次。实质上,我们只能同时学习一个或者至多两个概念层次。只有学习过程相对稳定,我们才能继续学习下一个层次。我们也许还要继续对较低层次的学习进行微调,但重点是接下来的抽象层次。这既适用于生命的开始阶段,像新生儿努力接受基本形态,也适用于生命的以后阶段,像我们努力学习新事物。每次都是一个复杂的层次。
我们在大脑新皮质的机器模拟中也发现了相同的现象。可是,如果每次每层向它们呈现的是越来越抽象的材料,机器也只能做到像人类那样的学习(尽管没有那么多的概念层次)。
一个模式的输出能反馈到一个较低层次的模式或者这个模式本身,这就赋予了人脑强大的递归能力。模式的因素可以是基于另一个模式的决策点。这对组成动作的列表特别有用——例如,如果牙膏没了就要拿另一个来。每个层次都存在这样的条件句[4]。每个试过在电脑上编程的人都知道,条件句对于描述一个行动过程来说至关重要。
思想的语言
梦为负担过重的大脑充当安全阀。
西格蒙德·弗洛伊德,《梦的解析》
大脑:一个被认为是用于思考的装置。
安布罗斯·比尔斯,《魔鬼字典》
总结至今为止我们获得的大脑运作方式,请参考图3—1。
a)树突进入代表模式的模块。即使模式似乎具有二维或三维特点,它们仍由一维信号序列代表。模式必须按模式识别器的(连续的)顺序出现,才能被识别。每个树突最终和处于较低概念层次的模式识别器的一个或多个轴突联系起来,而该模式识别器已识别的一个较低层次模式成为这一模式的一部分。对于每个这样的输入模式而言,也许存在许多较低层次模式识别器,能产生较低层次模式已识别过的信号。识别模式的必要阈值也许能够达到,即使并非所有输入都发出信号。模块计算它所负责模式的出现概率。计算过程考虑“权重”和“规格”参数(见[f])。
(要注意,一些树突将信号传递进模块,另一些则从模块中传递出来。如果向该模式识别器的所有输入树突都发送信号——低层次模式已被识别(除了一两个),那么该模式识别器会往下层的模式识别器传递信号(这些下层模式识别器正在识别那些未被识别的低层模式),表明这种模式极有可能被识别,低层模式识别器应当注意它的出现。
b)当这个模式识别器识别模式(所有或者大多数被激活的输入树突信号)时,该模式识别器的轴突(输出)也会被激活。反过来,这个轴突会连接整张树突网,而整张树突网则与该模式输入的许多较高层次模式识别器连接。这个信号会传递规格信息,从而使相邻较高概念层次中的模式识别器能对其进行考虑。
c)如果一个较高层次模式识别器从其所有或大多数组成模式(除了由这个模式识别器代表的那个以外)中接收了一个积极信号,那么那个较高层次识别器也许会向这个识别器发送信号,指示其模式为预期的。这样一个信号会造成这个模式识别器降低其阈值,也就意味着向其轴突发送信号的可能性变大(指示其模式被认为已被识别),即使它的一些输入缺失或不清楚。
d)来自下层的抑制信号会使这个模式识别器识别其模式的概率变小。这可以从较低层次模式的识别中得出,而较低层次模式与这个模式识别器相联系的模式不一致(例如,较低层次模式识别器对胡须的识别会降低这个图像是我“妻子”的可能性)。
e)来自上层的抑制信号也会使这个模式识别器识别其模式的概率变小。这可以从较高层次模式的识别中得出,而较高层次模式与这个模式识别器相联系的模式不一致。
f)每次输入,都会存在权重、预期规格、预期规格变异方面的存储参数。模块计算模式呈现的整体概率,依据的是所有这些参数和现有信号。整体概率指示呈现哪个输入及其规格。完成这个计算的最佳数学方法是一种叫作隐马尔可夫模型(Hidden Markov Models)的方法。当这样的模型按照层级组织起来(当它们处于大脑新皮质中或者在尝试模仿大脑新皮质),我们称之为隐马尔可夫层级模型。
大脑新皮质中被触发的模式会触发其他模式。部分完成的模式向概念层级下层发送信号,已完成的模式向概念层级上层发送信号。这些大脑新皮质的模式是思想的语言。和语言一样,它们遵循层级关系,但它们本身并非语言。我们的思想最初并非由语言元素孕育而成,尽管语言在大脑新皮质中也以模式层级结构存在,而且我们也可以有基于语言的想法。但是总体而言,思想是由这些大脑新皮质中的模式表征。
就像上文中讨论过的一样,即使我们能监视某人大脑新皮质中的模式激活过程,我们仍然不明白这些模式的激活意味着什么,因为我们还是不能接触到整个模式层级中上下层的每个激活模式。要做到这一点,我们必须完全接触那个人的整个大脑新皮质。理解自己的思想内容对我们而言已经很困难,而理解别人的思想内容还要求我们掌握与自己不同的大脑新皮质。当然,我们还不能接触到其他人的大脑新皮质,我们需要依靠别人的努力将其思想用语言(还有其他的方式,如手势)表达出来。这样,我们才能理解别人的思想。人们实现这种交流任务的能力不足也为此增加了另一层复杂性——难怪我们理解对方的同时也会产生误解。
我们有两种思维模式。第一种是发散思维,想法以一种不合逻辑的方式相互触发。当我们在做某事时,例如整理庭院或走在街上,突然回忆起几十年前或几年前的某段往事,那段经历被记起来——像所有的记忆一样,以一个模式序列的形式。我们并不立即设想场景,除非我们能记起许多其他的记忆,而这些记忆能使我们合成一段更完整的往事。如果我们确实设想出场景,其实是受到那段往事的提示,在头脑中将之建立起来,而记忆本身是不以图片或形象存储的。就像我之前提过的那样,使这个想法浮现在我们脑海中的触发因素也许明显,也许不明显。相关想法的序列也许早已被遗忘。即使我们记得,它也是一个非线性的、迂回的联想序列。
第二种是定向思维。当我们尝试解决问题或者制订一个严谨的答复时就会用到它。例如,我们也许会在头脑中编排想对别人说的话,或者组织我们想要写的文章。在考虑这样的任务时,我们早已将之分解,形成了子任务的层次结构。例如,写一本书涉及组织篇章,每个篇章由章节组成,每个章节由段落组成,每个段落包含表述观点的句子,每个观点有其组成元素,每个元素和元素之间的每种关系都需要连接起来,等等。同时,我们的大脑新皮质获得了需要遵循的特定模式。如果任务是写作,那么我们就要避免不必要的重复,就应该让读者能沿着我们的写作思路走,就应该尽量遵循语法和文体规则,等等。因此,作者需要在头脑中建立一个读者的模式,而这个构想也要遵循层级关系。在进行定向思维时,我们在大脑新皮质中读阅列表,每个列表扩展成大量的子表层级,每个列表都有自己的考虑。另外请记住,大脑新皮质模式中列表的元素包含条件式,所以我们后来的想法和行动就取决于我们经历过程时做的评估。
此外,每次这样的定向思维都会触发发散思维的层级。在定向思维中,持续的思维风暴会在我们的感官体验和尝试中出现。我们的实际心理体验复杂混乱,由这些触发模式的闪电风暴组成,每秒发生约100次改变。
梦的语言
梦是发散思维的实例。梦能产生特定的意义,因为一个想法触发另一个的现象是基于我们大脑新皮质中的实际模式联系而发生的。在一定程度上,梦之所以无意义,是因为我们尝试用虚构的能力对其进行修复。就像我将在第9章中描述的那样,脑分裂患者会用控制语言中枢的左脑虚构各种解释,目的在于解释右脑刚才如何处理输入,而这个输入左脑接触不到。为了解释事件的结果,我们也总是虚构。如果你想要针对这种情况举一个好例子,可以收听金融市场动态的每日评论。无论市场表现如何,它总会针对其原因提出合理的解释,这种事后评论实在太多了。当然,如果这些评论者真正了解市场,他们就不会浪费时间来作评论。
虚构行为也是在大脑新皮质中完成。大脑新皮质擅长提出满足特定限制条件的故事和解释。每当我们复述故事的时候,我们都在进行虚构。我们也许会述说许多不必要的细节,或者忘记许多细节,以致故事显得毫无意义。这就是为何随着时间的推移故事会发生变化,随着新的讲故事的人一遍又一遍讲述,甚至会出现不同的情节。然而,随着口语进化导致书面语出现,我们也就有了一项技术,能够记录故事的最终版本,避免这种变动。
一个梦的实际内容,如果到了能够记住的程度,就也是一个模式序列。在一个故事中,这些模式代表限制条件,然后我们就虚构一个满足这些条件的故事。我们复述的梦的版本(尽管只是对自己无声地复述)就是这个复述的故事。当我们复述一个梦的时候,会触发填充真实的梦的级联模式,这些模式是在最初经历这个梦时产生的。
梦中的思考和醒着时的思考存在一个关键的区别。社会大学教了我们一个道理:某些行为,但就算只是想法,在真实世界中也是不容许的。例如,我们认识到我们的欲望不可能立即得到满足。商店中有不能从收银机中抢钱的规定。另外,与被其吸引的人相处时也有限制。我们也认识到忌讳某种想法是因为文化禁忌。我们学习职业技巧时,也学到了与职业有关的严谨的思维方式,因此避免了与职业秩序和标准相悖的思维方式。一方面,许多这样的禁忌是有价值的,因为它们有助于加强社会秩序,巩固社会进步。但另一方面,通过支持落后的正统说法,它们也会阻碍进步。这些正统说法正是爱因斯坦在其思想实验中尝试驾乘光束时所抛弃的。
在旧脑的帮助下,文化规范在大脑新皮质中被执行,特别是杏仁核。我们的每个想法都会触发另一个想法,有一些会联系到相关的危险。例如,我们认识到,只在私人的想法中打破一项文化规范也会导致排斥。大脑新皮质意识到它对我们产生威胁,如果我们抱有这样的想法,杏仁核就被触发,产生恐惧,通常情况下,会导致该想法终止。
可是,在梦中这些禁忌就被放宽了,我们就会经常梦到文化上、性方面以及专业领域里视为禁忌的事情。这就好像我们的大脑意识到,做梦时我们不需要再做一个演员。弗洛伊德写到了这个现象,但也记录到,我们掩饰这些危险的想法——至少我们尝试回想起来时是这样,所以大脑清醒时会继续对它们进行压制。
事实证明,放宽职业禁忌对创造性地解决问题非常有效。每晚睡觉之前,我都用一种心理方法思考一个特定的问题。这会触发序列想法在我梦中继续思考。当我做梦时,我能思考——梦到问题的解决方法,而且不需背负白天时需要背负的职业负担。在早上处于半睡半醒的状态时,我就能接触到这些梦中的想法,这有时被称为“清醒梦”。
弗洛伊德也写到了通过解读梦深入了解一个人的心理状态的能力。当然,关于这一理论的各个方面都有大量的文献,但主要是通过对梦的调查深入了解自己。梦是由大脑新皮质创造出来的,因此可以揭示在大脑新皮质中发现的内容和联系。当我们清醒时,释放我们思维中存在的束缚也对揭示一些大脑新皮质的内容有用,这些内容在其他情况下是不能被直接接触到的。我们也可以合理推断,在梦中结束的“模式”表征着对我们来说至关重要的事物,这些事物为我们理解自身躁动的欲望和无名的恐惧提供了线索。
模型的根源
正如我在前面提到过的,20世纪80年代和90年代,我带领一个团队开发隐马尔可夫层级模式技术,目的是识别人类语言和理解自然语言。这项工作是现在广泛的商业系统的前身,而这些商业系统能够识别和理解我们向它们传递的信息,例如你能与之对话的汽车导航系统,iPhone中的Siri,谷歌语音搜索Google Voice Search,以及许多其他的。实际上,我们发展的技术具有我描述的PRTM中的所有特征。它包括层级模式,每个更高层次都比其下的低层次概念更抽象。例如,在语音识别中,层次包括最底层的声频的基本模式,然后是音位,然后是词语和词组(经常被识别成词语)。我们的一些语音识别系统能理解自然语言命令的含义,所以更高的层次包括如名词性词组和动词性词组的结构。每个模式识别模块能识别来自较低概念层次的一个线性序列的模式。每次输入都有权重、规格和规格可变性的参数,存在向下传递的信号,指示一个较低层级模式为预期的模式。在第7章中我们就这项研究做了更细致的讨论。
在2003年和2004年,PalmPilot的发明者杰夫·霍金斯(JeffHawkins)和迪利普·乔治(Dileep George)开发了一个层级皮质模型,称为层次时间记忆(hierarchical temporal memory)。霍金斯与科普作家桑德拉·布莱克斯利(Sandra Blakeslee)在他们的书《人工智能的未来》(On Intelligence)中描述了这个模型。霍金斯为皮质算法的均匀性和其层级的、基于列表的组织提供了一个理由充足的例证。《人工智能的未来》一书中所举的例子与本书中的例子之间存在一些重要的区别。霍金斯注重成分列表的时间(基于时间)属性。换言之,列表的方向总是在时间上向前。对于一个二维模式,例如印刷体字母“A”中的特征如何在时间上有方向,他的解释是根据眼球的运动来论断。他解释,用扫视的方式将图像转化为形象,这时我们并没有意识到眼球的飞速运动。因此,信息到达大脑新皮质不是一组二维特征,而是一个时间排序的列表。虽然我们的眼球确实在飞速运动,但是它们观察一个模式(例如字母“A”)的特征中的序列并非总与时间顺序保持一致。例如,眼睛扫视并不会总是按照先记录“A”的顶点,再记录其下凹处的顺序。此外,我们能识别一个只出现数十毫秒的视觉模式,而这对眼睛扫视来说时间太短了。诚然,大脑新皮质中的模式识别器将模式转化为列表进行存储,列表也确实有序。但是,顺序代表的并不一定是时间,虽然情况确实大多如此,但它也可能代表一个空间或更高层次概念的次序,正如我在上文中讨论过的。
最重要的区别在于,我已将每个模式识别模块的输入的参数组纳入其中,特别是尺度和尺度变化程度参数。20世纪80年代,我们尝试识别人类语言时并没有这种信息。这是受到语言学家告诉我们的“持续时间并不特别重要”的说法的启发。这个视角是从一些字典中的例证中得到的,这些字典将每个词语的发音写成了一串音位,例如“steep”是[s][t][E][p],但并没标注每个音位预期该拖多长时间。而它的意义在于,如果我们创建了识别音位的程序,碰到这种4个音位的特定序列(在一次口头发言中),就能够识别该口语词。我们用这种方式建立的系统在某种程度上管用,但是不能处理拥有大量的词汇、多个扬声器,以及说个不停的口语词这些特征的情况。如果我们利用隐马尔可夫层级模式收集每个输入的规格分布,作用就很明显了。
【注释】
[1]轴突是指动物神经元传导神经冲动离开细胞体的细而长的突起。轴突为神经元的输出通道,作用是将细胞体发出的神经冲动传递给另一个或多个神经元分布在肌肉腺体的效应器。在神经系统中,轴突是主要的信号传递渠道。——编者注
[2]树突是细胞体的延伸部分产生的分枝。树突是接受从其他神经元传入的信息的入口。树突接受上一个神经的轴突释放的化学物质(递质),使该神经产生电位差形成电流传递信息。每个神经元可以有一或多个树突,可以接受刺激并将兴奋传入细胞体。——编者注
[3]连续统是一个数学概念,是指连续不断的数集。——编者注
[4]条件句是一种表示假设的主从复合句,一般由条件从句引出某种假设,再由主句表示基于这种假设下的反馈。——编者注
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。