人工智能符号处理与荷兰德的分类器系统

在人工智能(AI)领域的发展历程中,符号处理理论曾长期占据主导地位。这一理论认为,人类思维的本质是符号操作,计算机中的象征可以通过繁冗的数据结构来表现复杂的情况,就像概念与心理学家头脑中的各种模式相联系一样。纽威尔和西蒙作为该观点的代表人物,提出了一种极具说服力的理论:符号处理就是思考 🧠。

然而,荷兰德(John Holland)对此提出了挑战。他认为,尽管符号处理在理解有意识的思想过程中前进了一大步,但它过于呆板,无法真正抓住概念的所有细微差别。例如,一个包含 B-I-R-D 数据的每个字母如何能够真正捕捉到所有关于鸟类的微妙而游移不定的细节?如果这些字母无法与外部世界的真正鸟类沟通,那对程序来说又怎么能具有任何真正的含义?

荷兰德的批判视角

荷兰德指出,符号本身缺乏动态性,它们无法解释概念是如何进化和发展起来的,也无法通过外界反馈形成。他强调,必须从赫伯的角度来理解概念:涌现的结构是从某种更深层的、不断在环境反馈中调整的神经基质中发展而来的。正如云彩形成于水蒸气的物理和化学变化,概念是模糊的、游移不定的、具有动力的。它们经常在重组和改变形状。

「在理解复杂的适应性系统上,最关键的是要弄清楚层次是怎么出现的?」荷兰德说,「如果你忽略了下一个层次的规律,你就永远不可能理解这个层次的问题。」

分类器系统的诞生

为了使他的适应性作用者抓住涌现这个概念,荷兰德决定,他的规则和布告不用具有特别意义的符号手段来编写。它们将就是一排排 1 和 0 的二进制的任意序列。一个布告也许就是像 10010100 这样的序列,而一条规则则可能类似于:

「如果布告栏上有一个布告是 1###0#00 的话,其中#表示『无所谓』,那就贴上 01110101 这个布告。」

这种表示法很不符合常规,因此荷兰德不得不给他的这些规则取了一个新名称——「分类器」,因为它们的办法是根据布告的特殊类型来分别不同的布告。他认为这个抽象的表示法至关重要,因为它能防止人工智能研究人员自己愚弄自己,假装他们基于符号的程序「知道」。

竞争机制的引入

荷兰德还从基于规则的系统的中央控制的常规概念中找出了例外。他认为,这种自上而来的争议解决法恰恰是错误之所在。世界并非如此简单、可以预测,以至于你总是能够在事先就知道什么是最好的规则。而且,如果这个系统被事先告知如何行动,那么称之为人工智能就是一个骗局:这样的智能并不在程序之中,而是在程序员的脑子里。

荷兰德要的是让控制由学习而来,让控制从最底层涌现而出。他相信,连贯一致性是个幻想,在一个复杂的世界里,经验的连贯一致性是没有保障的。但对于与自己所处的环境玩游戏的作用者来说,竞争是永恒的。

「与主流人工智能研究正相反,我认为竞争比连贯一致性更为本质。」荷兰德说。他认识到竞争和合作看似对立,但在某种深层次上,它们是相同事物的两个方面。

拍卖机制的实现

为实现竞争的机制,荷兰德决定把张贴布告变成某种拍卖活动。他的基本想法是,不要把分类器当作是计算机指令,而当作对在特定情况下张贴什么布告最好的假设和推测。通过每一条假设的数值来衡量其道理和力量,这样就有了一个叫价的基础。

在荷兰德的布告张贴观念中,每一个循环开始时所有的分类器都在扫描布告栏,寻找与自己相关的布告。当发现与自己相关的分类器会站起来,准备张贴自己的布告时,它不会立即张贴,而是先量力叫价。然后系统收集所有的出价,用抽彩给奖法选择一组赢家,叫价最高的最有可能赢。中选的分类器就会张贴它们的布告,就这样循环往复。

学习问题的回归

分类器怎么来证明自己的价值,又怎么为自己获取可信值呢?荷兰德认为,最显在的答案就是采用一种赫伯式的强化作用。每当一个作用者做对了什么事,从环境中得到了一个正反馈,它就应该强化那些与此相关的分类器。而每当它做错了什么事,它同样应该削弱相关的分类器。

关键是要弄明白这些分类器所起的作用。作用者不能奖赏那些在颁奖的时候正巧表现活跃的分类器。那就像把得分的一切功劳都归于那个凑巧带球冲过底线的队员,而对操纵全局、把球传给他的四分卫,对拦截了对方进攻、为他开路的前锋,或任何替他传球的队员的功劳一笔勾销了。

这确实是一个问题。不幸的是,赫伯式的强化作用是一个过于广泛的一般性概念,无法提供解答。直到有一天荷兰德偶然回想起他在麻省理工学院上的基本经济学课程,才意识到他几乎已经解决了这个问题。他的布告栏前的拍卖已经为他在系统中建立了某种市场机制,通过允许分类器量力叫价的办法,他已经创造出了通货。所以,为什么不采取下一步行动?为什么不创造一个完整的自由市场经济,让强化能够在利益驱动下发生作用呢?

经济学与分类器系统的融合

荷兰德认识到,如果把张贴在布告栏上的布告当作是上市叫卖的货物和市场上提供的服务,那么就能把分类器想成是生产这些产品和提供这些服务的公司和厂家。当一个分类器看到有一个布告满足了它的「如果条件」,它就会叫一个价,那么就可以把它想成是一个正在求购生产所需供应的厂家。为使这一相似性更加完善,他要做的是,必须要使每一个分类器对自己消耗的供应付出报酬。他决定,当一个分类器赢得了张贴自己的布告的权力,它就得将自己的一部分力量转给供应商,也就是那些触发其张贴布告的分类器。在这个过程中,这些分类器就会被削弱。但在下一轮拍卖中,一旦它的布告上市,它会有重新聚集力量的机会,甚至能够获利。

但这些财富究竟是从何而来的呢?当然是从最终消费者而来的:环境就是系统的所有报偿之源。荷兰德认识到,除此之外,对凑巧在颁奖的时候活跃异常的分类器给予奖赏是完全正确的。既然每一个分类器都对供应有所付出,那么市场就会保证其奖赏普及到所有中选的分类器,从而产生他所寻求的某种自动报偿和惩罚机制。

他说:「如果你生产出对大家都合适的产品,那么你就会获利。如果不是这样的话,那就没人会买你的东西,你就会破产。」所有能够产生有效行动的分类器都会被强化,任何参与布局的分类器都不会被忽略。随着时间的日积月累,随着整个系统不断汲取经验和从环境中获得反馈,每一个分类器的强度就会与自己对作用者的真正价值相符。

荷兰德将适应性作用者的这部分称为「水桶队列」算法,因为其方法是将奖赏从一个分类者传到前一个分类者。这有如希伯的强化神经突触的大脑理论的直接翻版。或者,从这个意义上来说,与在计算机上调训模拟的神经网络也如出一辙。

基因算法的应用

荷兰德认为,搜索于可能性空间正是基因算法可以承担的工作。事实上,当你想到这一点时你就会看到,达尔文的比喻和亚当·斯密的比喻恰好可以相辅相成:企业能够随时间进化,为什么分类器不能够呢?

荷兰德当然不会为这一洞见而大惊小怪:基因算法一直存储在他脑子里。他刚开始对分类器做二进制的表述时就想到了基因算法。分类器用英文来陈述就像:「如果有两个布告,其模型分别是 1###0#00 和 0#00####则张贴布告 01110101。」但在计算机里,各部分信息会被串在一起,被写成一连串的信息:「1###0#000#00####01110101」。对基因算法而言,这就像是数字染色体。所以可以完全用同一种方式来执行这个算法。

结果就是,这群规则会随时间而改变和进化,在可能性空间中不断发现新的领域。由此你就会达到目的:将基因算法当作第三层,置于水桶队列算法和基本的基于规则的系统之上,荷兰德终于构筑成了一个不仅能够吸取经验,而且具有自发性和创造性的适应性作用者。

分类器系统的实际应用

荷兰德从1977年左右开始为第一个分类器系统编码。这项工作并不像他期望的那样直截了当。「我真以为只消几个月时间我就可以编出能够运作、对我有用的程序来。但实际上,我用了大半年的时间才做到令我自己满意的地步。」他说。

另一方面,这也怪他自己让自己做难。他以真正的荷兰德的风格来编写第一个分类器系统:完全依靠自己,而且是在家里,用的是十三年前他用于旋风计划的十六进位码和他家的一台康莫多(Commodore)计算机。

巴奇小组的成员们至今在说到这一段故事时还带着诧异的神情。当时满校园都是计算机:VAX机、大型计算机、甚至高功能的绘图工作站。为什么要用康莫多机?为什么要用十六进位码?几乎没人还在用十六进位码了。如果你真是个死心塌地的计算机高手,想方设法要从一台计算机的程序中榨出最后一点利用价值的话,你也可以用所谓组合语言来写,那起码能够用像 MOV、JMZ 和 SUB 这样的帮助记忆的符号来取代数字。或者,你也可以用 PASCAL、C. FORTRAN 或 LISP 这样的高级语言来编写程序。这些语言是人类比较容易理解的。尤其是科恩,仍然记得为此与荷兰德做过长时间的激烈争论。如果用这些夹杂字母的数字将程序写得杂乱无章,谁会相信它能运作呢?就算有人相信你,但如果你的分类器系统是在家用计算机上编写成的,谁又会用它呢?

最终荷兰德只好做出让步。不过到他同意将分类器系统交给一个研究生,里克·里奥罗(Rick Riolo)时,早已是八十年代初了。里克将这个系统改编成一个一般性功能的、能够在所有类型的计算机上运行的软件系统。

成果验证

荷兰德的分类器系统在多个实际应用中取得了显著成果。例如,史蒂芬·史密斯开发了一个能够玩扑克的分类器系统,并用它来和一个也有学习功能的老一点的玩扑克牌的软件对抗,分类器系统轻而易举地就赢了。此外,拉森·勃克在他的博士论文中将分类者系统运用在一个模拟的环境中,用它来寻找「食物」,避免「食物中毒」。这个系统很快就将自己的规则组织成这个环境的内化模型,就像一幅心智地图。

最感欣慰的是戴维·高德勃格的研究证明。高德勃格的系统非常圆满地学会了控制这个模拟的煤气管道系统:这个系统从一组完全随意的分类器开始,在经过一千天的模拟试验之后,达到了对控制煤气管道的专家水平。而且,这个系统掌握操作煤气管道的规则简单得不可思议。

总之,荷兰德的分类器系统不仅解决了实际问题,而且对基本的认知理论也具有极大的说服力。

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾