通过机器人了解大脑的功能架构 – 上海交通大学类脑智能应用与技术中心

人在骑马

中度可信度描述已自动生成

通过机器人了解大脑的功能架构

Tony J. Prescott and Stuart P. Wilson

导读

通过多年来对哺乳动物大脑的研究，人们发现大脑是由位于不同区域的多个专门的学习子系统构成的。但对于这些子系统如何结合以进行计算以产生适应性行为则一直是一个悬而未定的问题。近年来，通过机器人建模为研究复杂的大脑及生物系统提供了新思路。机器人越来越广泛地被当作用来测试的计算模型，以研究大脑如何控制动物的行为。因此，系统性地对当前最先进的机器人控制方法进行回顾及探讨其与大脑功能的联系的是非常有必要的。Science Robotics近日发表了题为“Understanding brain functional architecture through robotics”^[1]的综述论文，对多种机器人控制理论进行了概述，并通过与生物体大脑的工作方式交叉对比展望了未来的机器人发展路径。文中首先介绍了通过贝叶斯分布确定控制行为模块的Mosaic模型以及动态吸引子网络。其次重点介绍了自由能原理（FEP）。机器人系统会通过最小化自由能选择最不可能产生意外后果的行为以避免“意外事件”。随后作者指出在生物体中几乎不存在金字塔形状的由上至下的控制架构，取而代之的是一种类似于沙漏形态的分层控制架构。最后，作者对于未来的神经机器人进行了总结和展望，认为基于自由能原理的系统具有发展前景，其能够隐藏子系统的一些内在处理使其不受外部影响，并且也是动物和机器人的分层架构的特征。未来的神经机器人模型应该集成多种神经生物学约束，而采用包括最小化自由能组件的混合分层架构可能是最有前途的路径。

引言

早在25年前，Kenji Doya等人就提出哺乳动物大脑的功能架构是围绕三个专门的学习子系统组装的。具体来说，小脑（Cerebellum）中的模块电路实现监督学习，基底神经节（Basal ganglia）中的模块电路实现强化学习，大脑皮层（Cortex）中的模块电路实现无监督学习（图1）。从那时起，对各种大脑子系统执行的计算的许多详细描述得到了发展和完善，以及关于它们如何结合以产生适应性行为的理论建议。这项工作是实验和计算神经科学家、控制理论家和认知科学家共同努力的结果，激发了一种观点，即大脑具有混合架构，其中不同的、部分模块化的大脑子系统贡献了独特的互补功能。此外，有广泛的证据支持另一观点：即大脑结构也是分层的。也就是说，它由多个可分离的控制组件组装而成，其中，每一层的感觉装置都与运动系统相连接。一般来说，快速但不灵活的控制组件被安排在底层，缓慢但灵活的控制组件在顶层。这种体系结构表现出分离的特点，若高层系统被移除或破坏，不会完全损害低层系统，反之亦然。该特性有助于提高分层控制方案的鲁棒性。

图1 脊椎动物大脑的主要功能分区大鼠大脑的“平面图”，显示了几个主要功能区的总体布局

神经机器人学努力在具体实体系统中展示仿生控制的用途（见图2），它使得这些类脑的控制方案更加明确并使其理论假设更加可见。同时，其可以对底层理论的完整性提供严格的测试，特别是在涉及目标脑部子系统在感知与行动的实时协调中所起的作用方面。例如，机器人模型增加了我们对脊髓/脑干在运动模式生成中的作用的理解，例如小脑在预测控制中发挥重要作用；基底节是行为选择和强化学习的关键基础；海马体是作为支持记忆存储和检索的吸引子网络；大脑皮层是自组织体位图、多感觉趋同、心理意象和元认知控制的所在地。更广泛地说，越来越多的文献也通过神经机器人学提供了对脊椎动物和无脊椎动物神经系统中神经计算的理解。这些工作范围从嵌入特定神经回路模型（脉冲神经网络）到更注重使用更抽象的网络模型实现的计算原理。后者通常在纯算法级别上进行构建，经常强调与更广泛的系统动力学和行为的匹配。这种方法最近被描述为“认知神经机器人学”，将是主要关注点。

图2. 示例神经机器人研究平台。

(A) Salamandra Robotica，一种既能游泳又能行走的两栖机器人，由脊髓中的振荡网络模型进行控制。

(B) WhiskEye，一个用于仿真大脑系统的机器人模型，其包括小脑、基底节、上丘和海马体模型，用于展示有触须系统的哺乳动物的导航和主动感知。

(D) 设计神经机器人涉及将神经回路的计算模型与动物感知和运动系统的物理模型进行接口连接。通常，控制系统还包括非神经启发的组件，用于调节这种接口（称为“嵌入式架构”）。在设计良好且与其环境/领域相匹配的机器人中，机器人身体的形态可以简化控制的某些方面（称为“形态计算”）。结果产生的生物的物理模型能够在真实环境中操作，成为嵌入式神经模型生成自适应行为能力的强大测试。

神经科学中机器人建模的日益重要性证明了罗森布鲁斯和维纳的观点，即适当设计的物理模型可以作为研究复杂生物系统的科学理论的有用手段。机器人建模在神经科学中的重要性日益增强，这种装置本身可以作为理论的完整表达，并作为其解释、预测和控制能力的切实证明。

人工智能（AI）和认知科学的早期历史致力于对认知理论进行统一，例如Soar架构和思维适应性控制（ACT）架构。这些认知架构以目标为导向，试图通过相对较少的核心机制来表征心智/大脑的功能。最近几十年来，通过最小化自由能的识别以及通过预测处理框架将其具体化为认知架构，再次引发了对统一理论的追求。而机器人技术越来越成为评估这一假设的重要手段，并确定它是否能够实现其承诺。文章首先回顾了早期机器人控制理论中构成这个新框架的基础，并通过结合递归神经网络来观察它们的后续发展。

Mosaic：在控制模块之间进行选择

目前最先进机器人控制技术的基础至少可以追溯到Doya及其合作者开发的经典的Mosaic（MOSAIC; modular selection and identification for control）模型（图3）。Mosaic模型背后的基本方法包括调整正向和反向模型（例如人工神经网络）对，基于它们的输出与机器人的未来状态（例如位置和速度）的匹配程度。在每一对中，正模型由系统的输入预测未来的状态，并修正预测正确率。而逆模型根据期望状态计算输入。

图3 马赛克模型的架构图 根据它们的输出与机器人未来状态的匹配程度，对正向和逆模型进行调整。每个正向模型产生的本体感觉预测误差被来自其他传感器的上下文信号加权，然后在各个模块之间归一化，以创建一个“响应度”分布，这反过来又权衡相应的逆模型对整体运动命令的贡献。预测误差、响应度预测器和归一化响应度可以被认为是似然估计、先验和后验，因此，该模型实现了当前预测处理系统中广泛使用的贝叶斯信念更新的一种形式。

“响应度”的结果分布决定了在调整每个模型对时要分配的总体误差的比例，以及给定的逆模型对整体电机命令的贡献。结果是每个逆模型请求的操作之间的(软)选择，这应该适合于获得更理想的未来状态。如果根据来自其他传感器(视觉、音频等)的上下文信息对每个响应度的预测进行了类似的调整，那么系统也可以期望以上下文适当的方式对行动请求进行偏见。例如，在一个蓝色物体最重的世界中，相机图像中的蓝色区域应该会偏向于选择使用提升力最强的逆模型。控制系统以这种方式校准自己可以被看作是贝叶斯信念更新的一种形式——也就是说，通过迭代应用贝叶斯规则来计算下一个（后验）“响应度”分布，使用在前一次迭代中计算的结果作为当前先验。这一过程最大限度地减少了依赖于上下文的预测响应度(先验)以及在机器人学习的特定环境中将适当的运动命令映射到理想状态分布的KL散度。这个最小化过程是现代预测处理框架中控制方法的一个关键特征。其中一个重要的思想是其将获得的响应度分配构成了一个统计模型，用于让机器人的特定环境中进行有效的电机控制。

通过动态吸引子表征动作

就在人们思考小脑加工在控制动作中的作用时，Tani和Nolfi等人独立地得出了一种类似的方法，用于加权学习更新和控制来自一系列竞争模块的信号。为了测试这想法，实验设计了让一个虚拟机器人在一个由两个房间组成的二维环境中独立移动，每个房间都有不同的障碍物(内墙)。在机器人经过学习之后人们发现，在发生与障碍物特征相关的特定运动模式变化时（例如沿着墙壁或转弯），较低级别的系统会突然选择不同的循环网络，从而与环境变化保持同步。而在第二个系统中，机器人会学着从不同的循环神经网络中选择在当前给定的房间里产生最低的预测误差的网络。这些概念的表征在每个层次上表现为循环网络的选择，这些网络的内在吸引子动力学在相应的感觉-运动模式的存在下被唤起。这些自组织动力学提供了一个显著的证明，说明有意义的时间扩展传感器运动事件的离散符号(选择的吸引子)如何在连续时间系统中出现。

Yamashita和Tani的后续研究证明了吸引子动力学在运动控制表征方面非常有用，尤其是在表征多时间尺度上的动作顺序时。他们针对基于Mosaic架构的模型提出了批评，认为其模块化设计中固有的分割和普适性之间存在冲突。作为一种更具生物学动机的替代方案，他们研究了由具有不同内在动态时间尺度的单元组成的高度循环网络的特性。在Yamashita和Tani的模型中，接收机器人状态信息（关节感知和物体定位的外部感知）的输入/输出单元群仅投射到快速单元，并且快速单元和慢速单元的连接方式类似（图4）。网络通过实验者通过一系列动作来移动人型机器人的手臂来进行训练。这些动作包括多次触摸物体，左右或上下移动多次，以及多次拍手。在机器人返回初始姿势之前，这些动作之间的转换可以采用不同长度的不同路径。在训练期间，慢速单元在每个序列开始时被初始化为特定状态，以便通过相应地重置慢速单元的初始状态来研究特定动作序列的学习潜力。使用反向传播算法对网络进行了离线训练，以预测下一个传感器-运动状态。训练后，通过控制输入/输出单元，网络成功地复制了动作序列。在重复运动过程中，快速单元观察到类似的激活动力学重复出现，而慢速单元的活动模式除了在子任务之间的转换处外是不变的，这补充了Tani和Nolfi在感知方面的发现。当快速单元的权重被冻结时，后续可以通过只有慢速单元群体的单元能够继续适应来学习这些子任务的新序列。这一发现表明：控制模块的分割可以通过具有多时间尺度动态的网络的固有自组织特性来实现，而不需要由架构约束规定。

图4. 通过吸引子动力学表示行动。其中连续时间循环神经网络中快速单元中的不同吸引子动力学代表机器人执行的不同动作，而较慢单元的动力学代表动作的配置。系统的输入是本体感觉信号和关于待操作对象位置的视觉信息。慢速和快速上下文单元是具有不同内在积分时间常数的点神经元模型。每个单元都与其他单元连接，包括自身，只有输入单元没有直接连接到慢速上下文单元（为了清晰起见，图中显示了一个说明性的子集单元和连接）。输出单元的激活被视为对未来本体感觉状态的预测，并且预测误差被用来使用反向传播算法调整网络连接权重。

由于将神经网络用于机器人的感知和控制在根本上存在相似性，所以感知和行动可以看作是同一件事的两个不可分割的两部分，就像一枚硬币的两面一样。这也表明感知和行动在现代“预测处理（predictive processing）”理论中是密切相关的。这是接下来介绍的现代“预测处理”背景下的关键原则。

生成避免意外状况的动作

预测处理框架也被称为“主动推理”，包括Karl Friston提出的新兴“感知物理学”，都源于热力学术语对生命系统的描述。相对应地，一个有机体可以被认为是一个粒子，对抗热力学第二定律而保持低熵。维持这一模式的方法是是：占据一组与环境的外部状态分离的内部状态，并保持两者之间的边界。这个边界被称为马尔可夫毯，由生物体的传感器和效应器的状态组成，并调解生物体和环境之间的信息交换。

在这些术语中，感知是通过传感器状态从外部状态到内部状态的信息流，而行动是相反的流动，通过效应器从内部状态传递到外部状态。自组织系统能够对抗热力学第二定律，不断监督其内部的不确定性，具体包括两部分：1、利用流入信息构建预测器，降低对环境的不确定性感到“意外”。2、利用输出信息流改变环境，降低环境反馈给智能体“意外”的内容。因此，有机体为了对抗热力学第二定律，会通过最小化自由能选择最不可能产生意外后果的行为，并通过调整预测使未来的感官状态不会产生“意外”。

图5 系统应做出避免意外状况的动作

图示的架构会在当本体感受和外感受信号提供一致或不一致的信息时，会出现不同的自由能机制。执行区由单个隐变量单元(蓝色大圆圈)组成，关联区包含15个循环网络节点(8个快速节点（橙色），8个慢速节点（灰色）)和3个隐变量单元(大灰色圆圈)，两个感觉区各包含15个循环网络节点和1个隐变量单元。关联区的每个循环网络节点接收来自执行区的隐变量单元、关联区的三个隐变量单元以及在前一个时间步中关联区的所有循环网络节点的激活的加权输入。在给定的感觉区域中，每个循环单元接收来自关联区域的三个隐变量单元、来自相应感觉区域的隐变量以及来自该感觉区域在前一个时间步中所有循环网络节点激活的加权输入。

每个感觉区域中循环单元的子集被分配为输出单元，并且每个传感器值的激活加权和被解释为其未来状态的预测。将预测的本体感受状态作为PID控制器确定机器人运动的目标值，并不断将本体感受和外感受预测与实际的未来状态进行比较，从而产生预测误差。插图显示了潜在变量(橙色)的变化，以最小化自由能。

虽然顶层执行区域活动的离散变化对应于控制策略的高阶变化，但它们是从整体网络动力学中自发产生的，也就是在避免“意外”的总体要求下产生的。这对于理解大脑中“执行”功能的出现具有重要意义，即在控制方案中，自由能最小化可以在网络的多个嵌入层次上实现。更一般地说，自20世纪90年代以来，使用预测处理技术来协调多尺度循环网络的机器人控制动力学揭示了预测处理和行动主义对控制和认知的几个有希望的结合点。

大脑：一种分层的沙漏架构

在当根据自由能原理的表述进行控制架构的工程化设计时，最容易通过基于同质处理单元和（双向）信息传递来进行。而在涉及到大脑时，自由能原理的描述与皮层内和丘脑皮层回路最能密切匹配。然而，到目前为止所回顾的模型是否已经明确地将这种严格的层次约束合并到体系结构的设计中还不清楚。事实上一些工作已经证明，在控制系统中功能层次的出现并不一定与严格的层次结构的约束相同，这些层次约束可能在其他情况下用于设计控制架构。严格的层次结构指许多低层次的控制结构在更高的层次上由更少的控制结构组合在一起，并由处于金字塔顶端的某个控制结构统合在一起。这种控制结构在生物系统中是很少实现的。恰恰相反的是，生物控制是通过递阶结构实现的，通常涉及倒金字塔结构，较少数量的低级控制器被更多的高级控制器重用和重新利用。

脊椎动物大脑的进化神经生物学表明，在宏观层面上，包括大脑皮层在内所有主要的子系统存在于所有脊椎动物类别中。如前所述，该架构具有分层设计(如图6A所示)，结合了层次结构和递阶结构的元素，同时提供了抗损伤和极端的鲁棒性，这也是许多现代工程系统的要求。分层控制也是一些脑启发的机器人控制系统的特征，如分布式自适应控制和ArmarX架构。

图6所示。分层架构和沙漏架构。

(A)分层的体系结构表现出分离特性，这样较低的层次仍然可以运作，并在高层受到破坏(或移除)的情况下表现出某种行为能力，反之则不然。对于类似的问题，各层可以实现不同的解决方案;。通常，这些解决方案在较低的层中速度快但不灵活，在较高的层中速度慢但更灵活。分层控制系统不是严格的控制层次结构。层之间的接口可能导致信息的封装隔离，也就是说，较低层次的处理可能无法在较高层次上完全访问。在计算机科学术语中，这可以描述为产生抽象层，并且可以与马尔可夫毯的思想相关。

(B)在沙漏(或领结)架构中，层之间接口的封闭自主的进程协议是以“解除约束的约束(constraints that deconstrain)”来操作的。例如，脊椎动物基底神经节的高度封闭自主的内在电路，它拥有对所有自主运动的否决权，并将可以指挥行为的大脑子系统与实现实时控制的感觉运动子系统连接起来，可能作为沙漏结构的一种形式运作，限制了感觉运动系统可以被访问的方式，但增加了系统增加新行为能力的灵活性。

(C)哺乳动物眼动系统的分层和沙漏控制。前脑系统包括前额视野和中脑上丘(superior colliculus，SC)，它们都能够产生指导眼球运动的信号。在某种程度上，前脑系统通过改变SC的行为来运作，但是SC能够在没有皮层(盲视)的情况下产生眼球运动。因此，整个系统可以被描述为一个分层的体系结构。这两个系统都投射到basal ganglia基底节区(纹状体)，并从基底节区(黑质)接收抑制输出。因此，基底神经节实例化了一种沙漏结构形式，限制了两个系统访问运动输出的能力。

不仅大脑的整体分层结构是封闭自主的，而且沿着大脑中线参与功能整合的核心系统特别是基底节区和内侧网状结构也是封闭自主的。构成基底神经节的核将能够指挥行为的大脑子系统与实现实时控制的感觉运动子系统连接起来。

总的来说，基底神经节否决了所有的自主运动，确保动物不会同时尝试不相容的动作。这种设计限制了感觉运动系统的访问方式，同时增加了系统的灵活性，以增加新的行为能力，并控制不同动物形式的各种感觉和肌肉骨骼系统。对于实现这种“沙漏”架构的工程系统，也描述了类似的“约束-去约束”原则（图6B）。在整个分层控制系统中，用于动作选择的沙漏结构的存在提供了一种强大而灵活的方式来组装受大脑启发的控制结构。

在自生产系统中利用闭合约束产生认知

即使是非常简单的生物系统也能够体现认知。在某种程度上，变构酶在感知特定分子存在的基础上“决定”化学反应的速率，这样做有助于维持生物体的功能特性，以换取其构建和修复所需的物质和能量。因此，控制机制是一种特殊的约束，它在降低系统的自由度的影像上不是永久的，即使是最简单的生物体也包含多个这样的机制。哺乳动物体温调节的子系统显示了这一特征，即平行和部分独立的子系统组成的分层结构，这些子系统在大脑中不完全集成，但通过涉及身体和环境的反馈回路相互作用。在经典的反馈控制方式中，它们不是直接合作将温度维持在一个设定值上，而是协同运作，在生物体的适应范围内维持一个动态的“平衡点”

约束闭合系统符合可进化生命的标准，每一个被纳入系统动力学的新约束都可以被识别为一个新的生物功能，只要它也成为维持系统动力学的必要条件，每一个都为完成更多的热力学工作和产生新的功能提供了进一步的机会。例如，心脏的功能是泵血，是因为泵血是维持整体的必要条件。因此，当维护整体的新机会出现时，可以合并新的约束并出现新的功能。

约束闭合的先决条件是必须存在一条路径，通过该路径，所有约束都可以影响所有其他约束。生物体可被认为是相互作用的粒子系统，每个粒子都包裹在自己的马尔可夫毯中，与其他粒子相互作用，从而共同维持一个“上级”毯，将集体系统的动态与环境的动态分开。细胞在相互作用的分子过程周围维持着马尔可夫毯，组织覆盖着相互作用的细胞，器官覆盖相互作用的组织;生物体覆盖着相互作用的器官。从这个观点来看，一个重要的概念是：为了保持一个优越的马尔可夫毯，从而在生物体(或生态系统)的水平上是自证的，系统的组成部分必须是耦合的，它们的内部状态必须是条件独立的。从行为论的观点来看，生命系统的一个关键特征是，它们并不是避免发生相变（通过最小化意外性），而是在与环境的相互作用下，在进化、发育和行为时间尺度上经历离散的、通常是不可逆的相变。因此这种观点强调了生命系统的历史性质。理解生命系统中可用状态的定性变化的关键，在于理解系统可能经历的相变序列，例如通过身体的变化和对环境的适应。简而言之，人类和老鼠的大脑，婴儿和成年人的大脑，专家和新手的大脑都可能在最小化自由能方面相似，但自由能原理并不能揭示它们之间的差异。

神经机器人技术的未来

自由能原理（FEP）提供了一种特定的形式方法来校准给定的控制网络以最小化意外性，并通过一些机器人技术的研究提供了令人印象深刻的机器人控制示例，为感知和行动在认知系统中相互作用提供了新的见解。虽然物理系统可能被视为与形式模型同构并嵌入其中，但实际上，生物体和机器人面临许多无法完全由一般形式模型捕捉的约束条件，包括效率、可进化性、可学习性和系统自组装的能力。自由能原理及其更广泛的预测处理方法并不在架构和设计上预设强健高效的控制和认知的约束条件。实际上，预测处理不仅仅在大脑内部实现，而是在整个有机体及其环境中实现。这与计算机科学中的抽象边界概念相似，它隐藏了子系统的一些内在处理，使其不受外部影响，并且也是动物和机器人的分层架构的特征。然而预测处理不应被视为通过机器人技术探索自然设计原则的唯一途径。还需要更广泛地基于约束闭合、行动主义以及生物智能产生的生物学原则来进行研究。作为理解大脑的一种途径，通过物理建模，采用包括最小化自由能组件的混合分层架构可能是最有前途的路径。

Prescott T J, Wilson S P. Understanding brain functional architecture through robotics[J]. Science Robotics, 2023, 8(78): eadg6014. ↑