终身学习的生物学机理 – 上海交通大学类脑智能应用与技术中心

Kudithipudi D, Aguilar-Simon M, Babb J, et al.

导读

在如今快速发展的人工智能领域，终身学习（Lifelong Learning, L2）是一个至关重要的研究方向。终身学习致力于开发能够持续适应新环境、掌握新技能，并有效利用以往知识的智能系统。生物有机体一生都在与环境的相互作用中学习，人工智能系统要想在现实世界中成功行动和适应，也需要具备类似的终身学习能力。但如今这一挑战在很大程度上仍未得到解决。

来自美国德克萨斯大学圣安东尼奥分校、MIT和加利福尼亚大学圣地亚哥分校等25所机构的研究人员在Nature Machine Intelligence发表题为《Biological underpinnings for lifelong learning machines》^[1]的“视角”文章，深入探讨了终身学习这一领域，旨在通过理解生物体如何实现终身学习，来启发和指导人工智能系统的开发。

本文首先介绍了终身学习的六个关键特征。随后从生物学角度介绍了使这六种终身学习特征得以实现的内在机制，包括大脑中的过程及来自大脑之外的细胞内和细胞间活动。最后介绍了结合上述终生学习特征的生物启发算法。总的来说，这篇文章提供了一个全面而深入的视角，展示终身学习在人工智能领域的研究背景、意义以及未来发展的方向。通过借鉴生物体的学习机制，未来有望开发出更加智能、灵活和可持续的人工智能系统，以应对日益复杂的现实世界挑战。

摘要

生物有机体在其一生中都在与环境的相互作用中学习。人工系统要想在现实世界中成功地行动和适应，最好同样能够持续不断地学习。本文确定了人工智能系统实现终身学习所需的一系列关键能力。本文描述了一些神经元和非神经元的生物机制，将有助于解释生物体是如何解决这些挑战的。并举例说明了在开发终身学习机器的过程中应该要考虑的生物启发模型和生物可信机制。最后还讨论了进一步理解和推动终身学习技术发展的机会，旨在弥合自然智能与人工智能之间的差距。

引言

过去几十年，机器学习领域取得了惊人的进步。然而，新一代的应用将需要一种能够终身学习的新型机器智能范式。这些机器需要在不损害原有知识情况下掌握新技能、适应变化，并将以前学到的知识应用到新任务中，同时节约有限的资源，如算力、内存和能源。这些能力统称为终身学习（Lifelong Learning， L2）。与目前的机器智能不同，从无脊椎动物到人类的物种都能够在一生中不断学习。神经科学家和其他生物学家提出了几种机制来解释这种能力，机器学习研究人员也试图在人工系统中模仿这些机制，且都取得了不同程度的成功。值得注意的是，有大量人工智能（AI）研究从不够清晰的生物学角度来解决终身学习问题。这些研究大致可分为三类：”演练（Replay）”，即从过去的任务中存储或生成数据以供重放11-13；”架构（Architecture）”，即扩展模型参数；以及 “基于正则化(Regularization-based) “的方法，即根据过去任务中重要参数的变化进行惩罚或使用元学习。这些模型并非直接受生物机制启发，不属于本视角的研究范围。在本篇文章的视角中，我们将：（1）确定终身学习的一系列关键特征；（2）简述据信参与实现这些特征的生物机制；（3）回顾在机器学习模型中实施类似机制的研究，目的是在人工系统中实现终身学习能力。

终身学习的关键特征

“终身学习机器”（Lifelong Learning Machines，L2M）是一种运行方式与生物非常相似的系统：它们从不停止学习，其性能随着经验的积累而不断提高。更重要的是，它们对能源和计算/内存资源的需求不大。下面，我们将介绍终身学习的六个关键特征。在人工智能系统中成功实现这些特征将代表着向真正的终身学习能力迈进的一大步（如图1所示）。

图1 实现终身学习所需的主要特征

1.1 迁移和适应（Transfer And Adaptation）

终身学习机器需要能够迁移和重复使用知识以提高性能，还需要能够快速适应新环境，而不需要离线再训练。这些能力对于部署在现实世界中的模型至关重要，因为现实世界中的情况和环境条件可能会有很大的不同。针对小样本学习（从少量样本中学习）和元学习（快速学习概念）的研究已尝试解决适应问题。

1.2 克服灾难性遗忘（Overcoming Catastrophic Forgetting）

机器学习模型的一个常见问题是，在对新任务进行训练时，无法保留以前学习的知识。这就是所谓的 “灾难性遗忘”，当网络为了优化当前任务的性能而改变网络参数，却没有充分保护以前的知识时，就会出现这种情况。这不是内存不足的问题，而是内存区域重写的问题。既要掌握新技能，又要不遗忘旧技能，这一难题又被称为 “稳定性-可塑性困境”（stability-placticity dilemma）。

1.3 利用任务的相似性（Exploiting Task Similarity）

L2 模型需要学习多项任务。以往的研究表明，学习多个任务并实现任务间的信息传递可以提高学习性能。前向迁移（Forward transfer）指的是将以前学到的技能应用到新任务中，而后向迁移（Backward transfer）指的是学习新任务可以提高以前所学任务的性能。实现这种正向和反向迁移的一种方法是组合能力——将复杂任务分解为可在相关任务中重复使用的更基本组件的能力。识别和重用子任务的能力将加速转移和适应。

1.4 与任务无关的学习能力（Task-agnostic learning）

部署在现实世界中的L2模型不能通过某种方式得知何时从一个任务切换到另一个任务，或者在任何特定情况下哪一个以前学过的任务是适用的。而是必须能够在没有这些信息的情况下表现良好。我们将此称为 “与任务无关的学习能力”。在当前最先进的机器学习中，一些模型在训练和推理过程中需要任务种类的识别，而另一些模型则只需要在任务切换发生时获得相关信息。终身学习机器必须能够在没有任务识别信息的情况下执行推理。

1.5 噪声容忍能力（Noise tolerance）

通常情况下，最先进的人工智能模型都是在为优化训练而收集和清理的数据集上进行训练的，如果推理过程中遇到的数据与训练数据相差很大，模型就会表现不佳。以前的工作主要集中在构建鲁棒的模型上，但尚未在终身学习的背景下进行探索。终身学习机器必须能够处理因环境或智能体本身传感器的变化而与训练数据不同的数据。

1.6 能效与可持续性（Resource efficiency and sustainability）

要想让机器学习模型在其整个使用寿命内持续学习，就必须高度重视资源限制问题。例如，如果一个系统需要记住（例如在数据库中）其过去的所有经验，就需要不断增加存储容量（例如放在重放的缓冲中），尽管有人试图压缩更长时间尺度上需要存储的内容。同样，提供持续的干净训练数据甚至正则化数据是不切实际的。学习时间不应使系统不堪重负或减慢推理速度。此外，系统可用的不同任务或行为的数量也不应影响其实时响应。我们将在 “补充信息 “中讨论一些文献中常用的衡量标准。

值得注意的是，这个列表是以任务为中心的方式呈现的，重点关注智能体在世界中希望执行的有用的任务。正如在自监督学习、好奇心驱动的强化学习和开放式学习等工作中一样，智能体可能会执行其他任务（由特定目标或奖励函数驱动，例如：降低预测未来的不确定性），这些任务并不是有用任务。然而，即使在这些情况下，终身学习的特性仍然适用；例如，在自由探索期间，智能体仍不应灾难性地遗忘以前的任务，并且所学到的技能仍然可以用于提高在有用任务上的表现。

支持终身学习的生物机制

由于许多动物物种都能在一生中不断学习，生物学家们试图找出使上一节所述特征得以实现的内在机制。如下文各小节所述，目前已经提出了几种机制（图 2）。这些机制中的大多数归因于大脑中的过程，但也有一些来自大脑之外的细胞内和细胞间活动。衡量终身学习成功与否的综合指标仍在不断发展，这也是一个活跃的研究领域。

图2 支持终身学习的生物机制

2.1 神经形成（Neurogenesis）

神经形成（Neurogenesis）。神经形成是指在中枢神经系统中产生新神经元的过程。尽管在早期发育阶段最为活跃，但这一过程贯穿整个生命。在成年个体中，神经形成发生在海马形成体的齿状回和侧脑室的室管膜下区。一个众所周知的成年神经形成例子可以在小鼠的室管膜下区观察到，在这里产生嗅觉中间神经元，随后它们迁移到嗅球（图3）。研究显示，如果成年小鼠接触到更丰富多样的体验，其神经形成率会更高。这表明自我调节的神经形成在增加可编码和存储的新记忆数量方面起到了作用，并且不会灾难性地遗忘已经巩固的记忆。神经形成在婴儿发育期间也起到重要作用，从而容纳新信息和技能而需要的生长和重组。昆虫发育周期中发生的神经形成和突触形成是动态结构和生物体适应新任务和功能的极端例子。当现有结构发展到成熟状态时，会对其进行增强和重新利用，以满足日益增长的处理需求。尽管其体型和构造上发生了巨大变化，但学习到的反应却能在变态过程中得以保留（例如，从毛毛虫到飞蛾的转变过程）。

图3 神经形成 a,小鼠头部显示大脑的位置和迁徙流（RMS）（红色），新生成的神经母细胞沿着这条迁徙流从侧脑室（LV）的室下区迁徙到嗅球（OB）。 b,新生成的神经母细胞从侧脑室开始迁徙，沿着 RMS 继续迁徙，到达嗅球，在这里生成成熟的中间神经元群。

2.2 情节重放（Episodic replay）

重放是指先前在清醒时出现的神经元活动模式在随后的睡眠或休息时再次出现的现象（图 4）。这种重放现象首先在海马区被观察到，随后在海马区和新皮层区同步观察到。一种有影响力的假说认为，经验最初在海马体中编码，随后在睡眠过程中重放至新皮层。新皮层会将这些从海马体开始的回放与自身已经巩固的神经模式的回放交织在一起，以便整合新信息，同时又不会过度覆写之前的记忆结构。

图4 啮齿动物海马中的情节重放 a, 清醒活动状态下，海马区位细胞根据动物访问的空间位置依次放电。海马的局部场电位（LFP）显示出theta振荡。b, 在睡眠期间和活跃行为之后的休息期间（有时在活跃行为的短暂停顿期间），海马的局部场电位显示出 “波纹 “活动（100-200 赫兹振荡的短暂脉冲），在此期间神经元迅速重放活动期间发生的序列。在其他脑区也可以观察到活动过程中活动序列的重放。

2.3 元可塑性（Metaplasticity）：

神经活动可以改变单个突触的强度，这就是所谓的突触可塑性，也是最广泛研究的大脑存储记忆的机制。除此以外，突触增强或减弱的难易程度本身也会随着时间的推移而变化。这种 “可塑性的可塑性 “被称为为 “元可塑性”（metaplasticity）：突触的改变能力取决于其内部的生化状态，而生化状态又取决于突触改变的历史和近期的神经活动。元可塑性与记忆维持的多个方面有关，包括减轻灾难性遗忘和调节整体神经兴奋性。特别是异突触调节已被证明在突触巩固中至关重要，它允许快速学习但缓慢遗忘。

新记忆的存储会干扰原有记忆，从而导致遗忘。当记忆资源受到限制时，遗忘过程可能会变得非常迅速，比如当突触权重只能以有限的精度存储时（生物突触权重就是这种情况），其值最多只能以4或5比特的精度保存在较长的时间尺度上。这种有限精度对记忆容量的影响是巨大的，严重限制了任何在线学习神经系统的性能。生物突触的复杂性可能是解决这一问题的方法之一：生物突触权重的改变涉及多个在不同时间尺度上运行的级联过程。快机制和慢机制允许快速获取新信息，并根据随后发生的事件延迟决定是否将改变永久保持。一个虚假信号可能只会导致突触强度的暂时改变，而重复的强输入信号则会留下永久的记忆痕迹。因此，这些机制有助于解决稳定性-可塑性困境。

2.4 神经调制（Neuromodulation）

神经调制的神经元释放的神经递质对活动性和可塑性既有局部影响，也有整体影响（图 5）。研究者对神经调制在期望和非期望的不确定性情况下的行为适应方面进行了研究和建模。

图5 大脑中的神经调节系统左图是皮层下神经调节剂的来源。乙酰胆碱来源于内侧黑质（S）和内侧隔膜（M）。多巴胺起源于腹侧被盖区（VTA）和黑质紧密区（SNc），去甲肾上腺素起源于脑室（LC），5-羟色胺起源于背侧（DR）和内侧（MR）剑突核。这些神经源投射到神经系统的大片区域。右图中，阶段性神经调节促使机体做出更多开发性的和决断性的行为，而强直性神经调节则促使机体做出更多探索性或好奇性的行为。每种神经调节器的活动都与环境刺激有关。例如，乙酰胆碱水平似乎与注意力水平有关，多巴胺水平似乎与奖励的预期有关，去甲肾上腺素水平似乎与惊喜感或新奇性有关，而血清素水平似乎与风险评估和冲动性有关。

神经调节剂对学习具有选择性影响。例如，乙酰胆碱（ACh）调节刺激驱动的注意力和目标驱动的注意力之间的权衡，去甲肾上腺素（NA）驱动对新奇和惊喜的反应，5-羟色胺（5-HT）可根据情境改变耐心和自信，多巴胺携带奖励预测错误信号，这些机制一直是强化学习算法的灵感来源。有证据表明，ACh 的释放是由期望的不确定性和意外奖励触发的，而去甲肾上腺素的释放则是由“惊讶（surprise）”触发的。不确定性是适应和学习行为的触发因素，因此神经调制是模拟人工智能算法的理想机制，这种算法能够通过集中注意力和记忆编码进行自我适应。多巴胺可以将线索与预测结果联系起来，这些结果可以是奖励、惩罚和新奇感，还可以驱动好奇心。研究还证明多巴胺在将突触中的短期电位（STP）转化为长期电位（LTP）中发挥了作用。在某些情况下，只有最近激活的突触才能在多巴胺的诱导下产生 LTP。研究表明，昆虫大脑蘑菇体内的神经调节在调节活动、形成记忆和编码情感方面发挥着关键作用。因此神经调节可促进学习，帮助克服灾难性遗忘，支持对不确定和新奇经历的适应，并提高对情境变化的理解能力。

2.5 依赖情境的感知和门控机制（Context-dependent perception and gating）

在生物系统中，情境在调节、过滤和吸收新信息方面发挥着重要作用。这对于追踪不断变化的环境、引导人们关注变化以及整合新信息都非常重要。情境门控，即神经元亚群的选择性启用，有助于减少类似感受之间的干扰。

例如，在嗅觉系统中，情境在调节反应和学习新反应方面发挥着重要作用。嗅球是大脑皮层中接收来自鼻子的直接感觉输入的区域，它从大脑其他部位接收的输入要多于从鼻子接收的输入。初级神经元直接投射到大脑中与记忆、情境和情感有关的许多部位，主要受内部状态、行为预期和所学气味的行为情境驱动。这些输入可能提供了与任务学习、奖赏联想和适当运动反应相关的动态灵活性。它们可以更快地学习新的刺激并做出反应，包括对相同刺激做出不同反应以及在不同环境中做出稳定的反应。

情境调制和门控也可用于选择性注意力。例如，在昆虫视觉中，增益调制可对目标轨迹进行编码，从而局部增强其视野相关区域的增益。自上而下的任务驱动路径可以有效地将注意力引导到与任务相关的特征上，有助于过滤掉不太相关的刺激，并将注意力集中到需要立即做出反应的关键刺激上。这种引导注意力和跟踪预期不确定性的程序在哺乳动物大脑的胆碱能系统中可以观察到。

对前额叶皮质病变患者的观察、神经影像学研究和动物实验表明，前额叶皮质及其相连区域在编码、存储和利用心理图式（即依赖情境的行为策略）方面非常重要。获得新的记忆类型（例如，第一次看到大海）需要创建新的图式，而与以前所学记忆相似的新记忆（例如，一个熟悉海洋的人去了一个新的海滩）则可以迅速纳入现有图式，同时在其他图式中保留旧信息。这一过程需要将经验与发生经验的情境图式一起编码，这也是大脑利用任务相似性实现迁移和适应、克服灾难性遗忘以及在嘈杂环境中学习的一种方式。

2.6 分层的分布式系统（Hierarchical distributed systems）

许多生物体要么没有中央大脑，要么大脑极小。这些控制架构表现为分层系统。这样，处理和学习就可以分布在遍布全身的多个神经元网络中，每个神经元网络内部的连通性很高，但网络之间的连通性却相对稀疏。这种分散的非冯-诺依曼架构已开始在人工智能和分布式控制领域的人工神经网络中得到应用。通过利用这种分层分布式架构，生物系统大大降低了每一层的输入和输出维度，从而减少了延迟并加快了学习速度。一个典型的例子是 “中央模式发生器 “，它能自主应对扰动，完成运动和周期性运动。

图示

描述已自动生成

图6 生物系统使用多层次的动态相互作用。 身体的形态特性和约束条件决定了控制器可以利用的可行的低级动态。皮层下的低级传感组织和反馈回路（如肌肉、脑干和小脑）介导与环境的互动，而高级皮层大脑过程只需对其进行规划、选择和调整。这就通过限制输入/输出的复杂性降低了资源利用率，并允许在特定层级快速学习而不影响其他层级。因此，学习和控制被分配到整个系统的子任务中。

这种分层和分布式方法使动物能够在传感器嘈杂、执行器（即肌肉）迟缓和信号延迟的情况下仍能达到令人羡慕的性能水平。现在有一种新的共识认为，这得益于大脑与身体共同进化出的分层分布式神经回路（图6）能够进行有效的感官处理和肌肉控制。我们现在有可能绘制出这种广泛分布的生物回路，从而了解它们是如何促进任务分解和检测任务重叠的。

2.7 大脑之外的认知（Cognition outside the brain）

功能计算和问题解决的重点大多集中在模拟类脑架构上。然而，许多生物系统在没有神经系统的情况下，也能从经验中学习，预测未来事件，并对新挑战做出适应性反应。这包括生物体和生物组织层次，如单个细胞甚至分子网络，它们通过非神经生物电网络（BEN）或转录网络等亚细胞过程进行计算。一个简单的非神经生物电模型可以通过训练来完成逻辑和模式识别等逻辑任务，这就是一个原理证明（图 7）。由于相同的生物电回路可以控制适应性形态发生（例如再生）和计算（决策），这从生物学方面说明了如何利用同一套机制来适应不断变化的身体结构以及环境输入和条件方面的新情况。利用这一策略的生命系统不仅能应对环境的剧烈变化（如遇到对细胞生理产生强烈影响的毒素），还能应对自身结构和功能的变化（如损坏和再生重塑原有或新的结构）。从基础认知和再生生物学领域推断出的对新环境和新身体构造的可塑性和适应机制，为创造新型终身学习机器提供了丰富的策略库（图 8）。

图示

描述已自动生成

图7 BEN：一种可以学习的非神经生物电网络（一种在再生和修复过程中用于控制生长和形态的机制）。a）左图，网络结构由代表非神经细胞的节点组成，这些节点通过代表间隙连接的边缘连接。右图为单细胞结构，其动态由电泳、扩散和电压门控等生物电过程网络驱动。下图是一个双细胞网络的更详细视图，突出了离子通道和缝隙连接的电压门控现象。b）经过训练的类组织 BEN 模型可作为 AND 逻辑门运行。 c）终生学习系统，这是 BEN 未来的一种潜在应用，即一个包含模拟其身体的 BEN 网络和模拟其大脑的人工神经网络的代理可以学习适应环境，即使在大脑被移除之后也是如此。

图示

描述已自动生成

图8 生物分子感知器电路 a）基于输入权重和之间螯合反应的生物分子感知器。当 u < v 时，输出 Z1 为零，而当 u 大于 v 时，输出 Z1 为 u-v。b）实现螯合反应的遗传调控网络，在该网络中，决定目标活性的单体分子（间接滴定，蓝色反应箭头）被竞争抑制剂（直接滴定，红色反应箭头）螯合，从而在输出基因中只产生过量的激活剂。

生物学利用同样的机制（生物电和其他类型的网络、多尺度的平衡机制、组织内部和跨组织层次的合作与竞争）来解决困难空间中的搜索问题，包括转录调控网络、形态发生和发育系统、生理反应和行为目标。最新数据揭示了全身神经网络和单细胞通路网络处理信息的重要共性，合成生物学正开始利用这些共性。

2.8 可重构的有机体（Reconfigurable organisms.）

生物体具有高度的可重构性，尽管环境和细胞特性发生了巨大变化，它们仍能保持连贯的适应性功能。例如，蝌蚪的眼睛长在尾巴上（而不是长在主眼睛上），但仍能表现出高效的视觉学习能力，这表明大脑可以适应眼睛与后部脊髓相连的新结构。同样，蝌蚪即使在颅面器官位置异常的情况下也能重新排列面部，成为正常的青蛙，这表明蝌蚪有能力逐步减少误差（与正确目标形态的差异），并在环境急剧变化的情况下开辟通往正确形态空间区域的新道路。扁形虫在被切成碎片后可从碎片中再生出整个身体，并且其解剖学保真度非常高；然而，对其生物电路的瞬时修改会导致双头形态，尽管其基因组是野生型的，但这种双头形态仍会永久存在。这说明体细胞生物电回路（即大脑网络的前身）有能力从经验中学习，并保持有别于基因组编码硬件产生的默认结果的全局解剖信息。此外，脱离正常环境的细胞和组织可以重组为新的生物体（即合成活体构造物）具有连贯的形态和行为（图9）；这是对工程学来说令人羡慕的能力和设计挑战。令人惊叹的是，活体不仅能适应新的构造，还能重塑脑组织，同时保持信息内容/记忆。

图9 可重构生物的终生学习。a, 当个体受到机械损伤时，会迅速修复损伤并恢复其初始功能。在分子水平上，我们可利用体内代谢报告器对修复动态进行实时的可视化，并提取由此产生的信号网络用于终生学习算法。b,可重构生物群同样展示了新出现任务的表现，如聚集环境中的碎片，为进一步设计这种行为提供了试验平台，并可确定如何将这些信息用于转移和适应新任务。

2.9 多感官整合（Multisensory integration）

生物体本身就是一个感知运动系统，其运动动作由多种类型的感知信号提供信息。如何整合这些分布式、非线性、非定位、嘈杂和延迟的感觉信号以实现多功能运动功能，仍是一个活跃的研究领域。例如，融合髋部和头部的加速度信号似乎能增强平衡（据说鸟类就是这样做的）。此外，根据观察发现，上丘可整合来自不同感官（视觉、触觉和听觉）的感觉信息，从而产生协调的眼部和头部运动。此外，感觉信号还能驱动本体感觉（即关于身体构造和状态及其与环境关系的信息），从而为内隐的身体表征提供信息，而内隐的身体表征是自我意识的基础。我们对生物如何以一种通用的、与任务无关的方式处理、过滤和处理大量感官数据的理解，可以支持终身学习。

图10 生物启发模型在终身学习中的应用。该矩阵说明了已在机器学习模型（沿左侧边缘）中实施的生物启发机制与 L2 关键特征（沿顶部）之间的关系。单元格中的数字表示参考文献，在这些工作中，一种机制（行）被用于实现一个关键特征（列）。右侧窗格表示矩阵中引用模型的不同数据集类别。需要注意的是，一些归因于生物系统的机制-特征对应关系（如图 2 所示）尚未在机器学习模型中实现（用彩色阴影线表示），而一些对应关系（用灰色阴影线表示）既没有生物实现，也没有机器学习实现（补充信息）。

生物启发模型在终身学习中的应用

以下介绍了结合上述终生学习特征的生物启发算法。每个小节都重点介绍了一些与某一特征相关的工作实例；图10提供了一个更完整的概览。值得注意的是，各种机器学习方法（如深度强化学习等）也对终生学习做出了重要贡献，但这些方法的生物逻辑启发并不明显，因此不包括在此。

3.1 迁移和适应Transfer and adaptation

神经调制（Neuromodulation）

大脑的神经调制系统可促进快速学习，并提高应对新事件或动机变化引起的情境变化的能力。神经调制在机器学习系统中的作用已被广泛探讨。特别是在终身学习的背景下，基于不确定性的调制已被证明可以实现灵活的适应性，以及指导和控制学习系统。更广泛地说，神经网络的人工进化显示了神经调制在元学习中的关键作用。

依赖情境的感知和门控机制（Context-dependent perception and gating）

通过跟踪语境变化，并在训练和/或推理时利用这一信息调节网络，可以提高终身学习智能体的性能。终身学习机器算法中的门控实例包括受前额叶皮层模式切换启发的分层门控机制，该机制在减少记忆足迹的同时改善了迁移学习；基于从最近看到的输入推断出的上下文信号的门控；以及在游戏过程中基于上下文的行动选择，从而实现快速适应。

3.2 克服灾难性遗忘Overcoming catastrophic forgetting

大脑包含多种机制，有助于减轻持续学习过程中的灾难性遗忘。在此，我们将举例说明一些使用神经发生、元弹塑性和神经调节的模型。

依赖情境的感知和门控机制（Context-dependent perception and gating）

通过改善网络对属于不同任务的模式的表征之间的分离，依赖于上下文的门控已被用于减轻灾难性遗忘。

神经形成（Neurogenesis）

神经发生，尤其是海马齿状回的神经形成，被认为有助于在不牺牲旧记忆的情况下学习新记忆。神经元可被添加以代表新记忆，同时保持现有神经元完好无损。有几种终身学习机器机制通过在需要时添加新神经元来模拟神经形成。

情节重放（Episodic replay）

基于与睡眠和重放有关的生物学观点，最近的研究表明，模仿睡眠和增加内部产生的重放或存储数据的排练，都有助于提高深度神经网络对 “残缺遗忘 “的抵抗力。

元可塑性（Metaplasticity）

研究人员从生物突触的时变可塑性中获得灵感，在机器学习模型中实现了元可塑性。研究表明，突触可塑性的级联模型可显著减轻灾难性遗忘。最近，一种使用二值化权重和实值隐藏状态的模型能够连续学习复杂数据集，而不会遗忘之前的学习。元可塑性模型也被证明可以减轻遗忘或减轻强化学习范式中的遗忘。

3.3 利用任务的相似性（Exploiting Task Similarity）

一些生物启发机制有助于形成灵活的表征，从而促进任务的重叠和组合。

依赖情境的感知和门控机制（Context-dependent perception and gating）

如上所述，齿状回的分解作用与许多体系结构和认知理论有关，例如自动编码器中的分解和因式分解表征，以及上下文依赖图式。在更抽象的层面上，少数几个复杂对象的学习可被视为根据其关系将各个部分组合成整体，这在胶囊网络中得到了体现，并促成了 Omniglot 数据集的形成。

分层的分布式系统（Hierarchical distributed systems）

尽管分层架构（如网络协议）通常是良好系统工程的一部分，但将类似概念应用于学习系统肯定会面临组合方面的挑战。出现这些挑战的原因在于分层结构中各层之间的多样性。这就使得建立一个能够灵活捕捉整个多样性组合空间的系统变得十分困难。部分工作展示了学习和选择运动基元的方法，以加速机器人运动的学习。

多感官整合（Multisensory integration）

利用一种以上的感官输入可增强机器人导航，以及对身体构造及其与环境关系的可调感知。例如，生物启发的多感官脉冲神经网络可根据多感官整合识别物体，并根据音频输入想象从未见过的图片（例如，通过视觉学习颜色并将”苹果”一词与水果联系起来后，可想象出一个蓝色的苹果）。

可重构的有机体（Reconfigurable organisms）

从生物体皮肤上提取的细胞被切除并在新环境中重新组合后，会自我组装成一个活跃的结构，利用新环境中的相似性来实现运动以及与同种生物和附近物体的互动（例如利用纤毛进行推进，以及受损后的再生机制来修复新的形态）。需要注意的是，这些要素相互重叠、相互作用；例如，依赖情境的感知和门控机制和相互分离的表征使分层组织成为可能。此外，虽然上述方法能更有效地利用任务的相似性，但仍有一些局限性和悬而未决的问题。例如：尽管神经发生、组成性和可重构性等概念隐含地依赖于任务相似性，但目前尚不清楚任务相似性是否以及如何通过更明确的测量和表征提供进一步的改进。

大脑之外的认知（Cognition outside the brain）

在非神经组织中发现的生物电网络为终身学习机器系统的调节和再生功能建模提供了灵感。非神经元生物组织形成生物电网络来控制形态发生。脑外的认知与脑内的认知一样，都是由进化力量塑造的。计算人工智能系统可以通过模拟已知的细胞间非神经生物电通信机制，模仿并利用由此产生的动态变化。

3.4 与任务无关的学习能力（Task-agnostic learning）

在真实世界部署时，通常不会得知任务的信息，任务边界也没有明确定义。在终身学习系统中，模型推断任务身份是极具挑战性的一件事。上述几种机制启发了机器学习模型，可以帮助终身学习系统中的任务识别学习。

依赖情境的感知和门控机制（Context-dependent perception and gating）

生物系统通常通过选择性注意来调节感知，并能推断任务信息。依赖于情境的感知或门控可以利用网络的信息（局部或全局）来推断情境变化或识别情境信息。例如：根据网络的误差来检测上下文的变化。

元可塑性（Metaplasiticity）

许多基于元可塑性的方法，尤其是那些旨在通过限制重要突触的可塑性来保护知识的方法，在训练过程中需要得知任务变化，以决定何时更新每个突触的估计重要性。最近有几项研究将元可塑性作为一种函数来实现，这种函数只使用每个突触的局部信息，而无需任务信息。

3.5 噪声容忍能力（Noise tolerance）

在真实世界场景中运行的终身学习智能体必须能够在存在虚假和非分布模式及数据的情况下保持其性能。神经调制、多感官整合、分层的分布式系统、可重构有机体和情节重放等机制已被用于帮助提高终生学习系统的噪声容忍度。分层系统可以学习适应噪声的高层控制策略，减轻噪声对低层控制输出的影响，从而产生能在噪声环境中良好运行的算法。噪声、虚假相关性可通过突触巩固机制过滤掉，该机制可提取输入-输出流中的原因效应。最后，从生物体中分离出来的细胞可以在没有微观管理的情况下自组织成一个新颖的、功能性的原生物体–它们可以容忍细胞数量、位置和环境等方面的高水平噪声，从而可靠地构建出一个运动的、可再生的功能系统。

3.6 能效与可持续性（Resource efficiency and sustainability）

终身学习及其面临的一个艰巨挑战是如何在不无节制地增加内存和计算能力需求的情况下容纳新信息。有前景的方法包括：

神经形成（Neurogenesis）

神经形成可使系统吸收新信息，但也要避免无节制的增长。区分新信息有助于确定是否需要进一步的神经发生，以及发生的程度。在模拟迷宫环境中，网络修剪机制也被证明是有效的。

情节重放（Episodic replay）

重放或重新演练以前学习过的信息是终身学习系统广泛使用的有效工具。然而，重放的一个重要问题是其计算效率和可扩展性，因为其朴素地对所有以前看过的数据进行不断的再训练。在神经科学的启发下，深度学习领域的最新研究解决了可扩展性问题，表明要避免遗忘，只需重放一小部分子集或只重放与新学习相似的旧记忆，或重放过去经验的抽象、高级表征。研究还表明，与新学习交错进行的重放可以减少用于表征以前所学信息的资源量，从而使学习的任务数量不断增加，而对记忆的要求却不会以同样的速度增长。

元可塑性（Metaplasiticity）

一些基于元可塑性的方法（也称为参数正则化方法）已被证明能够在学习新任务时减少灾难性遗忘，而不会增加对内存和计算能力的资源需求。然而，由于这些方法的表征能力是固定的，因此无法学习任意长的任务序列，因此可以说，资源使用的控制性增长是可取的。

总结

以上内容回顾了生物学关于人类和其他动物应对终身学习挑战的能力的见解，并概述了将这些研究成果应用于人工智能系统持续学习开发的研究。

生物启发模型在终身学习中的应用提供了一些吸引人的例子，说明这些方法具有超越当前人工智能局限性的潜力。其中许多发展仍处于起步阶段，涉及小规模演示实现终身学习能力的单个特征。展望未来，在生物学习机制理解上的进展能继续为人工智能的新方法提供依据。人工智能界将采用这些理念并将其融入标准的人工智能或机器学习框架，为开发新一代具有更强自主性和终生学习能力的人工智能系统奠定坚实的基础。此外，不狭隘地专注于一小部分机制，开发包含上述几种机制（或尚未发现的机制）的复合系统非常重要。

终身学习技术进步的另一个关键因素是开发专门针对持续学习能力的现实测试环境，而不局限于预先准备好的数据集。展望未来，终身学习系统必须保持活跃，了解外部变化和自身运行情况，同时收集更多的学习提示。

未来人工智能或机器学习的广泛应用将需要开发具有计算效率的终生学习架构。通过创建新的基础硬件（特别是模拟神经处理的神经形态加速器），这一目标正在取得快速进展。仿生终身学习模型非常适合这些神经形态加速器。

生物学将继续为开发新型终身学习方法提供丰富的灵感来源。随着我们对其他关键生物机制（包括主动遗忘、记忆消亡和记忆再巩固等动态记忆更新机制）的理解不断加深，将继续激发本视角所述算法之外的新算法。同时，扩大对信号和基因调控等细胞内过程以及细胞间通信的了解也能为中枢神经系统以外的终身学习算法提供灵感。

由于终身学习系统在现实世界中具有更强的能力和更丰富的行为，因此有可能给许多应用带来革命性的变化，包括完全自动驾驶汽车、智能城市和医疗保健。要实现这一潜力，需要继续开展多学科合作，支持研究人员在生物学、神经科学、心理学、工程学和人工智能的交叉领域开展研究。这种合作对于产生这种新型人工智能所需的融合解决方案至关重要。

Kudithipudi, D., Aguilar-Simon, M., Babb, J. et al. Biological underpinnings for lifelong learning machines. Nat Mach Intell 4, 196–210 (2022). https://doi.org/10.1038/s42256-022-00452-0 ↑