大型语言模型微调中的灾难性遗忘及MoE与MoR架构的缓解作用

大型语言模型（LLM）微调中的灾难性遗忘主要是由于模型参数在适应新任务时发生全局性调整，覆盖了先前学到的知识，而非特定「脑区」被切除。混合专家（MoE）架构通过其模块化设计和专家分工机制，已展现出有效缓解灾难性遗忘的潜力。相比之下，Mixture-of-Recursions (MoR) 架构虽然具有模块化计算的特性，可能为未来避免「脑区独裁」式的知识覆盖提供思路，但目前尚缺乏直接证据证明其在缓解灾难性遗忘方面的有效性。

1. 灾难性遗忘：机制与影响

1.1 微调导致灾难性遗忘的根本原因

大型语言模型（LLM）在微调过程中出现的灾难性遗忘（Catastrophic Forgetting, CF）现象，其根本原因在于模型参数的更新机制。当LLM在预训练阶段学习了海量的通用知识后，其内部权重（参数）已经形成了一个能够捕捉语言规律和世界知识的复杂表示。然而，在进行下游任务的微调时，模型会针对新的、通常规模较小的特定任务数据集进行参数调整。这个过程通常采用梯度下降等优化算法，以最小化新任务上的损失函数。这种针对性的优化会导致模型权重发生显著变化，以适应新任务的数据分布和目标任务。问题在于，这些被调整的权重同时承载了预训练阶段学到的通用知识。当权重被大幅度修改以优化新任务性能时，它们原先存储的、与旧任务相关的知识表示就可能被覆盖或破坏，从而导致模型在先前任务上的性能急剧下降，即发生灾难性遗忘。研究表明，即使是参数规模达到数十亿的LLM，在连续微调多个任务时，也会普遍出现遗忘现象，且模型规模越大，在某些情况下遗忘问题可能更为严重 。这是因为微调数据通常具有特定的格式和领域知识，过度拟合这些新数据会损害模型原有的逻辑推理能力和广泛的通用知识。

1.2 LLM中知识存储与遗忘的分布式特性

与生物大脑可能存在特定功能区域不同，LLM中的知识是以分布式的方式存储在其庞大的参数网络中的。这意味着特定的概念或技能并非由少数几个神经元或权重决定，而是由大量神经元及其连接权重共同表征的复杂模式。因此，当微调导致灾难性遗忘时，并非某个存储特定知识的「脑区」被物理意义上地「切除」了。相反，遗忘是由于模型权重的整体调整和重新分布，使得原先能够激活特定知识表示的参数配置发生了改变。这种分布式表示的特性也解释了为什么微调一个LLM以适应新任务（例如，从通用问答微调到特定医学文献摘要）时，模型可能会在旧任务（通用问答）上表现变差，即使新任务和旧任务在表面上可能共享一些底层语言理解能力。权重空间的全局性变化会影响到整个模型的知识表征，导致原有知识的模糊化或丢失。因此，灾难性遗忘是模型参数在适应新任务过程中，对原有知识表征产生干扰和覆盖的全局性现象，而非局部性的知识删除。

1.3 「脑区切除」隐喻的局限性分析

将LLM的灾难性遗忘比喻为「脑区被切除」虽然直观，但并不准确，且具有误导性。这种隐喻源于对人类大脑功能分区（如布洛卡区负责语言产生，威尔尼克区负责语言理解）的类比。然而，LLM的架构和工作原理与生物大脑有本质区别。LLM，特别是基于Transformer的模型，其知识是通过网络中大量神经元之间的连接权重以高度分布式和非局部化的方式存储的。并没有明确的、物理上可区分的「区域」专门负责某一特定类型的知识。微调过程中，模型权重的更新是全局性的，影响的是权重空间的整体分布，而不是仅仅修改或移除某个特定「区域」的参数。因此，说「脑区被切除」意味着知识的局部性丢失，这与LLM知识表示的分布式本质不符。更准确的描述是，微调导致权重空间的重新配置，使得模型在新任务上表现更优，但可能以牺牲在旧任务上的表现为代价，因为原有的权重配置（即知识表征）被新的配置所覆盖或干扰。这种覆盖是全局性的，而非局部性的「切除」。

2. 混合专家（MoE）架构：缓解灾难性遗忘的有效途径

2.1 MoE架构的核心机制：专家分工与路由

混合专家（Mixture of Experts, MoE）架构的核心机制在于将大型模型分解为多个较小的、专业化的子网络，即「专家」（experts），并结合一个「路由网络」（routing network）或「门控机制」（gating mechanism）来动态地为每个输入或输入的一部分选择最合适的专家进行处理。在标准的Transformer架构中，每个输入词元都会经过相同的、密集激活的前馈网络（FFN）层。而在MoE架构中，FFN层被替换为一组专家FFN，以及一个路由网络。对于每个输入词元，路由网络会计算一个权重分布，指示每个专家对该词元的贡献程度。通常，只会选择权重最高的前k个专家（例如，top-1或top-2）来实际处理该词元，并将其输出加权求和。这种设计实现了条件计算（conditional computation），即模型可以根据输入的不同，激活和使用不同的参数子集。这种分工合作的机制使得不同的专家可以专注于处理输入空间中不同的区域或不同类型的任务，从而提高了模型的容量和效率，同时也为缓解灾难性遗忘提供了可能。

2.2 MoE如何通过模块化设计减少知识覆盖

MoE架构通过其模块化设计，为减少微调过程中的知识覆盖提供了一种有效的途径。在持续学习或连续微调的场景下，当引入新的任务时，可以只更新与该新任务相关的专家参数，或者添加新的专家来处理新任务，而保持原有专家的参数不变或较少更新。例如，Progressive Mixture of Experts (PMoE) 架构就采用了这种思想，它设计了一个不对称的深度结构，其中浅层保留通用知识，而深层则通过逐步添加专家来学习新的任务特定知识。路由网络负责将输入导向这些新的或调整过的专家。通过这种方式，之前任务学到的知识，存储在被「冻结」或较少更新的专家中，得到了保护，避免了被新任务的梯度更新所覆盖。这种参数隔离或软参数共享的策略，使得模型能够在不显著干扰已学知识的前提下，吸收新知识。例如，SLIM (Soft LoRA and Identity Mixture) 架构通过引入身份层作为专家，允许模型在某些情况下跳过LoRA适配器，从而避免下游任务对通用知识的干扰。同样，TT-LoRA MoE 框架在独立训练针对特定任务的轻量级张量化低秩适配器（TT-LoRA专家）后，会冻结这些专家适配器，从而在多任务设置中消除任务间干扰和灾难性遗忘。

2.3 MoE在持续学习中的应用与效果（如PMoE, R2MoE, TT-LoRA MoE）

MoE架构及其变体在持续学习（Continual Learning, CL）领域展现出显著的应用潜力，特别是在缓解灾难性遗忘方面。例如，Progressive Mixture of Experts with Asymmetric Transformer (PMoE) 架构通过其不对称深度设计，将浅层用于保留通用知识，深层则通过逐步添加专家来适应新任务，并结合路由网络对输入文本进行分类。实验表明，PMoE在TRACE数据集和通用语言理解任务上，相较于现有方法能更有效地减少遗忘，并展现出优越的性能。另一项研究提出的Remembering Transformer，虽然主要基于混合适配器（mixture-of-adapters）架构，但也借鉴了MoE的思想，通过新颖性检测机制动态地将任务数据路由到最相关的适配器，从而在减少内存占用的同时，在类增量分割任务和排列任务中取得了SOTA性能，例如在五分割CIFAR10任务中将内存占用从11.18M降低到0.22M. ��✅

CL-MoE (Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering) 框架则针对持续视觉问答任务，设计了双路由器MoE (RMoE) 和动态动量MoE (MMoE)。RMoE通过任务级和实例级路由器从局部和全局视角捕捉合适的专家，而MMoE则基于专家与任务/实例之间的相关性，使用动量机制动态更新专家参数，从而在吸收新知识的同时减轻灾难性遗忘，并提升了模型的前向和后向迁移能力。SLIM (Soft LoRA and Identity Mixture) 架构通过引入身份层作为专家，并结合权重让步（weight yielding）和滑动聚类机制来增强路由的动态性，使得模型能够将下游任务样本路由到LoRA适配器，而将非下游分布样本分配给身份层，从而有效缓解遗忘，并在多个通用任务上保持性能。TT-LoRA MoE 框架通过将参数高效微调（PEFT）与稀疏MoE路由相结合，首先独立训练针对特定任务的轻量级TT-LoRA专家并冻结，然后训练一个稀疏MoE路由器在推理时动态选择专家。这种方法不仅保留了低秩适配器的内存效率，还能扩展到大型专家池，并在多任务处理中优于AdapterFusion 。这些研究和应用案例充分证明了MoE架构在持续学习中通过专家分工和参数隔离来减轻灾难性遗忘的有效性。

下表总结了部分MoE变体在持续学习中的应用及其特点：

MoE 变体 (Variant)	核心机制 (Core Mechanism)	主要优势 (Key Advantages)	应用场景/效果 (Application/Effectiveness)
PMoE	不对称Transformer，浅层通用知识，深层逐步添加专家，路由分类	减少遗忘，提升性能	TRACE数据集，通用语言理解任务，优于现有方法
Remembering Transformer	混合适配器，新颖性检测路由	减少内存占用	类增量分割，排列任务，SOTA性能 (如CIFAR10内存大幅降低)
CL-MoE	双路由器 (任务级/实例级)，动态动量更新专家	减轻遗忘，提升前向/后向迁移能力	持续视觉问答 (VQA)
SLIM	身份层专家，权重让步，滑动聚类路由	缓解遗忘，保持通用任务性能	下游任务样本路由至LoRA，非下游样本至身份层
TT-LoRA MoE	PEFT + 稀疏MoE路由，独立训练并冻结TT-LoRA专家	内存高效，可扩展至大型专家池，消除任务间干扰	多任务处理，优于AdapterFusion

Table 1: MoE变体在持续学习中的应用与特点总结

2.4 MoE缓解遗忘的理论分析

理论上，MoE架构之所以能够有效缓解灾难性遗忘，主要归功于其模块化设计和条件计算特性。在持续学习场景中，当模型面临一系列相继到达的任务时，MoE模型可以通过其路由机制将不同的任务分配给不同的专家子网络进行处理。这种任务到专家的映射使得每个专家可以专注于学习特定任务的知识，而不会与其他任务的知识产生严重的参数干扰。当学习新任务时，理想情况下，只有与新任务相关的专家参数会被更新，或者可以引入新的专家来处理新任务，而已经学习过旧任务的专家参数则可以被冻结或受到保护（例如，通过正则化限制其变化）。这种参数隔离的策略从根本上减少了新任务学习对旧任务知识的覆盖和破坏。一篇题为「Theory on Mixture-of-Experts in Continual Learning」的ICLR 2025 (Spotlight) 论文首次通过理论视角，具体而言是过参数化线性回归任务，分析了MoE在CL中的影响。该研究旨在阐明MoE模型如何通过其独特的架构设计，特别是门控网络（gating network）和专家分工，来应对持续到达的新任务，并减轻对旧任务知识的遗忘。

该理论研究的一个核心发现是，MoE模型能够通过其门控网络将不同的任务稀疏化并分配给多个专家处理，从而实现专家间的分工与协作。具体来说，MoE模型中的各个专家倾向于专注于不同的任务，形成一种「术业有专攻」的局面。与此同时，门控网络则扮演着「调度员」的角色，它学习如何为每个任务选择合适的专家，并确保所有专家的负载相对均衡，避免某些专家过载而另一些专家闲置的情况。这种机制使得模型在面对新任务时，可以主要调整与该任务相关的专家参数，而最大程度地保留其他专家已经学习到的旧任务知识，从而有效减缓灾难性遗忘的发生。论文通过严格的数学证明，阐述了这种专家多样化和门控网络有效路由的机制，是MoE在CL中取得成功的关键。一个特别有趣的发现是，与不考虑持续任务到达的传统MoE研究不同，在CL场景下，MoE模型的门控网络在经历足够的训练轮次后，需要停止更新以达到系统收敛 。这一发现对MoE在CL中的算法设计具有重要指导意义。研究者们推测，这可能是因为在持续学习过程中，过早或持续地更新门控网络可能会导致已经学习到的任务-专家分配关系被破坏，从而影响模型的稳定性和知识的保持。此外，该研究还提供了关于期望遗忘和总体泛化误差的显式表达式，用以量化MoE在CL学习性能上的优势。这些表达式有助于从理论上理解MoE架构参数（如专家数量）对学习效果的影响。例如，研究指出，简单地增加专家数量虽然可能需要更多的训练轮次才能达到收敛，但并不能保证一定能提升学习性能 ，这提示在实际应用中需要在专家数量、训练成本和最终性能之间进行权衡。为了验证理论分析的有效性，研究者们在合成数据集和真实数据集上进行了实验，将线性模型下的理论洞察推广到深度神经网络（DNNs）中。这些实验不仅证实了理论预测的趋势，也为MoE在CL中的实际算法设计提供了宝贵的启示。

3. Mixture-of-Recursions (MoR) 架构：潜力与展望

3.1 MoR架构的核心机制：动态递归深度与模块化计算

Mixture-of-Recursions (MoR) 架构是一种新兴的、旨在提升大型语言模型计算效率的Transformer变体。其核心机制在于为每个输入词元（token）动态地调整其在模型中的递归计算深度，从而实现一种模块化的、自适应的计算分配。传统的Transformer模型对所有词元都应用相同的层数（即固定的计算深度），而MoR则引入了轻量级的路由机制，该机制会根据当前词元的上下文信息，决定其在后续Transformer层中进行计算的递归步数。这意味着不同的词元可能会经历不同数量的处理层，一些词元可能只需要较浅层的处理就能得到充分表示，而另一些词元则可能需要更深层次的计算来捕捉其复杂语义。这种动态调整递归深度的方式，使得模型能够更灵活地分配计算资源，避免了对所有词元都进行冗余的深层计算。MoR通常结合KV缓存策略来优化内存使用，确保在可变计算路径下的高效推理。这种模块化的计算方式，即根据词元需求分配不同的计算路径和深度，是MoR架构区别于传统固定深度Transformer的关键特征。

3.2 MoR在计算效率方面的优势

Mixture-of-Recursions (MoR) 架构的主要设计目标之一就是显著提升大型语言模型的计算效率，特别是在推理阶段。通过为每个词元动态分配递归深度，MoR能够避免对简单或已充分表示的词元进行不必要的深层计算，从而减少整体的浮点运算次数（FLOPs）和内存访问。研究表明，MoR架构能够在保持与标准Transformer相当甚至更好的性能的前提下，实现高达2倍的推理加速 。例如，在参数规模从135M到1.7B的模型上进行的实验表明，MoR能够有效降低计算成本并提高吞吐量。这种效率的提升主要得益于其条件计算机制，即模型只对需要进一步处理的词元进行更深层次的计算。对于许多自然语言处理任务，输入序列中往往包含大量信息冗余或者语义相对简单的词元，MoR能够识别这些词元并提前终止其计算路径，从而节省宝贵的计算资源。这种效率优势使得MoR在处理长序列或部署在资源受限环境下的LLM应用中具有重要的实用价值。

3.3 MoR在避免灾难性遗忘方面的潜在可能性

尽管Mixture-of-Recursions (MoR) 架构的主要设计初衷是提升计算效率，而非直接解决灾难性遗忘问题，但其固有的模块化计算特性为未来探索其在持续学习中的应用提供了潜在可能性。MoR通过动态路由机制为每个词元分配不同的递归计算深度，这在一定程度上可以看作是为不同的输入或任务分配了不同的计算路径。如果能够将这种动态路由与任务信息或知识领域相关联，那么理论上可以在微调新任务时，主要调整与新任务相关的特定递归路径（或深度范围）所涉及的参数，而保留处理旧任务知识的递归路径的参数不变或较少更新。这种策略与混合专家（MoE）架构中冻结部分专家以保护旧知识的思路有相似之处。例如，可以设想一种机制，在持续学习过程中，为新任务学习新的递归深度或调整现有递归深度的参数，同时固定那些与已学任务强相关的递归深度。然而，目前关于MoR的研究主要集中在计算效率和性能提升方面，尚未有直接的实验证据或理论分析明确证明其在缓解灾难性遗忘方面的有效性 。这仍然是一个有待未来研究探索的开放性问题。

3.4 「联邦制度」类比：MoR的模块化特性与知识管理

将Mixture-of-Recursions (MoR) 架构的模块化特性类比为「联邦制度」来构建LLM，是一种富有启发性的思考方式。在联邦制度中，权力和职能在不同层级的政府之间进行分配，中央政府和地方政府各自拥有一定的自治权，可以根据本地情况制定和执行政策，同时又通过统一的框架进行协调。类似地，MoR架构通过其动态路由机制，为每个输入词元分配不同的递归计算深度，形成了多条并行的、可配置的计算路径 。这些不同的计算路径可以被视为模型内部的「模块」或「子系统」，它们可以各自处理特定类型的信息或执行特定类型的计算。如果这些模块能够被有效地组织和管理，例如，某些模块专门负责处理通用语言理解，而另一些模块则针对特定领域知识进行优化，那么MoR就有可能实现一种类似联邦式的知识管理。在这种模式下，不同的「知识模块」可以相对独立地更新和演化，而不会对其他模块产生过度的干扰。当需要学习新任务或适应新领域时，可以主要调整负责该任务的特定模块，或者添加新的模块，而保持其他模块的稳定性，从而在一定程度上避免「脑区独裁」（即少数主导参数覆盖所有知识）和灾难性遗忘。然而，这种类比目前更多是基于MoR模块化特性的推测，其具体实现和在知识管理方面的实际效果仍需进一步研究和验证。

4. LLM中特定任务神经元与灾难性遗忘的深层机制

4.1 LLM中特定任务神经元的存在与识别

研究表明，在大型语言模型（LLM）中，确实存在一些神经元或神经元子集对特定任务或概念表现出高度的选择性和相关性，这些可以被视为「特定任务神经元」或「专家神经元」。识别这些神经元对于理解模型内部工作机制和缓解灾难性遗忘具有重要意义。例如，一项研究提出通过梯度归因方法来量化Transformer架构中前馈网络（FFN）模块的每个神经元（定义为权重矩阵中的一列）对给定任务的相关性得分。该相关性得分通过将该神经元输出置零与保持原值时损失的变化量来定义，可以转换为神经元输出对损失的偏导数与神经元输出的乘积的绝对值。通过选取相关性得分排名靠前的神经元，可以识别出与当前任务高度相关的特定神经元。另一项工作则关注预训练Transformer模型中的「专家单元」（expert units），将其定义为能够以一定平均精度对特定概念（由包含或不包含该概念的句子集合表示）进行分类的神经元。他们利用包含1641个概念的数据集来发现Transformer模型中的多样化专家单元，并发现专家单元的存在与模型的泛化能力高度相关（r²=0.833）。此外，还有研究发现了预训练Transformer模型中的「技能神经元」（skill neurons），这些神经元在软提示上的激活高度预测输入的任务标签，并且更有可能是在预训练阶段而非微调阶段产生的。这些研究共同揭示了LLM内部存在功能特化的神经元，为更精细地理解和控制模型行为提供了基础。

4.2 参数干扰作为灾难性遗忘的核心原因

灾难性遗忘的根本原因在于神经网络参数在学习新任务时发生的干扰。当模型学习一个新任务时，其参数（权重）会通过梯度下降等优化算法进行调整，以最小化新任务上的损失。然而，这些参数同时承载了之前学习过的任务的知识。如果新旧任务的最优参数配置存在冲突，或者新任务的训练过程导致参数大幅度偏离其在旧任务上的最优值，那么模型在旧任务上的性能就会显著下降。这种参数干扰是灾难性遗忘的核心机制。在多任务学习场景下，虽然模型试图同时优化多个任务，但任务之间的参数干扰仍然可能导致模型无法在所有任务上都达到最优性能。灾难性遗忘可以被视为参数干扰在连续学习设置下的极端表现，即学习新任务时，对旧任务至关重要的参数被新任务的梯度更新所覆盖或破坏。因此，缓解灾难性遗忘的关键在于如何有效地管理参数更新，以减少或隔离不同任务之间的参数干扰。例如，一些方法通过识别并保护对旧任务重要的参数（如EWC），或者通过参数隔离技术（如Progressive Networks或MoE架构）来为不同任务分配不同的参数子集，从而减轻干扰。

4.3 神经元级别持续微调（NCFT）等针对性缓解策略

针对灾难性遗忘问题，特别是考虑到LLM中可能存在特定任务神经元，研究人员提出了一些在神经元级别进行操作的持续微调策略。其中一种被提出的方法是神经元级连续微调（Neuron-level Continual Fine-Tuning, NCFT）。NCFT的核心思想是在连续学习一系列任务时，对于当前正在训练的任务，只更新被识别为该任务特定的神经元的参数，而保持模型中其他非特定神经元的参数不变。具体来说，当训练任务D_n时，首先通过梯度归因等方法识别出与该任务高度相关的特定神经元集合。然后，在微调过程中，只有这些特定神经元的参数会被更新，而其余大部分参数则被冻结。在推理阶段，则执行常规的推理过程。这种策略旨在通过隔离不同任务的参数更新范围，最大限度地减少新任务学习对旧任务知识的干扰，从而缓解灾难性遗忘。这种方法的有效性依赖于准确识别特定任务神经元的能力。此外，还有一些研究工作探索了如何利用这些识别出的特定神经元或专家单元进行模型控制，例如通过强制激活特定专家单元来引导模型生成包含特定概念的文本，而无需重新训练模型或使用额外参数。这些在神经元级别进行干预的策略，为理解和缓解灾难性遗忘提供了更精细的视角和工具。

5. 结论与未来研究方向

5.1 当前研究的总结与局限性

当前研究表明，大型语言模型（LLM）在微调过程中普遍存在灾难性遗忘现象，其主要原因是模型权重的调整覆盖了先前学到的知识，而非特定「脑区」被切除。混合专家（MoE）架构通过其模块化的专家分工和路由机制，展现出在持续学习中有效减少遗忘的潜力，多种MoE变体（如PMoE, CL-MoE, SLIM, TT-LoRA MoE）在实验中取得了积极效果。理论分析也支持MoE通过专家多样化和参数隔离来缓解遗忘的观点。Mixture-of-Recursions (MoR) 架构作为一种新兴的、注重计算效率的模型，其模块化计算特性为未来探索其在知识管理和避免遗忘方面的应用提供了可能性，但目前尚缺乏直接证据。此外，研究者在LLM中识别出特定任务神经元或专家单元，并提出了如神经元级连续微调（NCFT）等针对性策略，为深入理解遗忘机制和开发缓解方法提供了新思路。

然而，当前研究仍存在一些局限性。首先，对于MoE架构，虽然其在缓解遗忘方面表现良好，但如何设计最优的路由机制、如何平衡专家 specialization 和 generalization、以及如何高效地扩展专家数量仍然是挑战。其次，关于MoR架构，其在持续学习和灾难性遗忘方面的潜力尚未得到充分探索和验证，需要更多的理论和实验研究。再次，虽然识别特定任务神经元的方法有所进展，但其准确性和鲁棒性仍有提升空间，且如何将这些发现有效地应用于大规模模型的持续学习仍需深入研究。此外，许多缓解策略在特定任务或数据集上有效，但其泛化到更广泛、更复杂的真实世界应用场景的能力尚待检验。最后，对于灾难性遗忘的根本机制，尤其是在大规模Transformer模型中的具体表现形式，仍需更深入的理论解释。

5.2 未来架构设计与持续学习策略的展望

展望未来，为了更有效地解决大型语言模型中的灾难性遗忘问题，架构设计和持续学习策略的研究可以从以下几个方面深入：

更智能的模块化与路由机制：未来的MoE和MoR等模块化架构需要更智能、更动态的路由机制。这些机制不仅应能根据输入内容，还应能结合任务上下文和历史学习经验，更精准地将计算导向合适的专家模块或计算路径。探索基于元学习或强化学习的路由策略，使其能够自适应地调整模块间的信息流动和参数更新，是重要的研究方向。
可扩展且高效的参数隔离：如何在保证模型容量和性能的同时，实现更高效、更可扩展的参数隔离是关键。这可能涉及到更细粒度的参数共享与保护策略，例如，在神经元级别或权重级别进行选择性更新和冻结。研究如何动态地扩展模型容量（如添加新专家或模块）以适应不断增长的任务流，同时保持计算和内存效率，也是一个核心挑战。
结合神经科学启发的机制：借鉴人脑的互补学习系统（CLS）理论和神经可塑性机制，设计更具生物合理性的持续学习算法和模型架构。例如，探索如何模拟海马体的快速编码和新皮层慢速整合过程，以及如何利用新颖性检测来引导学习。
任务间知识迁移与正向迁移的促进：在缓解灾难性遗忘的同时，如何积极促进任务间的知识迁移，特别是正向迁移（即学习新任务有助于提升旧任务性能），是提升持续学习系统整体效能的关键。这可能涉及到显式的知识提取与蒸馏、任务相似性度量以及基于此的模块共享策略。
理论理解的深化与评估标准的完善：需要更深入的理论分析来解释不同架构（如MoE, MoR）在持续学习中的行为，并建立更全面、更贴近实际应用的评估标准来衡量模型在持续学习过程中的性能，不仅要关注遗忘程度，还要关注学习速度、迁移能力和计算效率。
探索Transformer内部机制的更广泛应用：进一步研究Transformer模型中特定任务神经元、技能神经元和专家单元的性质及其在持续学习中的作用。开发更有效的技术来识别、操纵和保护这些关键神经元，可能为设计更鲁棒的持续学习算法开辟新途径。

通过在这些方向上的持续努力，有望开发出能够真正实现终身学习的大型语言模型，使其在不断适应新知识、新任务的同时，能够稳定地保留和利用已学到的宝贵经验。