分层推理模型(HRM)的原理、架构与设计思想分析

受大脑启发的分层推理架构在ARC-AGI基准上的表现研究

psychology HRM简介

分层推理模型(Hierarchical Reasoning Model,HRM)是一种受大脑启发的架构,灵感来源于人脑的分层和多时间尺度处理机制。该模型由新加坡AI研究实验室Sapient提出,是一个仅有2700万参数的模型,通过几次简短的"思考"脉冲进行迭代优化。

大脑中的θ波和γ波频率示意图

architecture HRM架构

HRM的架构设计包括两个主要部分:

外循环

  • 预测:生成输出网格
  • 询问:"我完成了吗?"
  • 决策:停止或继续优化

内部循环模块

  • "H"(慢速规划器)
  • "L"(快速执行器)
  • 共享隐藏状态

这两个模块协同工作,共同更新一个共享隐藏状态,模型在"规划"(H)和"细节"(L)之间交替进行,直到内部状态"自我达成一致"并产生答案。

层次推理模型架构图

lightbulb HRM设计思想

HRM的设计思想体现了以下几个关键创新:

  • 自适应计算机制:使用学习到的"停止"信号,控制优化的次数
  • 任务增强:对每个任务应用变换(如对象旋转、翻转等),目的是挖掘出任务的潜在规则,而不是对特定的形状或颜色产生过拟合
  • 转导预测:通过转导(深度学习的直接输出)在嵌入空间中进行预测,而不是通过归纳(生成一个可应用变换的程序)
Python
# HRM伪代码示例
def HRM_model(task):
    hidden_state = initialize_hidden_state()
    predictions = []
    
    while not should_stop(hidden_state):
        # H模块:慢速规划
        hidden_state = H_module(task, hidden_state)
        
        # L模块:快速执行
        hidden_state = L_module(task, hidden_state)
        
        # 生成预测
        prediction = generate_prediction(hidden_state)
        predictions.append(prediction)
        
        # 学习停止信号
        if stop_signal(hidden_state) > threshold:
            break
    
    return final_prediction(predictions)
                        

analytics HRM在ARC-AGI上的表现

HRM在ARC-AGI基准测试中的表现如下:

32%
ARC-AGI-1得分
2%
ARC-AGI-2得分
27M
模型参数量

对于如此小的模型来说,在ARC-AGI-1上取得32%的得分是令人印象深刻的。ARC-AGI-2明显比ARC-AGI-1更难,因此性能大幅下降是预料之中的。

ARC-AGI排行榜

science ARC PRIZE团队的分析发现

ARC PRIZE团队对HRM进行了一系列消融分析,得出了一些令人惊讶的发现:

分层架构影响微乎其微:与同等规模的Transformer相比,其"分层"架构对性能的影响微乎其微
外循环优化过程至关重要:论文中相对提及较少的"外循环"优化过程,尤其是在训练期间,极大地提升了性能
跨任务迁移学习有限:跨任务迁移学习的益处有限
记忆特定任务解决方案:大部分性能来自于对评估时所用特定任务解决方案的记忆
预训练任务增强关键:预训练的任务增强至关重要,尽管只需300次增强就已足够(而非论文中报告的1000次)
推理时增强影响有限:推理时的任务增强影响有限

这些发现表明,HRM的方法在根本上与Liao和Gu提出的"无预训练的ARC-AGI"方法相似。虽然分层架构的作用没有得到验证,但论文在其他方面的创新依然值得研究,毕竟模型的表现还是很好的。