在人工智能和机器学习等数据密集型应用日益普及的今天,传统冯·诺依曼计算架构在能效方面的局限性日益凸显。为应对这一挑战,来自都灵理工大学和洛桑联邦理工学院的研究人员提出了两种新型近存计算(NMC)架构——NM-Caesar和NM-Carus,有望为下一代边缘计算节点带来突破性进展。
传统架构面临挑战
随着边缘计算的兴起,对实时数据处理的需求不断增加,而传统计算架构在处理这些数据密集型工作负载时表现不佳。主要原因在于:
- 数据和指令需要不断在内存和CPU寄存器之间移动,造成能耗浪费。
- SRAM集成技术的发展速度落后于逻辑电路,导致"内存墙"问题。
根据计算机体系结构专家John Hennessy和David Patterson的研究,SRAM访问的能耗通常是CPU算术运算的100倍。
近存计算:破解能效困局的关键
为解决上述问题,研究人员提出了计算存储一体化(CIM)范式,包括存内计算(IMC)和近存计算(NMC)。其核心思想是:
- 将处理单元移至靠近数据的位置
- 减少指令获取开销
- 降低系统总线压力
- 优化内存带宽利用
NMC方案保留了灵活的内存访问能力,更适合传统可编程系统的语义,因此成为本研究的重点。
NM-Caesar:面向轻量级应用的高效方案
NM-Caesar是一种面向面积受限场景的NMC单元,主要特点包括:
- 支持SIMD指令
- 由主机系统进行微控制
- 适用于具有规则控制流的TinyML基准测试
- 适合处理生物医学应用中的峰值检测等算法
- 可用于心律失常检测等轻量级人工神经网络
NM-Carus:全自主RISC-V向量处理单元
NM-Carus则是一种功能更强大的NMC架构:
- 基于RISC-V指令集
- 支持向量运算
- 完全自主运行
- 适用于高度并行和复杂的TinyML应用
- 可处理深度神经网络等计算密集型工作负载
- 支持数据依赖控制流的任务
性能大幅提升
研究人员对这两种架构进行了详细的评估。结果表明:
- NM-Caesar可将执行时间缩短至原来的1/25.8,能效提高23.2倍
- NM-Carus在执行时间和能效方面分别实现了50倍和33.1倍的提升
- 在8位矩阵乘法中,NM-Carus达到了306.7 GOPS/W的峰值能效,超越了现有的最先进存内和近存计算电路
易于集成是关键优势
与现有CIM解决方案相比,NM-Caesar和NM-Carus的一大亮点在于其易于集成的特性:
- 提供与SRAM兼容的接口,可作为传统SRAM的直接替代品
- 除计算模式外,还支持透明的内存操作模式
- 对主机系统的软件栈和物理特性影响最小化
这种低成本、低集成难度的方法,有望推动NMC技术在通用低功耗边缘设备中的广泛应用。
未来展望
随着边缘AI和IoT应用的进一步普及,对高能效计算解决方案的需求将持续增长。NM-Caesar和NM-Carus的成功,为未来边缘计算芯片的设计指明了方向。研究人员表示,下一步将进一步优化架构,并探索在更先进工艺节点上的实现,以进一步提升性能和能效。
《Scalable and RISC-V Programmable Near-Memory Computing Architectures for Edge Nodes》