ASI-Arch

自主神经架构发现的突破

AI 自主研究多智能体协作性能超越人类

核心突破

ASI-Arch 项目通过构建由大型语言模型驱动的多智能体协作系统，成功实现了在神经架构发现领域的自主创新，打破了AI研究的人力瓶颈。

查看完整报告

106

新型架构发现

1,773

自主实验

20K+

GPU 小时

59.01

最高平均分

核心目标与项目概述

打破AI研究的人力瓶颈

当前人工智能系统的能力虽然呈现指数级增长，但AI研究本身的进展速度却日益受到人类研究者认知能力和工作效率的限制，形成了一个严峻的"发展瓶颈"45 60。

ASI-Arch 通过构建能够自主进行神经架构发现的AI系统，旨在将AI研究从人力密集型的工作中解放出来，使得研究过程不再完全依赖于人类研究者的直接参与45 60。

推动AI研究范式转变

ASI-Arch 项目的成功实践，预示着AI研究范式正在经历一场深刻的转变，即从传统的自动化优化（Automated Optimization）迈向更高阶的自动化创新（Automated Innovation）45 60。AI不再仅仅是执行人类指令的工具，而是成为了一个能够独立思考和创造的研究伙伴。

系统架构与核心组件

多智能体协作框架

ASI-Arch 的核心是一个精心设计的、由三个主要LLM驱动的智能体组成的闭环多智能体系统10 38。这个框架旨在模仿并自动化整个科学研究过程，每个智能体都扮演着独特的角色。

智能体模块	核心职责	关键特性与流程
研究员 (Researcher)	提出新的神经架构概念，生成PyTorch代码	1. 查询记忆库与认知库 2. 构思新架构理念，撰写动机说明 3. 四步创新流程 4. 创造全新设计概念
工程师 (Engineer)	接收研究员代码，在真实环境中训练模型	1. 自我修正训练流程 2. 处理模型训练（20M参数模型） 3. 迭代调试循环
分析师 (Analyst)	分析训练结果，与基线及历史架构比较	1. 进行类似消融研究的分析 2. 结合文献知识和实验数据 3. 撰写报告说明成功与失败原因

认知库与知识管理

认知库通过从近百篇关于线性注意力机制的开创性研究论文中提取核心知识构建而成10 52。这些知识为智能体提供了关于该领域现有技术、理论和方法的基础理解。

自主架构发现管道

管道遵循连续的、迭代的工作流程，主要由三个核心子模块构成：进化（evolve）、评估（eval）和分析（analyse）37 128。

技术实现细节

基于大模型的自主研究引擎

通过多个LLM-based的智能体协同工作，模拟人类科学家的研究过程，实现真正的自主创新。

"探索-验证"两阶段策略

探索阶段快速测试小型模型，验证阶段将候选架构扩展到更大规模进行严格验证。

创新的适应度函数

综合考量客观性能和架构质量，避免"奖励黑客"，发现真正有价值的设计。

            技术栈与工具
          
核心框架
Python 3.10
PyTorch 2.4.0
Docker & Docker Compose


支持服务
MongoDB 4.4+
OpenSearch
Conda 环境管理

安装与运行指南

环境准备与依赖安装

# 克隆仓库
git clone https://github.com/GAIR-NLP/ASI-Arch.git
cd ASI-Arch

# 创建Conda环境
conda create -n asi-arch python=3.10
conda activate asi-arch

# 安装依赖
pip install -r requirements.txt

系统要求

CUDA兼容的GPU (强烈推荐)

最小16GB RAM，推荐32GB RAM

Python 3.8或更高，推荐3.10

MongoDB 4.4+

启动流程

1

数据库服务

启动MongoDB容器和FastAPI服务器，存储实验数据

2

认知基础

启动OpenSearch和RAG API，提供知识支持

3

执行管道

启动自主架构发现管道，开始演化循环

性能表现与分析

实验设置与基准模型

ASI-Arch的性能评估建立在一套严谨的实验设置之上，主要基线模型选择了DeltaNet，这是一个强大的线性注意力模型，作为初始的比较对象255 507。

整个实验流程严格遵循"探索-验证"两阶段策略。在探索阶段，ASI-Arch系统使用2000万（20M）参数的较小模型，在10亿（1B）token的数据集上进行训练127 169。

性能对比：ASI-Arch 模型 vs. 人类设计模型

架构	训练损失 ↓	训练困惑度 ↓	评估损失 ↓	评估困惑度 ↓	平均分 ↑
DeltaNet	3.194	24.41	3.204	24.64	55.67
Gated DeltaNet	3.178	24.00	3.188	24.22	56.12
ASI-Arch Model 1	3.162	23.61	3.172	23.82	57.34
ASI-Arch Model 5	3.134	22.97	3.144	23.18	59.01

模型	类型	Wiki. ppl ↓	LMB. ppl ↓	PIQA acc ↑	Hella. acc ↑	Avg. ↑
Mamba2	人类设计	27.08	40.09	67.90	42.25	47.84
Gated DeltaNet	人类设计	27.62	38.69	68.28	40.77	47.32
PathGateFusionNet	AI发现	26.76	37.40	68.77	41.57	48.51

实证扩展定律：计算能力与架构创新的关系

ASI-Arch 项目一个极具深远意义的发现是首次确立了"科学发现的缩放定律"（Computational Scaling of Discovery）233 515。这一发现的核心观点是，科学突破是可以被量化的，并且可以通过投入更多的计算资源来稳定地、可预测地获得。

20,000+

GPU 小时

1,773

自主实验

106

SOTA 架构

线性

扩展关系

创新性分析

超越传统神经架构搜索

ASI-Arch 从根本上超越了传统神经架构搜索（NAS）的范畴，实现了从"自动化优化"到"自动化创新"的范式转变515 630。

ASI-Arch系统展现了人工超智能用于AI研究（Artificial Superintelligence for AI Research, ASI4AI）的潜力515 597。它不再局限于人类预定义的模块组合，而是能够自主生成全新的架构概念。

自主提出新颖架构概念

ASI-Arch系统具备了自主提出新颖神经网络架构概念的能力，而不仅仅是优化现有设计或组合已知模块。这标志着AI在创造性思维方面迈出了重要一步。

一个关键的创新点在于ASI-Arch能够生成"超出分布"（out-of-distribution）的架构，即那些人类设计师可能从未考虑过或认为不可行的设计461。

发现的新型线性注意力架构及其设计原则

巧妙的模块组合

将不同功能的组件以新颖的方式结合，形成高效的混合架构

动态参数调节

所有SOTA架构都包含可学习的门控温度参数

跨尺度信息流

创新性地结合局部卷积与全局注意力

AI在架构设计中展现的"非直观"创新

ASI-Arch所展现的创新性，一个尤为引人深思的方面是AI在架构设计过程中体现出的"非直观"创新。这意味着AI系统能够发现一些与人类直觉相悖，或者人类设计师通常不会尝试，但实际效果却非常出色的设计策略和模块组合。

典型创新特征

非直观的模块组合
动态参数调节的广泛应用
跨尺度信息流的创新整合

突破性发现

这些"非直观"的创新设计，如同AlphaGo在围棋对弈中走出令人类棋手惊讶的"神之一手"，表明了AI系统已经具备了超越人类现有认知边界，发现全新、有效解决方案的潜力。

总结与展望

ASI-Arch 项目的里程碑意义

ASI-Arch 项目的成功，标志着人工智能在自主科学研究能力上迈出了关键一步，具有深远的里程碑意义。它首次系统性地证明了AI能够超越人类专家，在复杂的神经架构设计领域实现原创性突破。

ASI-Arch 成功打破了AI研究的人力瓶颈，展示了通过大规模计算和智能算法驱动科学发现的可行性。其提出的"科学发现的缩放定律"更是从理论上论证了计算能力与创新产出之间的正相关关系233 515。

AI自主研究的未来发展方向

技术发展趋势

更强大的基础模型与多模态能力的结合
更高效的探索策略与知识表示方法
人机协同的科研新模式

应用拓展方向

材料科学与药物研发
芯片设计与系统工程
基础物理与数学研究

潜在应用与影响

ASI-Arch 项目所展现的AI自主研究能力，具有广泛而深远的潜在应用与影响。最直接的应用领域自然是人工智能本身的持续进化。通过AI设计更优的AI模型，可以形成一个正向反馈循环，加速AI技术在各个方面的性能提升和能力拓展。

缩短研发周期

大幅提升研发效率

降低研发成本

减少人力依赖

突破认知局限

发现前所未有的解决方案