一个由Google Cloud与KAIST合作开发的先进机器学习工程智能体系统,通过多智能体协作框架自动化复杂的机器学习流程,在Kaggle竞赛中取得卓越性能。
MLE-STAR的核心创新在于将机器学习工程概念化为一个代码优化问题,通过多智能体协作框架模拟人类数据科学家的工作流程,实现从数据理解、模型发现、代码实现到性能优化的全流程自动化。这种系统性方法不仅提高了解决方案的质量,还显著降低了机器学习应用的技术门槛。
MLE-STAR并非单一的LLM应用,而是一个由多个专业化智能体协同工作的复杂框架。该系统充分利用了大型语言模型的代码生成、推理和规划能力,将其概念化为一个代码优化问题,通过迭代和探索最终生成可执行的高性能Python脚本。
这种多智能体协作模式使得系统能够并行处理不同任务,例如同时进行模型搜索、代码生成、性能评估和错误调试,从而极大地提高了开发效率和解决方案的质量。
MLE-STAR多智能体系统架构示意图
智能体名称 | 符号表示 | 主要职责 | 输入 | 输出 |
---|---|---|---|---|
检索智能体 | Aretriever | 通过网络搜索检索与任务相关的模型和代码片段 | 任务描述 (Ttask) | 模型-代码对列表 |
候选评估智能体 | Ainit | 评估检索到的模型候选者的性能 | 任务描述、模型描述、代码示例 | 包含验证集评估结果的Python脚本 |
合并智能体 | Amerger | 将多个表现优异的候选模型代码合并 | 基础代码、参考代码 | 合并后的Python脚本 |
消融研究智能体 | Aabl | 生成用于执行消融研究的Python代码 | 当前解决方案代码 | 用于消融研究的Python脚本 |
编码器 | Acoder | 根据精炼计划修改和优化代码块 | 目标代码块、精炼计划 | 精炼后的代码块 |
MLE-STAR的工作流程被设计为一个三阶段的自动化管道,模拟了人类专家解决机器学习问题的系统性方法。整个过程由多个智能体协同驱动,确保了探索的全面性和优化的有效性。
通过检索智能体的网络搜索,主动寻找当前最先进的、针对特定任务的模型和实现代码,确保初始方案基于最新的行业最佳实践。
采用独特的外部循环识别关键组件,内部循环进行深度优化的策略,实现对机器学习流水线的针对性精炼。
自主探索和实施新颖的集成策略,组合多个候选模型的预测结果,进一步提升最终模型性能。
自动捕获和修复生成的Python代码中的错误,确保代码的可执行性
系统性地扫描代码,识别潜在的数据泄露风险,防止模型性能虚高
确保所有提供的数据文件都得到充分利用,避免信息遗漏
在具有挑战性的MLE-bench Lite基准测试(包含22个Kaggle竞赛)上,MLE-STAR取得了令人瞩目的 64%的奖牌率,这意味着在超过三分之二的竞赛中,MLE-STAR生成的解决方案都达到了足以获得奖牌的水平。 [29]
全流程自动化
不仅自动化模型训练,还处理数据预处理、特征工程和模型集成等关键环节
主动探索能力
通过网络搜索主动发现新模型,通过双循环引擎深度优化代码
质量保障体系
内置的多智能体验证和修复机制,有效减少代码错误和数据泄露
显著优于AIDE
在MLE-bench Lite上的表现显著优于AIDE等先进系统
更优的初始起点
通过网络搜索获取最新、经过验证的模型,而非依赖LLM的固有知识
更深度的优化
双循环引擎允许系统识别并专注于优化最关键代码块
Google提供的基于云的集成开发环境,支持多种编程语言和框架,提供预配置环境和强大的协作功能。
项目明确要求使用Python 3.12,通过Poetry进行依赖管理,确保环境的一致性和可复现性。
深度集成Vertex AI和Gemini模型,提供强大的后端支持和业界领先的AI能力。
自动化重复性工作,让数据科学家专注于更具创造性和战略性的任务
使不具备深厚机器学习背景的开发者也能利用先进AI技术解决问题
自动化的代码生成、测试和验证流程,实现CI/CD的持续集成
MLE-STAR是Google Cloud研究团队与韩国顶尖学府KAIST(韩国科学技术院)合作的结晶。这种跨机构的合作汇集了工业界和学术界的顶尖智慧,为项目的成功奠定了坚实的基础。
Google Cloud与KAIST的合作研究