智能体，以编码为行动的计算机使用CoAct-1

智能体，以编码为行动的计算机

使用 CoAct-1 系统实现革命性计算机操作

南加州大学

Salesforce

背景与挑战

随着人工智能技术的快速发展，计算机操作自动化成为研究热点。传统GUI代理系统虽然取得了一定进展，但面临着诸多挑战：

传统GUI代理的局限性

仅依赖视觉语言模型感知屏幕并模拟鼠标键盘操作
面对复杂应用时表现不佳，误点击率高
长任务链累积错误概率，步骤越多失败风险越高
处理重复性任务效率低下，平均需要15.22步

新解决方案的必要性

需要结合GUI操作与代码执行的混合策略
需要智能选择最适合的方法来完成任务
需要减少操作步骤，降低累积错误概率
需要提高任务完成效率和准确性

核心创新：三个专业助手的完美配合

CoAct-1系统由三个专业助手组成，各司其职，协同工作，实现了计算机操作的重大突破：

编排者 (Orchestrator)

负责理解用户需求，将复杂任务分解为子任务，并决定每个子任务交给哪个助手完成，全局把握任务进展。

使用OpenAI的o3模型，擅长推理和规划
维护全局任务分配和执行结果记录
基于反馈信息动态调整任务分配策略

程序员助手 (Programmer)

编写Python和Bash脚本直接与操作系统交互，处理文件管理、数据处理等复杂任务，提高效率和准确性。

使用o4-mini模型，代码生成能力强
生成简洁总结报告，而非原始技术细节
子任务完成后自动清理内存，避免历史信息干扰

界面操作员 (GUI Operator)

处理需要精确视觉判断的任务，理解屏幕元素，进行鼠标点击、键盘输入等界面交互操作。

使用computer-use-preview模型，视觉理解优秀
返回操作结果和屏幕截图
专门处理需要精确视觉判断的任务

技术架构详解：多智能体协作的混合系统

CoAct-1基于AG2框架构建，采用分布式内存管理、分层通信机制和灵活的参数配置，实现了三个专业助手的无缝协作。

内存管理机制

每个智能体维护自己的对话历史，确保职责专注，避免信息混乱。

分布式内存设计，各智能体独立记录工作历史
子任务完成后自动清理内存，避免历史信息干扰
编排者保存全局任务分配和执行结果记录

通信机制

系统采用分层通信设计，确保不同角色之间有效交流，避免信息过载。

程序员助手生成简洁总结报告，而非原始技术细节
界面操作员返回操作结果和屏幕截图
编排者基于反馈信息动态调整任务分配策略

模型选择与参数配置

研究团队针对不同角色精心选择模型，并设置灵活的参数配置。

编排者使用OpenAI的o3模型，擅长推理和规划
程序员助手使用o4-mini模型，代码生成能力强
界面操作员使用computer-use-preview模型，视觉理解优秀

实验验证与性能：OSWorld测试结果

OSWorld是业界公认的权威测试平台，包含369个不同难度和类型的任务，涵盖日常办公中可能遇到的各种情况。每个测试任务都从确定的系统状态开始，使用自然语言描述任务需求，并通过规则化评估器判断任务是否成功完成。

60.76%

CoAct-1整体成功率

10.15步

平均完成任务步数

33%

操作步骤减少比例

传统GUI代理 (GTA-1)

成功率：53.10%
平均步数：15.22步
LibreOffice Calc成功率：57.89%

CoAct-1

成功率：60.76%
平均步数：10.15步
LibreOffice Calc成功率：70.21%

「CoAct-1在成功率和效率两方面均显著超越现有系统，验证了混合策略的有效性。特别是在LibreOffice Calc任务中，CoAct-1的成功率比GTA-1高出12.32个百分点，充分展示了其在数据处理和电子表格操作方面的优势。」

设计思想与哲学

CoAct-1的设计思想体现了对人工智能系统本质的深刻理解，其核心理念包括：

多智能体协作

CoAct-1认为，构建多个专业化智能体比构建一个」万能」AI系统更现实有效。每个智能体专注于特定领域，通过协作实现整体效能最大化。

专业化分工，各司其职
分布式决策，提高系统鲁棒性
降低单一模型复杂度，提高可维护性

混合策略

CoAct-1采用混合策略，结合GUI操作和代码执行的优势，根据任务特性智能选择最适合的方法。

数据处理和文件操作优先使用代码执行
需要精确视觉判断的任务使用GUI操作
动态选择最优方法，提高任务完成效率

效率优先

CoAct-1的设计始终以效率为核心，通过减少操作步骤和降低错误率，实现任务完成效率的最大化。

减少操作步骤，节省计算资源
降低累积错误概率，提高任务成功率
优化人机交互，提升用户体验

应用前景与影响

CoAct-1的出现不仅代表了技术上的突破，更代表了人机交互方式的根本性变革，将在多个领域产生深远影响。

办公自动化革命

CoAct-1为办公自动化带来全新可能性，让普通用户无需掌握编程技能，就能享受到程序化处理的高效和准确性。

中小企业无需专业IT人员，即可实现办公流程自动化
客户支持、销售勘探、自动化簿记和营销活动管理等领域完美适用
灵活处理有API和无API的多种工具，提供全面自动化解决方案

教育领域应用

在教育领域，CoAct-1显示出巨大潜力，能够帮助学生完成各种学习任务，同时展示问题解决的思路和方法。

通过自然语言交互，完成研究资料整理、学习报告生成等任务
处理实验数据，提供数据分析和可视化支持
通过执行过程展示问题解决思路，具有强大教学价值

技术发展影响

CoAct-1代表了AI系统从单一模态向多模态融合的重要转变，验证了多智能体协作的有效性。

成功整合语言理解、视觉识别和代码生成能力
多智能体协作比构建」万能」AI系统更现实有效
为未来AI系统可扩展性和可维护性提供更好解决方案

环境与社会影响

CoAct-1的高效性不仅节省时间，也减少计算资源消耗，在大规模应用时能显著降低能源消耗和碳排放。

减少任务完成步骤，节省计算资源，符合可持续发展要求
重新思考人机分工边界，改变某些职业的技能要求
在智能家居、工业自动化、医疗健康等领域有广阔应用前景

CoAct-1证明了AI系统不需要追求单一维度的极致表现，而应该追求实际应用中的综合效果，让人工智能真正成为提升人类生活质量的强大工具

智能体，以编码为行动——CoAct-1

智能体，以编码为行动的计算机

使用 CoAct-1 系统实现革命性计算机操作

背景与挑战

传统GUI代理的局限性

新解决方案的必要性

核心创新：三个专业助手的完美配合

编排者 (Orchestrator)

程序员助手 (Programmer)

界面操作员 (GUI Operator)

技术架构详解：多智能体协作的混合系统

内存管理机制

通信机制

模型选择与参数配置

实验验证与性能：OSWorld测试结果

传统GUI代理 (GTA-1)

CoAct-1

设计思想与哲学

多智能体协作

混合策略

效率优先

应用前景与影响

办公自动化革命

教育领域应用

技术发展影响

环境与社会影响

发表评论取消回复

history 背景与挑战

error_outline 传统GUI代理的局限性

lightbulb 新解决方案的必要性

auto_awesome 核心创新：三个专业助手的完美配合

account_tree 编排者 (Orchestrator)

code 程序员助手 (Programmer)

touch_app 界面操作员 (GUI Operator)

architecture 技术架构详解：多智能体协作的混合系统

memory 内存管理机制

sync_alt 通信机制

settings 模型选择与参数配置

science 实验验证与性能：OSWorld测试结果

传统GUI代理 (GTA-1)

CoAct-1

psychology 设计思想与哲学

groups 多智能体协作

compare_arrows 混合策略

eco 效率优先

rocket_launch 应用前景与影响

business_center 办公自动化革命

school 教育领域应用

integration_instructions 技术发展影响

eco 环境与社会影响

发表评论 取消回复

背景与挑战

传统GUI代理的局限性

新解决方案的必要性

核心创新：三个专业助手的完美配合

编排者 (Orchestrator)

程序员助手 (Programmer)

界面操作员 (GUI Operator)

技术架构详解：多智能体协作的混合系统

内存管理机制

通信机制

模型选择与参数配置

实验验证与性能：OSWorld测试结果

设计思想与哲学

多智能体协作

混合策略

效率优先

应用前景与影响

办公自动化革命

教育领域应用

技术发展影响

环境与社会影响

发表评论取消回复