Deep Research(深度研究)指能够自行上网检索、运行代码并生成长篇答案的智能体。目前的DR系统大多是多智能体(多个专门的LLM协同工作)或单智能体(单个LLM完全决定所有步骤)。
单智能体系统(如OpenAI的DeepResearch)具有以下优势:
然而,现有单智能体系统面临两大挑战:
本文提出一个基于强化学习的框架,将推理优化的模型(如QwQ-32B, Qwen3-8B, gpt-oss-20b)训练成自主单智能体DR系统。框架包含两个核心组件:
采用极简工具集,确保模型必须主动推理而非依赖工具简化任务:
search_internet(query:str)
:返回前10条有机搜索结果browse_page(url:str, section_id:int)
:将网页转换为Markdown格式,移除超链接code_interpreter(code:str)
:本地执行Python代码(5分钟超时)针对不同模型特性设计单智能体工作流:
对于QwQ和Qwen模型,将多轮工具调用重新表述为单轮上下文问答问题:
<user>问题; [工具调用1, 结果1, ..., 工具调用n, 结果n]<assistant>
而非传统的多轮格式:
<user>问题<assistant>工具调用1<user>结果1...<assistant>
设计长上下文管理机制:
clean_memory(content:str)
工具,当内存超过阈值时强制调用实现错误容忍机制:
构建高难度合成数据集,包含两类任务:
提出长度归一化的REINFORCE算法,解决长轨迹主导问题:
A_i,j = A_i = (r_i - mean(R)) / (std(R) * T_i)
其中:
r_i
:轨迹i的最终奖励R
:同组所有轨迹的奖励集合T_i
:轨迹i的长度(工具调用次数)实施训练稳定策略:
构建高效RL基础设施:
clean_memory
工具选择保留关键信息。这种设计在未来上下文窗口继续扩大时将变得尤为重要。
在三个权威基准上评估SFR-DR模型,使用污染防护措施(阻止访问包含基准答案的网站):
模型 | 基础模型 | FRAMES | GAIA | HLE/HLE-500 |
---|---|---|---|---|
专有系统 | ||||
Deep Research [30] | o3 | - | 67.4 | 26.6/- |
GPT-5 [28] | GPT-5 | - | - | 35.2/- |
Kimi-researcher [26] | Kimi-k1.5/k2 | 78.8† | - | 26.9†/- |
多智能体系统 | ||||
OpenDeepSearch-R1 [3] | Deepseek-R1-671B | 72.4* | - | 10.6*/- |
MiroThinker-32B [25] | Qwen3-32B&235B | 71.7† | 54.1† | -/11.8† |
单智能体系统 | ||||
WebSailor-32B [17] | Qwen2.5-32B | 69.78* | 44.0* (53.2†) | 10.75*/- |
WebShaper-32B [39] | QwQ-32B | 69.42* | 48.5* (53.3†) | 12.23*/- |
SFR-DR-8B | Qwen3-8B | 63.3 | 41.7 | 13.2/14.0 |
SFR-DR-32B | QwQ-32B | 72.0 | 52.4 | 16.2/17.1 |
SFR-DR-20B | gpt-oss-20b | 82.8 | 66.0 | 28.7 |
关键发现:
对比默认多轮格式与单轮上下文格式:
模型 | FRAMES | HLE |
---|---|---|
Qwen3-8B (多轮) | 52.5 | 8.8 |
QwQ-32B (多轮) | 58.0 | 12.3 |
SFR-DR-8B (单轮) | 58.8 | 9.9 |
SFR-DR-32B (单轮) | 68.0 | 13.9 |
分析发现:多轮格式下,中间步骤的"思考"令牌质量迅速退化,导致模型过早放弃或产生重复输出。单轮格式使任务更接近模型优化的单步推理场景,带来显著提升。
训练过程中轨迹长度变化对比:
原因:长轨迹贡献更多动作步骤,主导损失函数,即使质量不高也会被强化。归一化后,不同长度轨迹的贡献更均衡,防止模型陷入重复工具调用。
不同模型在HLE上的平均工具调用次数:
gpt-oss-20b基础模型更适合智能体训练,RL后工具使用量显著增加。Qwen系列模型倾向于内部推理,工具使用较少。
不同模型在HLE上的平均每步响应长度(token数):
gpt-oss-20b更高效,每步生成的token数仅为Qwen系列的1/4-1/5。RL训练使Qwen系列响应长度增加,而gpt-oss-20b响应长度缩短,效率进一步提升。
cleanmemory
与何时保留信息,可考虑使用独立的"记忆控制器"。该论文展示了通过轻量化的交互循环、合成数据驱动的强化学习以及长度归一化的策略梯度,可以把强大的推理型LLM打造成具备自主搜索、代码执行和长篇写作能力的单体Deep Research智能体。实验结果在多项推理与检索基准上均取得领先,证明了单体智能体在实际研究助理场景中的可行性与竞争力。