SFR-DeepResearch:面向单体智能体的有效强化学习方法

XuanPhi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty(Salesforce AI Research)
arXiv:2509.06283v2[cs.AI](2025年9月)

1. 研究动机

Deep Research(深度研究)指能够自行上网检索、运行代码并生成长篇答案的智能体。目前的DR系统大多是多智能体(多个专门的LLM协同工作)或单智能体(单个LLM完全决定所有步骤)。

单智能体系统(如OpenAI的DeepResearch)具有以下优势:

然而,现有单智能体系统面临两大挑战:

2. 方法概述

本文提出一个基于强化学习的框架,将推理优化的模型(如QwQ-32B, Qwen3-8B, gpt-oss-20b)训练成自主单智能体DR系统。框架包含两个核心组件:

2.1 智能体推理流程

采用极简工具集,确保模型必须主动推理而非依赖工具简化任务:

针对不同模型特性设计单智能体工作流

对于QwQ和Qwen模型,将多轮工具调用重新表述为单轮上下文问答问题:

<user>问题; [工具调用1, 结果1, ..., 工具调用n, 结果n]<assistant>

而非传统的多轮格式:

<user>问题<assistant>工具调用1<user>结果1...<assistant>
图1:单轮上下文问答格式示例

设计长上下文管理机制

实现错误容忍机制

2.2 强化学习训练配方

构建高难度合成数据集,包含两类任务:

提出长度归一化的REINFORCE算法,解决长轨迹主导问题:

A_i,j = A_i = (r_i - mean(R)) / (std(R) * T_i)

其中:

实施训练稳定策略

构建高效RL基础设施

3. 核心创新点

单智能体工作流重构:将多轮交互重新表述为单轮上下文问答,适应推理模型在单步任务上的优化特性,避免长链思考退化问题。实验表明,该设计在FRAMES基准上带来10%的绝对性能提升。
长度归一化的策略梯度:在优势函数中引入轨迹长度归一化项,防止长轨迹(即使质量不高)主导训练过程。无归一化时,模型会陷入重复工具调用;归一化后工具使用更高效,性能提升显著。
显式记忆清理工具:赋予模型对上下文窗口的主动控制权。当内存超过阈值时,模型必须调用clean_memory工具选择保留关键信息。这种设计在未来上下文窗口继续扩大时将变得尤为重要。
合成数据驱动的强化学习:构建具有挑战性的合成数据集,其难度超过现有开源数据集,甚至能挑战最先进的DR系统。通过端到端RL训练,使模型掌握复杂搜索和推理能力。

4. 实验结果

在三个权威基准上评估SFR-DR模型,使用污染防护措施(阻止访问包含基准答案的网站):

模型 基础模型 FRAMES GAIA HLE/HLE-500
专有系统
Deep Research [30] o3 - 67.4 26.6/-
GPT-5 [28] GPT-5 - - 35.2/-
Kimi-researcher [26] Kimi-k1.5/k2 78.8† - 26.9†/-
多智能体系统
OpenDeepSearch-R1 [3] Deepseek-R1-671B 72.4* - 10.6*/-
MiroThinker-32B [25] Qwen3-32B&235B 71.7† 54.1† -/11.8†
单智能体系统
WebSailor-32B [17] Qwen2.5-32B 69.78* 44.0* (53.2†) 10.75*/-
WebShaper-32B [39] QwQ-32B 69.42* 48.5* (53.3†) 12.23*/-
SFR-DR-8B Qwen3-8B 63.3 41.7 13.2/14.0
SFR-DR-32B QwQ-32B 72.0 52.4 16.2/17.1
SFR-DR-20B gpt-oss-20b 82.8 66.0 28.7

关键发现:

5. 关键分析

5.1 单智能体工作流的有效性

对比默认多轮格式与单轮上下文格式:

模型 FRAMES HLE
Qwen3-8B (多轮) 52.5 8.8
QwQ-32B (多轮) 58.0 12.3
SFR-DR-8B (单轮) 58.8 9.9
SFR-DR-32B (单轮) 68.0 13.9

分析发现:多轮格式下,中间步骤的"思考"令牌质量迅速退化,导致模型过早放弃或产生重复输出。单轮格式使任务更接近模型优化的单步推理场景,带来显著提升。

5.2 长度归一化的重要性

训练过程中轨迹长度变化对比:

  • 无归一化:工具调用次数迅速增加,但HLE性能崩溃
  • 有归一化:工具调用增长稳定,性能持续提升
图2:长度归一化对训练稳定性的影响

原因:长轨迹贡献更多动作步骤,主导损失函数,即使质量不高也会被强化。归一化后,不同长度轨迹的贡献更均衡,防止模型陷入重复工具调用。

5.3 工具使用分析

不同模型在HLE上的平均工具调用次数:

  • SFR-DR-20B:约40次
  • SFR-DR-32B:约4次
  • SFR-DR-8B:约3次
图3:工具使用效率对比

gpt-oss-20b基础模型更适合智能体训练,RL后工具使用量显著增加。Qwen系列模型倾向于内部推理,工具使用较少。

5.4 响应长度分析

不同模型在HLE上的平均每步响应长度(token数):

  • SFR-DR-20B:约2000
  • SFR-DR-32B:约10000
  • SFR-DR-8B:约8000
图4:响应长度对比

gpt-oss-20b更高效,每步生成的token数仅为Qwen系列的1/4-1/5。RL训练使Qwen系列响应长度增加,而gpt-oss-20b响应长度缩短,效率进一步提升。

6. 可能的后续工作

7. 总结

该论文展示了通过轻量化的交互循环、合成数据驱动的强化学习以及长度归一化的策略梯度,可以把强大的推理型LLM打造成具备自主搜索、代码执行和长篇写作能力的单体Deep Research智能体。实验结果在多项推理与检索基准上均取得领先,证明了单体智能体在实际研究助理场景中的可行性与竞争力。