3.DeepSearch

3.DeepSearch

DeepSearch模块构建了涵盖前沿平台的深度搜索技术生态,致力于超越传统关键词匹配的智能信息检索革命。该模块整合了阿里ZeroSearch无搜索LLM能力增强、字节DeerFlow智能搜索引擎、书生浦源MindSearch多智能体搜索框架等核心技术,以及腾讯IMA.copilot智能工作台等企业级解决方案。技术栈包含了JinaAI node-DeepResearch持续推理搜索、SurfSense开源知识管理助手、Firesearch多模态爬虫、Morphik-Core多模态RAG等专业组件,覆盖了从基础检索到复杂推理的全链路需求。

模块深度集成了LLM原生搜索能力(ZeroSearch激励机制)、多智能体协作搜索(MindSearch类Perplexity Pro)、持续推理直到找到答案(node-DeepResearch)、多模态知识检索(Morphik多模态RAG)等创新技术,支持网页阅读、推理分析、知识图谱构建、实时搜索等高级功能。此外,还提供了与外部数据源集成(Tavily、Linkup搜索引擎、Slack、Linear、Notion、YouTube、GitHub等)、自定义AI研究助手、私有知识库构建等实用功能,以及SearchGPT风格的对话式搜索、类NotebookLM的知识管理等前沿应用模式,帮助开发者构建智能化、个性化的下一代深度搜索系统,实现从信息检索到知识发现的技术跃升。

===============================================================================

简介

ima.copilot(简称ima)是腾讯推出的一款以知识库为核心的AI智能工作台产品。它集搜、读、写于一体,旨在显著提升用户在知识获取、信息处理和内容输出方面的效率,适用于学习和办公场景。

核心功能

技术原理

ima.copilot的核心技术基于大型语言模型,已接入并融合了腾讯混元大模型DeepSeek R1模型(满血版),这些模型为其提供了强大的自然语言处理、内容理解与生成能力。

应用场景

------------------------------------------------------------

1.ZeroSearch-阿里

简介

ZeroSearch是阿里巴巴提出的一种新颖的强化学习框架,可在训练期间通过模拟搜索来激励大语言模型(LLMs)使用真实搜索引擎的能力。它将LLM转换为检索模块,引入课程滚动机制激发模型推理能力。实验表明,ZeroSearch优于基于真实搜索引擎的模型,且零API成本,能适配不同大小和类型的LLMs及多种强化学习算法。

Snipaste<em>2025-07-19</em>14-32-49.png

核心功能

技术原理

通过监督微调,将LLM转变为检索模块,以应对查询生成文档。采用课程滚动机制,让模型面对更具挑战性的检索场景,逐步提升推理能力。同时,使用模拟搜索替代真实搜索进行训练。

应用场景

在需要利用大语言模型进行信息检索和推理的场景中使用,如问答系统、知识图谱构建等,可在不产生API成本的情况下获得较好的性能。

------------------------------------------------------------

1.deerflow-字节

简介

DeerFlow 是社区驱动的深度研究框架,结合语言模型与专业工具。已入驻火山引擎 FaaS 应用中心,支持一键部署。它能无缝集成 MCP 服务,进行深度研究、生成综合报告与播客音频等,具备多搜索引擎支持、人在环机制等特性。

Snipaste<em>2025-07-19</em>14-33-03.png

核心功能

技术原理

DeerFlow 实现模块化多智能体系统架构,基于 LangGraph 构建,采用精简工作流程。组件通过消息传递系统通信,包含协调器、规划器、研究团队(研究员、编码员、报告员)等,实现灵活的基于状态的工作流。

应用场景

------------------------------------------------------------

2.jinaAI-node-DeepResearch

简介

DeepResearch项目是由Jina AI推出的一个高级AI研究代理系统,旨在模拟OpenAI的Deep Research系统,提供迭代式的网络研究能力。该项目最初以Node.js/TypeScript实现(node-DeepResearch),随后有社区开发者将其移植到Python语言(python-node-deepresearch),使得该研究助手能够通过搜索、网络抓取和大型语言模型对任何主题进行深入且迭代的研究。

核心功能

  • 迭代式深度研究: 能够持续地搜索、阅读网页并进行推理,直到找到答案或达到预设限制。
  • 多模态信息整合: 结合搜索引擎(如Brave/DuckDuckGo)、网页解析器(如Jina Reader)和大型语言模型(如Gemini Flash)进行信息处理和分析。
  • 自动化问答与合成: 自动处理复杂查询,通过循环过程迭代地搜索、阅读和综合答案。
  • 模块化架构: 设计上采用模块化,易于扩展和维护。
  • 多语言支持: 提供Node.js/TypeScript和Python两种实现版本。

技术原理

DeepResearch的核心技术原理在于其代理(Agentic)工作流,该工作流模仿了人类研究员的思考和行动模式。它主要依赖以下组件和机制:
  • 大型语言模型(LLM): 如Google的Gemini Flash,作为核心推理引擎,用于理解查询、生成搜索策略、提炼信息和综合答案。
  • 网页爬取与解析: 采用如Jina Reader等工具对网页内容进行高效、准确的抓取和解析,提取有效信息。
  • 搜索引擎接口: 通过集成Brave或DuckDuckGo等搜索引擎,实现对互联网信息的广泛检索。
  • 迭代循环与反馈机制: 系统在一个while-loop中运行,不断地执行“搜索-阅读-推理-合成”的循环,并根据当前信息调整后续步骤,直到满足查询要求或达到预设条件。
  • 状态管理与记忆: 代理在研究过程中会维护一个内部状态,记录已获取的信息和推理进展,避免重复劳动并确保逻辑连贯性。

应用场景

------------------------------------------------------------

3.MindSearch书生浦源

简介

MindSearch 是一个开源的 AI 搜索引擎框架,性能与 Perplexity.ai Pro 相当。用户可轻松部署以构建自己的搜索引擎,支持闭源 LLM(如 GPT、Claude)和开源 LLM(InternLM2.5 系列模型经专门优化)。具备解决各类问题、深度知识探索、提供透明解决方案路径、多种用户界面及动态图构建过程等特性。 Snipaste<em>2025-07-19</em>14-34-16.png

核心功能

  • 问题解答:通过搜索解决生活中的各种问题。
  • 深度探索:浏览数百网页,提供广泛、深层次答案。
  • 透明路径:提供思考路径、搜索关键词等完整内容,提高回复可信度和可用性。
  • 多界面支持:提供 React、Gradio、Streamlit 等多种用户界面。
  • 动态图构建:将用户查询分解为子问题节点,根据搜索结果扩展图。

技术原理

文档未详细提及技术原理相关内容,推测其通过将用户查询分解为子问题节点构建动态图,结合搜索引擎获取网页信息,利用优化后的 LLM(如 InternLM2.5 系列)进行处理和回复生成。

应用场景

------------------------------------------------------------

3.SurfSence 开源检索

简介

SurfSense是一款开源、高度可定制的AI研究与知识管理助手。它旨在提供类似NotebookLM、Perplexity和Glean的替代方案,能够整合外部信息源(如搜索引擎、社交媒体和协作工具)与用户的个人知识库,并支持隐私保护和数据自主。

核心功能

  • 多源信息整合: 连接到Tavily、LinkUp等搜索引擎,以及Slack、Linear、Notion、YouTube、GitHub、Discord等多样化平台,实现信息的自动抓取和整合。
  • 个人知识库构建与管理: 允许用户保存网页(包括登录墙后的内容)、上传文档和文件,并构建可进行自然语言查询的私有、可搜索知识库。
  • AI辅助研究与分析: 提供AI驱动的搜索、信息管理和与文档交互(聊天)的能力,帮助用户高效地从海量数据中提取洞察、生成播客或进行深度分析。
  • 数据隐私与自主: 支持云端和本地AI模型部署选项,确保用户数据的安全与隐私,赋予用户对自身数据完全的控制权和所有权。

技术原理

SurfSense的核心基于AI研究代理(AI research agent)范式,特别提到了使用自定义的gpt-researcher代理。它通过集成多种外部服务的API(如搜索引擎API、协作工具API),实现对不同数据源的连接和信息流转。在处理用户知识库时,系统运用自然语言处理技术,使用户能通过日常语言进行查询和交互。为提供高度的隐私保护,其架构设计支持本地AI模型部署,允许敏感数据在用户本地环境中处理,与传统的云端处理模式并行。

应用场景

------------------------------------------------------------

3.firesearch

简介

Firesearch 是一款由 Firecrawl 和 LangGraph 驱动的人工智能深度研究工具,利用 Firecrawl 进行多源网页内容提取,借助 OpenAI GPT - 4o 进行搜索规划和后续生成。它可以将复杂查询分解为多个聚焦搜索,提供验证答案、自动重试等功能,还支持用户通过修改配置文件自定义搜索行为。

核心功能

  • 智能搜索:将复杂查询分解为多个聚焦搜索。
  • 答案验证:验证来源是否包含实际答案,要求置信度达 0.7 以上。
  • 自动重试:对未解答的问题使用替代搜索词重试。
  • 实时进度:搜索完成时实时更新。
  • 完整引用:每个事实都链接到其来源。
  • 上下文记忆:后续问题保持对话上下文。

技术原理

Firesearch 以 Firecrawl 进行多源网页内容提取,利用 OpenAI GPT - 4o 进行搜索规划和总结。处理流程为:将复杂查询分解为子问题,通过 Firecrawl API 进行多次搜索,从网页源提取 Markdown 内容,验证来源是否能解答问题,对未解答问题使用替代搜索词重试,最后由 GPT - 4o 将结果综合成带引用的答案。同时可通过修改配置文件自定义搜索行为,如设置最大搜索查询数、每个搜索查询的最大来源数等。

应用场景

  • 学术研究:可用于查找学术资料,获取相关研究成果。
  • 产品对比:对比不同产品的特点、价格等信息,如对比手机旗舰机型的功能。
  • 信息调研:了解公司的创始人、产品发布时间等信息。
  • mendableai/firesearch
  • Firecrawl

------------------------------------------------------------

3.morphik-core多模态搜索

简介

Morphik 是一套面向视觉丰富文档和多模态数据的 AI 原生工具集,旨在让开发者轻松将复杂数据上下文集成到 AI 应用中。它具备多模态搜索、知识图谱构建、快速元数据提取等功能,提供免费层级且开源,有 Python SDK 和 REST API,也可通过控制台操作。

核心功能

  • 多模态搜索:利用 ColPali 等技术理解文档视觉内容,通过单一端点搜索图像、PDF、视频等。
  • 知识图谱构建:一行代码构建特定领域知识图谱,可使用预设或自定义系统提示。
  • 元数据提取:从文档中快速提取包括边界框、标签、分类等元数据。
  • 集成功能:与 Google Suite、Slack、Confluence 等现有工具和工作流集成。
  • 缓存增强生成:创建文档持久 KV 缓存以加速生成。

技术原理

Morphik 运用 ColPali 技术构建多模态搜索,直接将输入页面嵌入存储,避免因解析或处理技术不完善导致的上下文丢失。在元数据提取方面,借助相关算法实现对文档的边界框、标签、分类等信息的提取。

应用场景

ROMA – Sentient AGI开源的多智能体框架

ROMA(Recursive Open Meta-Agent)是由Sentient AGI团队开源的多智能体系统框架。它通过递归分层的结构,将复杂的任务分解为可并行执行的子任务,并协调各种智能体和工具来高效解决这些任务,同时保持过程的透明性和可追溯性。

seal-0-full.001.jpeg

核心功能

  • 递归任务拆解: 自动将复杂任务分解为层级化的子任务,并支持并行执行以加速处理。
  • 多模态支持与工具集成: 能够处理文本、图像、代码等多种数据类型,并通过MCP协议和API集成外部工具及模型。
  • 内置专业智能体: 预置通用任务解决器、深度研究Agent、金融分析Agent等,以应对多样化需求。
  • 透明调试与可扩展性: 执行过程清晰可见,便于调试优化,且模块化设计支持在任意节点插入新的Agent、工具或模型。

ROMA – Sentient AGI.png

ROMA – Sentient AGI-2.png

技术原理

ROMA的核心在于其递归层次结构。任务被表示为树状节点,父节点将复杂任务原子化(Atomizer)后,通过规划器(Planner)拆解并递归分配给子节点。执行器(Executor)负责执行原子任务(可调用LLM、API或其他Agent),而聚合器(Aggregator)则将子任务结果自底向上整合回父节点。这种上下文流管理确保了信息的清晰传递和任务的连贯性,实现了复杂推理任务的并行化处理。

应用场景

  • 研究与分析: 进行深度学术研究、市场分析,自动整合多源信息生成报告。
  • 金融决策: 实时监控金融市场,集成多数据源生成投资分析报告。
  • 项目管理: 自动化项目任务拆解、分配和进度跟踪,提升项目管理效率。
  • 企业自动化: 构建多Agent工作流,实现企业内部流程的自动化和运营效率提升。
  • 教育辅助: 帮助学生通过自然语言创建研究Agent,自动收集和整合信息以生成研究报告。#### 简介
ROMA(Recursive Open Meta-Agent)是由Sentient AGI团队开源的多智能体系统框架。它通过递归分层的结构,将复杂的任务分解为可并行执行的子任务,并协调各种智能体和工具来高效解决这些任务,同时保持过程的透明性和可追溯性。

核心功能

  • 递归任务拆解: 自动将复杂任务分解为层级化的子任务,并支持并行执行以加速处理。
  • 多模态支持与工具集成: 能够处理文本、图像、代码等多种数据类型,并通过MCP协议和API集成外部工具及模型。
  • 内置专业智能体: 预置通用任务解决器、深度研究Agent、金融分析Agent等,以应对多样化需求。
  • 透明调试与可扩展性: 执行过程清晰可见,便于调试优化,且模块化设计支持在任意节点插入新的Agent、工具或模型。

技术原理

ROMA的核心在于其递归层次结构。任务被表示为树状节点,父节点将复杂任务原子化(Atomizer)后,通过规划器(Planner)拆解并递归分配给子节点。执行器(Executor)负责执行原子任务(可调用LLM、API或其他Agent),而聚合器(Aggregator)则将子任务结果自底向上整合回父节点。这种上下文流管理确保了信息的清晰传递和任务的连贯性,实现了复杂推理任务的并行化处理。

应用场景

  • 研究与分析: 进行深度学术研究、市场分析,自动整合多源信息生成报告。
  • 金融决策: 实时监控金融市场,集成多数据源生成投资分析报告。
  • 项目管理: 自动化项目任务拆解、分配和进度跟踪,提升项目管理效率。
  • 企业自动化: 构建多Agent工作流,实现企业内部流程的自动化和运营效率提升。
  • 教育辅助: 帮助学生通过自然语言创建研究Agent,自动收集和整合信息以生成研究报告。
  • 项目官网:https://blog.sentient.xyz/posts/recursive-open-meta-agent
  • GitHub仓库:https://github.com/sentient-agi/ROMA

通义DeepResearch – 阿里深度研究智能体

qwen-family.png

  • 通义 DeepResearch 的家族成员
* Tongyi DeepResearchWebWalker:专注于网页遍历任务,用于评估语言模型在网页导航中的表现。 * WebDancer:致力于实现自主信息寻求能力,推动智能体在信息检索中的自主性。 * WebSailor:用于导航复杂的网页环境,提升智能体的超人级推理能力。 * WebShaper:通过信息寻求的形式化,实现智能体数据的合成,提升数据质量和模型性能。 * WebWatcher:探索视觉语言智能体的新边界,结合视觉和语言能力进行深度研究。 * WebResearcher:释放长周期智能体的无界推理能力,提升其在复杂任务中的表现。 * ReSum:通过上下文总结解锁长周期搜索智能,优化智能体的信息管理能力。 * WebWeaver:利用动态提纲结构化网络规模的证据,支持开放式的深度研究。 * WebSailor-V2:通过合成数据和可扩展的强化学习,缩小与专有智能体的差距。

qwen-performance.png

webweaver.png

核心功能

  • 深度信息检索与综合:能够执行复杂的多轮研究工作流,包括搜索、浏览、信息提取、交叉验证和证据合成。
  • WebAgent能力:内嵌WebResearcher和WebWeaver两大核心组件,支持网页内容的精确搜索、爬取、信息提取和交互。
  • 模块化工具使用:通过ReAct范式评估核心能力,并支持IterResearch模式以最大化性能。
  • 模型训练与优化:采用ACT预训练、监督微调和策略强化学习相结合的全栈训练范式,实现工具使用技能的初始化和模型自我演进。
  • 基准性能卓越:在“人类的最后考试”(HLE)、BrowserComp、WebWalkerQA、xbench-DeepSearch、FRAMES等多种智能体搜索基准测试中表现出色。

技术原理

Tongyi DeepResearch 采用稀疏混合专家 (Sparse Mixture-of-Experts, MoE) 架构,总参数量达305亿,但每个Token仅激活33亿参数,有效平衡了模型规模与推理效率。其核心在于智能体推理范式 (Agent Inference Paradigm),支持两种主要模式:
  • ReAct (Reasoning and Acting) 范式:允许模型进行严格的推理和行动,以评估其内在核心能力和工具使用技能。
  • IterResearch-based 'Heavy' mode:一种测试时扩展策略,通过迭代研究过程来解锁模型最大性能潜力。
模型的训练过程融合了ACT (Action-Conditioned Transformer) 预训练以初始化工具使用技能,专家数据监督微调 (Supervised Finetuning) 进行冷启动,以及在线策略强化学习 (On-policy Reinforcement Learning, RL) 驱动模型进行自我演化,形成一个“闭环”的智能体训练范式。 其WebAgent能力通过内部组件 WebResearcher (负责网页搜索、内容爬取和结构化信息提取) 和 WebWeaver (负责网页浏览、交互和信息导航) 实现,这些组件协同工作,使模型能够像人类一样与网络环境进行深度交互。

应用场景

  • 学术研究:辅助研究人员进行文献检索、数据收集、理论验证和报告撰写。
  • 市场调研:自动收集行业报告、竞品分析、市场趋势和用户反馈。
  • 内容创作:为新闻稿、博客文章、报告和创意写作提供深度背景信息和事实核查。
  • 智能问答系统:作为高级检索模块,为复杂、开放域问题提供精准且全面的答案。
  • 决策支持系统:整合多源信息,为企业战略规划、产品开发和风险评估提供数据支持。
  • 教育辅助:帮助学生和教师进行知识探索、专题学习和信息整合。
  • 项目官网:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
  • Github仓库:https://github.com/Alibaba-NLP/DeepResearch
  • https://github.com/Alibaba-NLP/DeepResearch/tree/main/WebAgent/WebResearcher
  • https://github.com/Alibaba-NLP/DeepResearch/tree/main/WebAgent/WebWeaver

------------------------------------------------------------

⬆ 返回README目录 ⬆ Back to Contents