RAG已死,上下文工程永存:Chroma CEO Jeff Huber访谈解析
这是一场深入探讨 AI 应用开发转型的精彩访谈,主角是 Chroma 的 CEO Jeff Huber。他提出了一个颠覆性的观点:“RAG 已死,上下文工程永存”,并从技术、哲学、产品设计等多个维度展开论述。
🧠 视频核心总结
Jeff Huber 认为当前 AI 应用开发仍停留在”炼金术”阶段——依赖直觉、运气和黑箱操作。而 Chroma 的使命是将其转变为一门严谨的”工程学”,核心在于”上下文工程”(Context Engineering),而非传统的 RAG(检索增强生成)方法。
他强调:
- 上下文窗口越长 ≠ 模型表现越好,反而可能导致”上下文腐烂”(Context Rot)
- 构建高质量 AI 应用的关键是:提供高质量、精筛后的上下文,而非堆砌大量信息
- Chroma 专注于构建现代化、AI 原生的检索基础设施,支持两阶段检索、Regex 精确匹配、索引分叉等功能
🎯 Highlights
炼金术 vs 工程学
AI 开发常被比喻为炼金术:黑箱操作、不可复现。Jeff 提出应以工程思维构建可靠系统。
当前 AI 开发面临的主要挑战:
- 缺乏可复现性:相同输入可能产生不同输出
- 黑箱操作:难以理解模型内部工作原理
- 依赖直觉:开发者凭经验而非系统化方法调整参数
工程化解决方案的核心是建立可测量、可优化、可预测的系统。
上下文腐烂现象
模型上下文越长,性能反而下降。Chroma 报告揭示主流模型在长上下文下的衰减趋势。
上下文腐烂的主要表现:
- 注意力分散:模型难以在长文本中保持对关键信息的关注
- 信息稀释:重要信息被大量无关内容淹没
- 位置偏差:模型倾向于关注上下文开头和结尾的内容
研究表明,当上下文长度超过一定阈值后,模型性能会显著下降,这种现象被称为“上下文腐烂”。
聚焦检索基础设施
Chroma 专注于构建现代化、AI 原生的检索系统,强调语义理解、并发性能、开发者友好性。
现代化检索基础设施的关键特性:
- 语义理解:超越关键词匹配,理解内容含义
- 高并发性能:支持大规模实时检索需求
- 开发者友好:提供简洁直观的 API 和工具
- 模块化设计:允许灵活组合不同检索策略
Chroma 的设计理念是构建AI 原生的检索系统,而非简单地将传统检索技术应用于 AI 场景。
RAG 的批判与上下文工程的提出
RAG 概念混淆检索、增强、生成。上下文工程强调信息选择与系统学习两个循环。
RAG 的局限性:
- 概念模糊:检索、增强、生成三个环节界限不清
- 过度依赖向量检索:忽视其他有效的检索方法
- 缺乏系统性:未形成完整的工程方法论
上下文工程的核心是建立两个关键循环:
- 信息选择循环:如何从海量信息中筛选出最相关的内容
- 系统学习循环:如何基于反馈持续优化检索策略
两阶段检索策略
第一阶段粗筛:向量搜索 + 关键词匹配。第二阶段精排:用大模型重排序,选出最相关内容。
两阶段检索的技术实现:
# 第一阶段:粗筛
def coarse_search(query, collection, limit=100):
# 向量搜索
vector_results = collection.vector_search(query, limit=limit//2)
# 关键词匹配
keyword_results = collection.keyword_search(query, limit=limit//2)
# 合并结果
return merge_and_deduplicate(vector_results, keyword_results)
# 第二阶段:精排
def fine_rank(query, candidates, limit=10):
# 使用大模型重排序
reranked = llm_rerank(query, candidates)
# 返回最相关的内容
return reranked[:limit]
这种策略结合了效率与精确度,能够在保证检索质量的同时控制计算成本。
生成式基准测试方法论
用大模型自动生成问题-答案对,构建黄金数据集。实现系统性能的量化评估与迭代优化。
生成式基准测试的流程:
- 使用大模型基于文档内容生成多样化问题
- 为每个问题生成高质量参考答案
- 构建黄金数据集(问题-答案对)
- 使用该数据集评估检索系统性能
- 基于评估结果迭代优化系统
这种方法的优势在于能够自动化、规模化地生成评估数据,显著提高开发效率。
📺 延伸视频推荐
-
【人工智能】RAG已死,上下文工程永存| Chroma CEO Jeff …
深度访谈原视频,完整呈现 Jeff 的技术哲学与产品理念。
-
Long Live Context Engineering – with Jeff Huber of Chroma
英文原版播客,涵盖 Chroma Cloud、Agent 学习、代码索引等关键话题。
-
冒死上传!已经替大家付费了,花19980买的AI大模型RAG系统 …
展示市面上典型 RAG 系统的实际表现,帮助理解其局限性。
-
肝了6个月的AudioLLM,开源了【100亿模型计划】
展现另一种 AI 模型开发路径,对比 Chroma 的工程化思路。
-
【人工智能】什么是上下文工程Context Engineering | 上下文 …
专注讲解上下文工程的概念与实践,适合入门理解。
-
OpenAI 的RAG 范例,无需向量化
展示 OpenAI 的 RAG 实践案例,与 Chroma 的理念形成对照。