上下文工程：核心概念、设计方案与模型表现分析

上下文工程是围绕大语言模型（LLM）的输入输出过程，系统性地设计和优化上下文信息，以提升模型性能。与提示词工程相比，上下文工程更注重系统化的信息架构，而非单一的措辞优化。

上下文工程在LLM应用中的位置

写入

选取

压缩

隔离

大语言模型 (LLM)

输出结果

系统性优化上下文信息，提升模型性能

适用于长文本生成和AI Agent任务

不同模型在上下文处理上表现各异

结合RAG与MCP技术增强效果

上下文工程的核心概念

写入 (Write)

将信息转化为模型可理解的格式，确保输入信息的结构化和标准化。

使用标准化模板

明确任务目标与约束条件

选取 (Select)

从海量信息中筛选与任务最相关的内容，提高上下文的相关性和准确性。

应用RAG技术

优先选择权威来源

压缩 (Compress)

在上下文窗口限制下压缩信息，保留关键内容，优化模型处理效率。

使用语义压缩技术

保留核心论点和结论

隔离 (Isolate)

避免不同任务或信息之间的干扰，确保各任务上下文清晰独立。

分配独立上下文窗口

使用MCP技术

上下文设计方案

写入

将用户需求转化为结构化输入格式

选取

从海量信息中筛选相关内容

压缩

在上下文窗口限制下精简信息

隔离

避免不同任务间的信息干扰

写入 (Write)

使用标准化模板，确保输入信息包含任务目标、背景信息和约束条件。

任务：生成一篇关于[主题]的文章，长度为[字数]，风格为[风格]
背景信息：[相关领域知识或上下文]
约束条件：[语气、受众、关键词等]

选取 (Select)

使用RAG技术从外部知识库中检索相关信息，优先选择权威来源。

从学术论文、新闻文章中检索相关信息
优先选择权威来源（arXiv论文、IEEE文章）
工具：向量数据库（Pinecone）或语义搜索工具

压缩 (Compress)

在模型上下文窗口（如4k或8k tokens）限制下，精简信息但保留核心内容。

使用语义压缩技术，如摘要生成或关键词提取
将5000字论文压缩为200字摘要，保留关键论点
工具：Hugging Face的预训练模型（BART或T5）

隔离 (Isolate)

确保不同任务或信息流之间互不干扰，保持上下文清晰。

为每个任务分配独立的上下文窗口
使用MCP技术，通过元标签区分不同任务
工具：JSON或XML格式存储上下文，方便隔离调用

应用示例：生成」人工智能伦理」文章

假设任务是生成一篇关于」人工智能伦理」的长篇文章，通过四步法实现：

写入：用户提供任务描述，转化为结构化模板，明确文章长度、风格和约束条件

选取：通过RAG检索3个相关案例（Google、Clearview AI、Amazon Rekognition）

压缩：将案例资料压缩为简短摘要，融入文章大纲

隔离：将文章生成任务与用户后续提问分开处理，确保上下文清晰

不同模型在上下文处理上的表现分析

GPT-4

OpenAI

128k tokens

优势

超长上下文支持 | RAG集成友好 | 通用性强

局限

可能遗漏细节 | 多任务隔离需外部支持

适用场景

长文本生成通用RAG应用需大量背景信息

Claude 3

Anthropic

200k tokens

优势

处理结构化上下文 | 多任务隔离支持好 | 学术性强

局限

RAG集成需优化 | 生成速度较慢

适用场景

学术性长文多任务并行逻辑严密任务

Grok 3

xAI

未知

优势

复杂任务设计 | DeepSearch模式 | 实时搜索

局限

公开信息较少 | 实际表现待验证

适用场景

探索性任务实时搜索Agent 动态任务处理

模型选择建议

长文本生成
推荐 Claude 3

动态Agent任务
推荐 Grok 3

通用RAG应用
推荐 GPT-4

技术背景补充：RAG与MCP

RAG

Retrieval-Augmented Generation

结合检索系统和生成模型，从外部知识库检索相关信息并融入生成过程，增强上下文的准确性和丰富性。

增强上下文的准确性和丰富性

适合需要大量外部数据的任务

减少模型幻觉，提高回答可靠性

支持实时信息更新和专业知识整合

MCP

Multi-Context Processing

通过并行处理多个上下文流，支持多任务或多用户场景，AI Agent在对话、任务切换时保持上下文清晰。

支持多任务并行处理

保持任务间上下文隔离

提高AI Agent的对话连贯性

优化复杂场景下的任务切换

实现工具

LangChain

LlamaIndex

FAISS

自定义框架

进一步学习建议

视频资源

YouTube上的」LangChain RAG Tutorial」或」Anthropic』s Claude Context Engineering Guide」

技术文档

Hugging Face文档、arXiv论文搜索」Context Engineering in Large Language Models」

实践项目

用LangChain构建RAG系统，结合Grok 3 API实现多任务Agent

示例论文

Retrieval-Augmented Generation for LLMs (arXiv:2305.06974)

总结

上下文工程通过四步法（写入、选取、压缩、隔离）系统性地设计和优化上下文信息，结合RAG和MCP技术，为构建高效、稳定的AI Agent提供了基础。不同模型在上下文处理能力上各有优势，根据任务需求选择合适的模型和技术方案，能够显著提升AI应用的性能和用户体验。

上下文工程：核心概念、设计方案与模型表现分析

上下文工程在LLM应用中的位置

上下文工程的核心概念

写入 (Write)

选取 (Select)

压缩 (Compress)

隔离 (Isolate)

上下文设计方案

写入

选取

压缩

隔离

写入 (Write)

选取 (Select)

压缩 (Compress)

隔离 (Isolate)

应用示例：生成」人工智能伦理」文章

不同模型在上下文处理上的表现分析

GPT-4

Claude 3

Grok 3

模型选择建议

技术背景补充：RAG与MCP

RAG

MCP

build 实现工具

school 进一步学习建议

视频资源

技术文档

实践项目

示例论文

summarize 总结

发表评论 取消回复

实现工具

进一步学习建议

总结

发表评论取消回复