Prompt Engineering与Context Engineering:2025年8月最新研究进展
基于arXiv的最新学术论文精选
Prompt Engineering(提示工程)主要关注如何设计和优化输入提示,以引导大型语言模型(LLM)生成期望的输出。
Context Engineering(上下文工程)是Prompt Engineering的演进,更强调为LLM提供完整的上下文环境,包括任务描述、示例、相关数据、工具、状态和历史等,以便LLM能够更好地理解和执行任务。
— Shopify CEO Tobi Lutke
— Andrej Karpathy
lightbulb Prompt Engineering 最新进展
SSRL: Self-Search Reinforcement Learning
我们调查了大型语言模型(LLMs)作为强化学习(RL)中代理搜索任务的高效模拟器的潜力,从而减少对昂贵外部搜索引擎交互的依赖。我们介绍了Self-Search RL (SSRL),它通过基于格式和基于规则的奖励来增强LLMs的Self-Search能力。
link查看论文Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition
我们介绍了在DataCV ICCV挑战中的方法,该挑战聚焦于构建高质量面部数据集来训练面部识别模型。我们使用Stable Diffusion与提示工程生成合成身份,并采用课程学习策略来处理合成身份之间的高视觉相似性。
link查看论文Bridging Solidity Evolution Gaps: An LLM-Enhanced Approach
我们对Solidity版本演进中的挑战进行了实证研究,发现81.68%的检查合约在不同版本编译时遇到错误。我们引入了SMCFIXER,一个系统集成专家知识检索与基于LLM修复机制的框架,用于Solidity编译错误解决。
link查看论文public Context Engineering 最新进展
WideSearch: Benchmarking Agentic Broad Info-Seeking
我们引入了WideSearch,一个新基准,用于评估代理在大规模收集任务上的可靠性。该基准具有200个手动策展的问题,来自超过15个多样化领域。大多数系统整体成功率接近0%,最佳表现者仅达到5%。
link查看论文Phoenix: A Novel Context-Aware Voice-Powered Math Equation Workspace
我们呈现了一个新型语音驱动的数学工作空间,应用神经科学洞见创建一个直观的解决问题环境。为了最小化认知负载,我们利用大型语言模型与我们的新型上下文引擎支持自然语言交互。
link查看论文Context Engineering for Multi-Agent LLM Code Assistants
我们提出了一种新型上下文工程工作流,结合多个AI组件:意图翻译器、基于Elicit的语义文献检索、基于NotebookLM的文档合成,以及Claude Code多代理系统用于代码生成和验证。
link查看论文结论与展望
从最新研究进展可以看出,Prompt Engineering正在向Context Engineering演进,强调为LLM提供更全面、结构化的上下文环境。多代理系统、上下文感知技术和熵工程等创新方法正在推动这两个领域的发展。
未来,Context Engineering将继续成为AI开发者和工程师的重要技能集合,特别是在复杂任务处理、多模态交互和大规模信息检索方面。随着LLM能力的不断提升,上下文管理技术也将变得更加精细和高效。
Prompt Engineering 最新进展论文
2025年8月arXiv精选研究
SSRL: Self-Search Reinforcement Learning
我们调查了大型语言模型(LLMs)作为强化学习(RL)中代理搜索任务的高效模拟器的潜力,从而减少对昂贵外部搜索引擎交互的依赖。我们介绍了Self-Search RL (SSRL),它通过基于格式和基于规则的奖励来增强LLMs的Self-Search能力,使模型能够迭代地内部细化其知识利用,而无需访问外部工具。
link查看论文Hybrid Generative Fusion for Efficient Face Recognition
我们介绍了在DataCV ICCV挑战中的方法,该挑战聚焦于构建高质量面部数据集来训练面部识别模型。我们使用Stable Diffusion与提示工程生成合成身份,并采用课程学习策略来处理合成身份之间的高视觉相似性。这种混合方法融合了基于GAN和基于扩散的样本,使高效构建多样化和高质量数据集成为可能。
link查看论文Bridging Solidity Evolution Gaps: An LLM-Enhanced Approach
我们对Solidity版本演进中的挑战进行了实证研究,发现81.68%的检查合约在不同版本编译时遇到错误。我们引入了SMCFIXER,一个系统集成专家知识检索与基于LLM修复机制的框架,用于Solidity编译错误解决。该架构包括上下文感知代码切片、专家知识检索和迭代补丁生成三个核心阶段。
link查看论文MCP2OSC: Parametric Control by Natural Language
文本提示使直观的内容创建成为可能,但可能在实现复杂任务的高精度方面不足。我们提出了一个新的MCP(模型上下文协议)服务器和一套独特的提示设计准则,以通过自然语言提示探索参数OSC(OpenSoundControl)控制。MCP2OSC通过利用LLM处理复杂OSC开发任务来增强人机协作。
link查看论文Inductive Bias Extraction and Matching for LLM Prompts
提示工程这一活跃研究主题表明,大型语言模型(LLM)对提示词语的小变化非常敏感。通过将LLM的输出作为其提示的一部分,我们可以更容易地创建与模型归纳偏差匹配的提示。从经验上讲,使用这种归纳偏差提取和匹配策略可以将用于分类的LLM Likert评级提高高达19%,并将用于排名的LLM Likert评级提高高达27%。
link查看论文Context Engineering 最新进展论文
2025年8月arXiv精选研究
WideSearch: Benchmarking Agentic Broad Info-Seeking
我们引入了WideSearch,一个新基准,用于评估代理在大规模收集任务上的可靠性。该基准具有200个手动策展的问题,来自超过15个多样化领域。大多数系统整体成功率接近0%,最佳表现者仅达到5%。然而,给定足够的时间,交叉验证由多个人类测试者可以达到近100%的成功率。
link查看论文Phoenix: A Novel Context-Aware Voice-Powered Math Equation Workspace
我们呈现了一个新型语音驱动的数学工作空间,应用神经科学洞见创建一个直观的解决问题环境。为了最小化认知负载,我们利用大型语言模型与我们的新型上下文引擎支持自然语言交互。最终,我们为精细运动残疾(FMD)个体启用流畅的数学参与——摆脱机械约束。
link查看论文Context Engineering for Multi-Agent LLM Code Assistants
我们提出了一种新型上下文工程工作流,结合多个AI组件:意图翻译器(GPT-5)用于澄清用户需求、基于Elicit的语义文献检索用于注入领域知识、基于NotebookLM的文档合成用于上下文理解,以及Claude Code多代理系统用于代码生成和验证。我们的集成方法显著提高了代码助手在真实世界仓库中的准确性和可靠性。
link查看论文MASteer: Multi-Agent Adaptive Steer Strategy for LLM Trustworthiness
我们提出MASteer,第一个基于表示工程的端到端LLM可信度修复框架。MASteer集成了两个核心组件:AutoTester,一个多代理系统,生成多样化、高质量的引导样本;和AutoRepairer,使用锚向量构建适应性引导策略,用于推理期间的自动化、上下文感知策略选择。
link查看论文BEE-RAG: Balanced Entropy Engineering for Retrieval-Augmented Generation
随着大型语言模型(LLMs)的快速进步,检索增强生成(RAG)已成为补充LLMs固有知识限制的关键方法。我们提出了平衡熵工程RAG(BEE-RAG)框架,通过熵不变原理提高RAG系统对变化上下文长度的适应性。通过利用平衡上下文熵来重构注意力动态,BEE-RAG将注意力敏感性与上下文长度分离,确保稳定的熵水平。
link查看论文结论与展望
Prompt Engineering与Context Engineering的发展趋势
trending_up 最新发展趋势
auto_awesome 系统化与自动化
Prompt Engineering正向更系统化、自动化的方向发展,如SSRL中的自我搜索强化学习方法,以及归纳偏差提取和匹配技术,减少对外部工具的依赖。
hub 多模态与多代理协同
Context Engineering强调多模态、多代理系统的协同工作,如WideSearch基准和MASteer框架所示,通过多代理协作解决复杂任务。
integration_instructions 实际应用与系统集成
两个领域都越来越注重实际应用和系统集成,如MCP2OSC和Phoenix项目所示,将技术应用于具体场景,解决实际问题。
rocket_launch 未来发展方向
更智能的上下文管理和优化技术,如BEE-RAG中的平衡熵工程方法,通过熵不变原理提高RAG系统对变化上下文长度的适应性。
多代理系统的协同工作将成为Context Engineering的重要研究方向,通过专业化分工和协作提高任务完成质量和效率。
Prompt Engineering将更加注重与特定领域的结合,如智能合约开发和数学方程编辑,提供针对特定场景优化的解决方案。
两个领域的融合将产生更强大、更灵活的AI系统,能够更好地理解和执行复杂任务,减少幻觉并提高可靠性。
menu_book 参考文献与致谢
所有论文链接均可在arXiv上获取。本文基于2025年8月中旬发布的最新论文精选,旨在提供Prompt Engineering和Context Engineering领域的全新视角。论文内容经过精心筛选和翻译,确保准确反映原文核心观点。