Prompt Engineering与Context Engineering:2025年8月最新研究进展

Prompt Engineering与Context Engineering:2025年8月最新研究进展

Prompt Engineering与Context Engineering:2025年8月最新研究进展

基于arXiv的最新学术论文精选

Prompt Engineering(提示工程)主要关注如何设计和优化输入提示,以引导大型语言模型(LLM)生成期望的输出。

Context Engineering(上下文工程)是Prompt Engineering的演进,更强调为LLM提供完整的上下文环境,包括任务描述、示例、相关数据、工具、状态和历史等,以便LLM能够更好地理解和执行任务。

“我更喜欢’上下文工程’而非’提示工程’这个术语。它更好地描述了核心技能:为任务提供所有上下文,使LLM能够合理解决任务的艺术。”
— Shopify CEO Tobi Lutke
“在每一个工业级LLM应用中,上下文工程是用恰到好处的信息填充上下文窗口的精细艺术和科学。”
— Andrej Karpathy

lightbulb Prompt Engineering 最新进展

SSRL: Self-Search Reinforcement Learning

作者:Yuchen Fan 等 | 发布日期:2025年8月14日

我们调查了大型语言模型(LLMs)作为强化学习(RL)中代理搜索任务的高效模拟器的潜力,从而减少对昂贵外部搜索引擎交互的依赖。我们介绍了Self-Search RL (SSRL),它通过基于格式和基于规则的奖励来增强LLMs的Self-Search能力。

link查看论文

Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition

作者:Feiran Li 等 | 发布日期:2025年8月14日

我们介绍了在DataCV ICCV挑战中的方法,该挑战聚焦于构建高质量面部数据集来训练面部识别模型。我们使用Stable Diffusion与提示工程生成合成身份,并采用课程学习策略来处理合成身份之间的高视觉相似性。

link查看论文

Bridging Solidity Evolution Gaps: An LLM-Enhanced Approach

作者:Likai Ye 等 | 发布日期:2025年8月14日

我们对Solidity版本演进中的挑战进行了实证研究,发现81.68%的检查合约在不同版本编译时遇到错误。我们引入了SMCFIXER,一个系统集成专家知识检索与基于LLM修复机制的框架,用于Solidity编译错误解决。

link查看论文

public Context Engineering 最新进展

WideSearch: Benchmarking Agentic Broad Info-Seeking

作者:Ryan Wong 等 | 发布日期:2025年8月12日

我们引入了WideSearch,一个新基准,用于评估代理在大规模收集任务上的可靠性。该基准具有200个手动策展的问题,来自超过15个多样化领域。大多数系统整体成功率接近0%,最佳表现者仅达到5%。

link查看论文

Phoenix: A Novel Context-Aware Voice-Powered Math Equation Workspace

作者:Kenneth Ge 等 | 发布日期:2025年8月12日

我们呈现了一个新型语音驱动的数学工作空间,应用神经科学洞见创建一个直观的解决问题环境。为了最小化认知负载,我们利用大型语言模型与我们的新型上下文引擎支持自然语言交互。

link查看论文

Context Engineering for Multi-Agent LLM Code Assistants

作者:Muhammad Haseeb | 发布日期:2025年8月9日

我们提出了一种新型上下文工程工作流,结合多个AI组件:意图翻译器、基于Elicit的语义文献检索、基于NotebookLM的文档合成,以及Claude Code多代理系统用于代码生成和验证。

link查看论文

结论与展望

从最新研究进展可以看出,Prompt Engineering正在向Context Engineering演进,强调为LLM提供更全面、结构化的上下文环境。多代理系统、上下文感知技术和熵工程等创新方法正在推动这两个领域的发展。

未来,Context Engineering将继续成为AI开发者和工程师的重要技能集合,特别是在复杂任务处理、多模态交互和大规模信息检索方面。随着LLM能力的不断提升,上下文管理技术也将变得更加精细和高效。


Prompt Engineering最新进展论文

Prompt Engineering 最新进展论文

2025年8月arXiv精选研究

SSRL: Self-Search Reinforcement Learning

people 作者:Yuchen Fan, Kaiyan Zhang, Heng Zhou等
event 发布日期:2025年8月14日

我们调查了大型语言模型(LLMs)作为强化学习(RL)中代理搜索任务的高效模拟器的潜力,从而减少对昂贵外部搜索引擎交互的依赖。我们介绍了Self-Search RL (SSRL),它通过基于格式和基于规则的奖励来增强LLMs的Self-Search能力,使模型能够迭代地内部细化其知识利用,而无需访问外部工具。

link查看论文

Hybrid Generative Fusion for Efficient Face Recognition

people 作者:Feiran Li, Qianqian Xu, Shilong Bao等
event 发布日期:2025年8月14日

我们介绍了在DataCV ICCV挑战中的方法,该挑战聚焦于构建高质量面部数据集来训练面部识别模型。我们使用Stable Diffusion与提示工程生成合成身份,并采用课程学习策略来处理合成身份之间的高视觉相似性。这种混合方法融合了基于GAN和基于扩散的样本,使高效构建多样化和高质量数据集成为可能。

link查看论文

Bridging Solidity Evolution Gaps: An LLM-Enhanced Approach

people 作者:Likai Ye, Mengliang Li, Dehai Zhao等
event 发布日期:2025年8月14日

我们对Solidity版本演进中的挑战进行了实证研究,发现81.68%的检查合约在不同版本编译时遇到错误。我们引入了SMCFIXER,一个系统集成专家知识检索与基于LLM修复机制的框架,用于Solidity编译错误解决。该架构包括上下文感知代码切片、专家知识检索和迭代补丁生成三个核心阶段。

link查看论文

MCP2OSC: Parametric Control by Natural Language

people 作者:Yuan-Yi Fan
event 发布日期:2025年8月14日

文本提示使直观的内容创建成为可能,但可能在实现复杂任务的高精度方面不足。我们提出了一个新的MCP(模型上下文协议)服务器和一套独特的提示设计准则,以通过自然语言提示探索参数OSC(OpenSoundControl)控制。MCP2OSC通过利用LLM处理复杂OSC开发任务来增强人机协作。

link查看论文

Inductive Bias Extraction and Matching for LLM Prompts

people 作者:Christian M. Angel, Francis Ferraro
event 发布日期:2025年8月13日

提示工程这一活跃研究主题表明,大型语言模型(LLM)对提示词语的小变化非常敏感。通过将LLM的输出作为其提示的一部分,我们可以更容易地创建与模型归纳偏差匹配的提示。从经验上讲,使用这种归纳偏差提取和匹配策略可以将用于分类的LLM Likert评级提高高达19%,并将用于排名的LLM Likert评级提高高达27%。

link查看论文

Context Engineering最新进展论文

Context Engineering 最新进展论文

2025年8月arXiv精选研究

WideSearch: Benchmarking Agentic Broad Info-Seeking

people 作者:Ryan Wong, Jiawei Wang, Junjie Zhao等
event 发布日期:2025年8月12日

我们引入了WideSearch,一个新基准,用于评估代理在大规模收集任务上的可靠性。该基准具有200个手动策展的问题,来自超过15个多样化领域。大多数系统整体成功率接近0%,最佳表现者仅达到5%。然而,给定足够的时间,交叉验证由多个人类测试者可以达到近100%的成功率。

link查看论文

Phoenix: A Novel Context-Aware Voice-Powered Math Equation Workspace

people 作者:Kenneth Ge, Ryan Paul, Priscilla Zhang等
event 发布日期:2025年8月12日

我们呈现了一个新型语音驱动的数学工作空间,应用神经科学洞见创建一个直观的解决问题环境。为了最小化认知负载,我们利用大型语言模型与我们的新型上下文引擎支持自然语言交互。最终,我们为精细运动残疾(FMD)个体启用流畅的数学参与——摆脱机械约束。

link查看论文

Context Engineering for Multi-Agent LLM Code Assistants

people 作者:Muhammad Haseeb
event 发布日期:2025年8月9日

我们提出了一种新型上下文工程工作流,结合多个AI组件:意图翻译器(GPT-5)用于澄清用户需求、基于Elicit的语义文献检索用于注入领域知识、基于NotebookLM的文档合成用于上下文理解,以及Claude Code多代理系统用于代码生成和验证。我们的集成方法显著提高了代码助手在真实世界仓库中的准确性和可靠性。

link查看论文

MASteer: Multi-Agent Adaptive Steer Strategy for LLM Trustworthiness

people 作者:Changqing Li, Tianlin Li, Xiaohan Zhang等
event 发布日期:2025年8月9日

我们提出MASteer,第一个基于表示工程的端到端LLM可信度修复框架。MASteer集成了两个核心组件:AutoTester,一个多代理系统,生成多样化、高质量的引导样本;和AutoRepairer,使用锚向量构建适应性引导策略,用于推理期间的自动化、上下文感知策略选择。

link查看论文

BEE-RAG: Balanced Entropy Engineering for Retrieval-Augmented Generation

people 作者:Yuhao Wang, Ruiyang Ren, Yucheng Wang等
event 发布日期:2025年8月7日

随着大型语言模型(LLMs)的快速进步,检索增强生成(RAG)已成为补充LLMs固有知识限制的关键方法。我们提出了平衡熵工程RAG(BEE-RAG)框架,通过熵不变原理提高RAG系统对变化上下文长度的适应性。通过利用平衡上下文熵来重构注意力动态,BEE-RAG将注意力敏感性与上下文长度分离,确保稳定的熵水平。

link查看论文

结论与展望

结论与展望

Prompt Engineering与Context Engineering的发展趋势

trending_up 最新发展趋势

auto_awesome 系统化与自动化

Prompt Engineering正向更系统化、自动化的方向发展,如SSRL中的自我搜索强化学习方法,以及归纳偏差提取和匹配技术,减少对外部工具的依赖。

hub 多模态与多代理协同

Context Engineering强调多模态、多代理系统的协同工作,如WideSearch基准和MASteer框架所示,通过多代理协作解决复杂任务。

integration_instructions 实际应用与系统集成

两个领域都越来越注重实际应用和系统集成,如MCP2OSC和Phoenix项目所示,将技术应用于具体场景,解决实际问题。

rocket_launch 未来发展方向

balance

更智能的上下文管理和优化技术,如BEE-RAG中的平衡熵工程方法,通过熵不变原理提高RAG系统对变化上下文长度的适应性。

groups

多代理系统的协同工作将成为Context Engineering的重要研究方向,通过专业化分工和协作提高任务完成质量和效率。

domain

Prompt Engineering将更加注重与特定领域的结合,如智能合约开发和数学方程编辑,提供针对特定场景优化的解决方案。

merge_type

两个领域的融合将产生更强大、更灵活的AI系统,能够更好地理解和执行复杂任务,减少幻觉并提高可靠性。

menu_book 参考文献与致谢

所有论文链接均可在arXiv上获取。本文基于2025年8月中旬发布的最新论文精选,旨在提供Prompt Engineering和Context Engineering领域的全新视角。论文内容经过精心筛选和翻译,确保准确反映原文核心观点。

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾