2025年8月20日Prompt Engineering和Context Engineering最新进展论文中文摘要

Prompt Engineering(提示工程)和Context Engineering(上下文工程)领域的最新学术论文进展。此次精选聚焦于8月15日后新发布的论文,以提供全新视角,避免重复先前内容。

Prompt Engineering 最新进展论文

  1. 标题: Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications
    作者: Haolin Jin
    发布日期: 2025年8月17日
    中文摘要: 大型语言模型(LLMs)已成为软件开发中的必需工具,广泛用于需求工程、代码生成和审查任务。软件工程师经常依赖LLMs来评估系统代码实现是否完全满足任务要求,从而提升代码的鲁棒性和准确性。然而,LLMs是否能够可靠地确定代码是否完全符合给定的任务描述(通常是自然语言规范)仍不清楚。在本文中,我们揭示了LLMs在评估代码是否符合自然语言要求方面的系统性失败。具体而言,使用广泛使用的基准,我们采用统一的提示来判断代码的正确性。我们的结果显示,LLMs经常将正确的代码实现错误分类为「不满足要求」或「包含潜在缺陷」。令人惊讶的是,更复杂的提示,特别是利用涉及解释和提议更正的提示工程技术,会导致更高的误判率,这突显了使用LLMs作为代码审查助手的可靠性问题。我们进一步分析了这些误判的根本原因,并提出了两种改进的提示策略以缓解问题。我们首次揭示了LLMs在匹配代码与要求方面的未被认识的局限性。我们还提供了有效使用LLMs在自动化代码审查和任务导向代理场景中的新见解和实际指导。
    链接: https://arxiv.org/abs/2508.12358
  2. 标题: Rethinking Autonomy: Preventing Failures in AI-Driven Software Engineering
    作者: Joydeep Chandra
    发布日期: 2025年8月15日
    中文摘要: 大型语言模型(LLMs)集成到软件工程中彻底改变了代码生成,通过提示工程和自治AI代理实现了前所未有的生产力。然而,这种转变引入了重大风险,包括不安全的代码生成、幻觉输出、不可逆转的操作以及缺乏透明度和问责制。像Replit数据库删除这样的事件突显了对鲁棒安全和治理机制的迫切需求。本文全面分析了LLM辅助代码生成的固有挑战,例如漏洞继承、过度信任、误解以及缺乏标准化的验证和回滚协议。为了解决这些问题,我们提出了SAFE-AI框架,这是一种强调安全、可审计性、反馈和可解释性的整体方法。该框架集成了防护栏、沙箱、运行时验证、风险感知日志、人机协作系统和可解释AI技术,以缓解风险同时促进信任和合规。我们引入了一种新型的AI行为分类法,将建议性、生成性、自治性和破坏性行为分类,以指导风险评估和监督。此外,我们识别了开放问题,包括缺乏针对代码特定幻觉和自治水平的标准化基准,并提出了未来研究方向,包括混合验证、语义防护栏和主动治理工具。通过对自治控制、提示工程、可解释性和治理框架的详细比较,本文为软件工程中负责任的AI集成提供了路线图,与欧盟AI法案和加拿大AIDA等新兴法规保持一致,确保安全、透明和问责的AI驱动开发。
    链接: https://arxiv.org/abs/2508.11824
  3. 标题: Illuminating LLM Coding Agents: Visual Analytics for Deeper Understanding and Enhancement
    作者: Junpeng Wang
    发布日期: 2025年8月18日
    中文摘要: 由大型语言模型(LLMs)驱动的编码代理通过迭代问题解决和最小人类参与实现了代码生成的自动化。尽管各种框架(如LangChain、AutoML和AIDE)涌现,但机器学习科学家仍然难以有效审查和调整代理的编码过程。目前手动检查单个输出的方法效率低下,难以跟踪代码演进、比较编码迭代并识别改进机会。为了解决这一挑战,我们引入了一个视觉分析系统,旨在增强对编码代理行为的检查。聚焦于AIDE框架,我们的系统支持三个级别的比较分析:(1)代码级分析,揭示代理如何在迭代中调试和细化其代码;(2)过程级分析,对比代理探索的不同求解过程;(3)LLM级分析,突出不同LLM之间的编码行为差异。通过整合这些视角,我们的系统使机器学习科学家能够获得代理行为的结构化理解,促进更有效的调试和提示工程。通过使用编码代理处理流行Kaggle竞赛的案例研究,我们展示了我们的系统如何为迭代编码过程提供宝贵见解。
    链接: https://arxiv.org/abs/2508.12555
  4. 标题: Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery
    作者: Sungbin Lim
    发布日期: 2025年8月18日
    中文摘要: 基于排序的方法用于因果发现识别因果图的拓扑顺序,提供了组合搜索方法的可扩展替代方案。在加性噪声模型(ANM)假设下,最近基于分数匹配的因果排序方法需要准确估计对数密度的Hessian对角线。然而,先前的方法主要使用Stein梯度估计器,这在计算和内存方面都很昂贵。虽然DiffAN通过用扩散模型替换基于内核的估计来解决这些限制,但由于分数模型的二阶导数,它仍然在数值上不稳定。为了缓解这些问题,我们提出了分数信息神经算子(SciNO),这是一种在平滑函数空间中的概率生成模型,旨在稳定地逼近Hessian对角线并在分数建模期间保留结构信息。实证结果显示,SciNO在合成图上将顺序发散减少了42.7%,在真实世界数据集上平均减少了31.5%,同时保持内存效率和可扩展性。此外,我们提出了一种用于自回归模型的概率控制算法,用于因果推理,该算法将SciNO的概率估计与自回归模型先验集成,从而实现由语义信息指导的可靠数据驱动因果排序。因此,所提出的方法增强了LLMs的因果推理能力,而无需额外的微调或提示工程。
    链接: https://arxiv.org/abs/2508.12650
  5. 标题: jXBW: Fast Substructure Search in Large-Scale JSONL Datasets for Foundation Model Applications
    作者: Yasuo Tabei
    发布日期: 2025年8月18日
    中文摘要: 在JSON Lines(JSONL)数据集中的子结构搜索对于现代应用如基础模型中的提示工程至关重要,但现有方法由于详尽的树遍历和子树匹配而遭受禁止性的计算成本。我们呈现了jXBW,一种用于大规模JSONL数据集的快速子结构搜索方法。我们的方法做出了三个关键技术贡献:(i)通过合并多个JSON对象的树而构建的合并树表示,同时保留个别身份;(ii)基于扩展Burrows-Wheeler变换的简洁数据结构,能够高效的树导航和子路径搜索;(iii)高效的三步子结构搜索算法,结合路径分解、祖先计算和自适应树标识符收集,以确保正确性同时避免详尽的树遍历。在真实世界数据集上的实验评估显示,jXBW始终优于现有方法,在较小数据集上实现了16倍的加速,在较大数据集上实现了高达4,700倍的加速,与基于树的接近相比,同时在内存使用方面保持竞争力。
    链接: https://arxiv.org/abs/2508.12536

Context Engineering 最新进展论文

  1. 标题: Systematic Analysis of MCP Security
    作者: Yongjian Guo
    发布日期: 2025年8月18日
    中文摘要: 模型上下文协议(MCP)已成为一个通用标准,使AI代理能够无缝连接外部工具,显著增强其功能性。然而,虽然MCP带来了显著益处,但它也引入了重大漏洞,例如工具中毒攻击(TPA),其中隐藏的恶意指令利用大型语言模型(LLMs)的奉承特性来操纵代理行为。尽管存在这些风险,但当前关于MCP安全的学术研究仍有限,大多数研究聚焦于狭窄或定性的分析,无法捕捉真实世界威胁的多样性。为了填补这一空白,我们呈现了MCP攻击库(MCPLIB),它将31种不同的攻击方法分类为四个关键类别:直接工具注入、间接工具注入、恶意用户攻击和LLM固有攻击。我们进一步对每种攻击的有效性进行了定量分析。我们的实验揭示了MCP漏洞的关键见解,包括代理对工具描述的盲目依赖、对基于文件的攻击的敏感性、利用共享上下文的链攻击,以及区分外部数据与可执行命令的困难。这些见解通过攻击实验得到验证,突显了对鲁棒防御策略和知情MCP设计的紧迫性。我们的贡献包括1)构建全面的MCP攻击分类法,2)引入统一的攻击框架MCPLIB,以及3)进行实证漏洞分析以增强MCP安全机制。这项工作为MCP生态系统的安全演进提供了基础框架。
    链接: https://arxiv.org/abs/2508.12538
  2. 标题: Analyzing Information Sharing and Coordination in Multi-Agent Planning
    作者: Daniel Fried
    发布日期: 2025年8月18日
    中文摘要: 多代理系统(MASs)已在网络研究和软件工程等领域推动了大型语言模型(LLM)代理的边界。然而,长时域、多约束规划任务涉及对详细信息进行条件化和满足复杂的相互依赖约束,这对这些系统构成了挑战。在这项研究中,我们构建了一个基于LLM的MAS,用于代表这些挑战的旅行规划任务。我们评估了笔记本用于促进信息共享的影响,并评估了一个协调器代理以改善代理之间自由形式对话的协调。我们发现,笔记本将由于幻觉细节导致的错误减少了18%,而协调器指导MAS专注于并进一步减少特定子区域内的错误高达13.5%。结合两种机制,在TravelPlanner基准上实现了25%的最终通过率,比单代理基线的7.5%通过率绝对提高了17.5%。这些结果突显了结构化信息共享和反思协调作为LLM长时域规划MAS关键组件的潜力。
    链接: https://arxiv.org/abs/2508.12981
  3. 标题: Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks
    作者: Ruofan Lu
    发布日期: 2025年8月18日
    中文摘要: 由大型语言模型(LLMs)驱动的自治代理系统在自动化复杂任务方面展示了有前景的能力。然而,当前的评估主要依赖于成功率,而没有系统分析这些系统内的交互、通信机制和失败原因。为了桥接这一差距,我们呈现了一个包含34个代表性可编程任务的基准,旨在严格评估自治代理。使用此基准,我们评估了三种流行的开源代理框架结合两种LLM骨干,观察到大约50%的任务完成率。通过深入的失败分析,我们开发了一个三层失败原因分类法,与任务阶段对齐,突出了规划错误、任务执行问题和不正确的响应生成。基于这些见解,我们提出了可行动的改进,以增强代理的规划和自我诊断能力。我们的失败分类法以及缓解建议,为未来开发更鲁棒和有效的自治代理系统提供了实证基础。
    链接: https://arxiv.org/abs/2508.13143
  4. 标题: LinkAnchor: An Autonomous LLM-Based Agent for Issue-to-Commit Link Recovery
    作者: Abbas Heydarnoori
    发布日期: 2025年8月17日
    中文摘要: 问题到提交链接恢复在软件可追溯性中发挥重要作用,并改善项目管理。然而,它仍然是一个具有挑战性的任务。GitHub的一项研究显示,只有42.2%的问题正确链接到它们的提交。这突显了该领域进一步发展和研究的潜力。现有的研究采用了各种AI/ML-based方法,随着大型语言模型的最近发展,研究人员利用LLMs来解决这个问题。这些方法面临两个主要问题。首先,LLMs受限于有限的上下文窗口,无法摄入所有可用数据源,例如长提交历史、广泛的问题评论和大型代码仓库。其次,大多数方法在单个问题-提交对上操作;即,给定单个问题-提交对,它们确定提交是否解决该问题。这在包含数万个提交的真实世界仓库中迅速变得不切实际。为了解决这些限制,我们呈现了LinkAnchor,这是第一个专为问题到提交链接恢复设计的自治基于LLM的代理。LinkAnchor的懒惰访问架构使底层LLM能够访问软件的丰富上下文,跨越提交、问题评论和代码文件,而不会超过令牌限制,通过动态仅检索最相关的上下文数据。此外,LinkAnchor能够自动定位目标提交,而不是详尽评分每个可能的候选者。我们的评估显示,LinkAnchor在所有案例研究项目上的Hit@1分数比最先进的问题到提交链接恢复方法提高了60-262%。我们还公开发布了LinkAnchor作为一个即用工具,以及我们的复制包。LinkAnchor是为GitHub和Jira设计和测试的,并易于扩展到其他平台。
    链接: https://arxiv.org/abs/2508.12232
  5. 标题: TRACY: Benchmarking Execution Efficiency of LLM-Based Code Translation
    作者: Zhihao Gong
    发布日期: 2025年8月15日
    中文摘要: 自动代码翻译是现代软件开发中的基本任务。虽然大型语言模型(LLMs)的出现显著提高了代码翻译的正确性,但执行效率这一关键维度仍被忽略。为了解决这一差距,我们引入了TRACY,这是第一个旨在评估LLM翻译代码执行效率的全面基准。TRACY通过LLM驱动的两阶段管道构建:初始阶段生成一组压力测试以放大性能差异,随后是效率导向的任务修剪阶段,隔离效率区分任务。结果基准包括跨越C++、Java和Python的1,011个代码翻译任务,每个任务伴随着平均22.1个验证参考翻译和10个计算密集型测试。我们对26个代表性LLMs的广泛评估揭示,即使顶级LLMs也难以一致产生高效的代码翻译。例如,Claude-4-think作为正确性的领先模型,当考虑时间效率时整体排名第八,被几个较小的开源模型超越。我们进一步指出,算法缺陷和不当资源处理是最有害的,分别导致中位时间减慢5.6倍和内存增加12.0倍。我们的工作强调了在未来LLM-based代码翻译中联合优化正确性和效率的必要性。
    链接: https://arxiv.org/abs/2508.11468

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾