【2025年8月20日】Prompt Engineering和Context Engineering最新进展论文中文摘要

此次精选聚焦于8月18日后新发布的论文,以提供全新视角,避免重复先前内容。

Prompt Engineering 最新进展论文

  1. 标题: OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
    作者: Pranjal Aggarwal
    发布日期: 2025年8月18日
    中文摘要: 思考型大型语言模型(LLMs)在解决复杂任务时会增加计算量,并在简单问题上过度思考,而非思考型LLMs虽然更快更廉价,但在更难的推理问题上会欠思考。这导致了单独的思考型和非思考型LLM变体的开发,将选择最佳模型的负担留给了终端用户。在这项工作中,我们引入了OptimalThinkingBench,这是一个统一基准,用于联合评估LLMs的过度思考和欠思考,并鼓励开发平衡性能和效率的最优思考模型。我们的基准包括两个子基准:OverthinkingBench,包含72个领域的简单查询;以及UnderthinkingBench,包含11个具有挑战性的推理任务。我们使用新型的思考调整准确性指标,对33个不同的思考型和非思考型模型进行了广泛评估,结果显示没有模型能在我们的基准上实现最优思考。思考型模型经常在最简单的用户查询上过度思考数百个标记,而不改善性能。相反,大型非思考型模型会欠思考,通常落后于更小的思考型模型。我们进一步探索了几种鼓励最优思考的方法,但发现这些方法往往以牺牲一个子基准来改善另一个,突出了未来需要更好的统一和最优模型。
    链接: https://arxiv.org/abs/2508.13141
  2. 标题: HiFo-Prompt: Prompting with Hindsight and Foresight for LLM-based Automatic Heuristic Design
    作者: Chentong Chen
    发布日期: 2025年8月18日
    中文摘要: 我们引入了HiFo-Prompt,这是一个由后见和前见模块组成的框架。它根据种群动态自适应地生成提示,用于LLMs,通过管理探索-利用权衡来引导搜索。此外,后见提示通过从过去世代中提炼成功的启发式成基本、可重用的设计原则来模仿人类专家。这双重机制将瞬时发现转化为持久知识库,使LLM能够从自身经验中学习。实证结果表明,HiFo-Prompt显著优于最先进的基于LLM的AHD方法,生成更高质量的启发式,同时实现更快收敛和更高的查询效率。
    链接: https://arxiv.org/abs/2508.13333
  3. 标题: Using AI for User Representation: An Analysis of 83 Persona Prompts
    作者: Danial Amin
    发布日期: 2025年8月18日
    中文摘要: 我们分析了来自27篇使用大型语言模型(LLMs)生成用户角色的研究文章中的83个角色提示。结果显示,这些提示主要生成单个角色。几个提示表达了对简短或简洁角色描述的愿望,这偏离了创建丰富、信息丰富且全面角色档案的传统。文本是生成角色属性的最常见格式,其次是数字。文本和数字经常一起生成,几乎所有生成的角色都包括人口统计属性。研究人员在单一研究中使用多达12个提示,尽管大多数研究使用少量提示。比较和测试多个LLMs的情况很少见。超过一半的提示要求以结构化格式输出角色,如JSON,并且74%的提示插入数据或动态变量。我们讨论了计算角色在用户表示中增加使用的影响。
    链接: https://arxiv.org/abs/2508.13047
  4. 标题: Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies
    作者: Yiting Wang
    发布日期: 2025年8月18日
    中文摘要: 大型语言模型(LLMs)在自然语言处理和多模态理解中展示了显著能力。然而,它们的高计算成本、有限可访问性和数据隐私问题阻碍了它们在资源受限的医疗环境中采用。本研究调查了小型语言模型(SLMs)在医疗影像分类任务中的性能,比较不同模型和提示设计,以识别准确性和可用性的最优组合。使用NIH胸部X射线数据集,我们在三种提示策略下评估多个SLMs:基线指令、增量摘要提示和基于纠正的反思提示。我们的结果显示,某些SLMs在使用精心设计的提示时达到了竞争性的准确性,表明提示工程可以显著提升SLM在医疗保健应用中的性能,而无需终端用户具备深入的AI专业知识。
    链接: https://arxiv.org/abs/2508.13378
  5. 标题: Reinforced Context Order Recovery for Adaptive Reasoning and Planning
    作者: Long Ma
    发布日期: 2025年8月18日
    中文摘要: 现代因果语言模型,随着离散扩散模型的快速发展,现在可以产生各种有趣和有用的内容。然而,这些模型家族主要训练为输出固定(从左到右)或随机顺序的标记,这可能偏离标记最初生成的逻辑顺序。在本文中,我们观察到当前的因果和扩散模型在需要自适应标记生成顺序来易解的问题上遇到困难,我们用V-信息框架来表征这一点。受此启发,我们提出了Reinforced Context Order Recovery (ReCOR),一个无标注从文本数据中提取自适应、数据依赖标记生成顺序的强化学习框架。通过标记预测统计进行自监督,ReCOR估计预测每个未填充标记的难度,并在训练和推理期间自适应地选择下一个标记。在具有挑战性的推理和规划数据集上的实验表明,ReCOR比基线优越,有时优于使用地面真相顺序监督的oracle模型。
    链接: https://arxiv.org/abs/2508.13070

Context Engineering 最新进展论文

  1. 标题: Human Digital Twin: Data, Models, Applications, and Challenges
    作者: Rong Pan
    发布日期: 2025年8月18日
    中文摘要: 人类数字孪生(HDTs)是动态的、数据驱动的个体虚拟表示,通过多模态数据连续更新来模拟、监测和预测健康轨迹。通过整合临床、生理、行为和环境输入,HDTs实现了个性化诊断、治疗规划和异常检测。本文回顾了HDT建模的当前方法,重点关注统计和机器学习技术,包括异常检测和故障预测的最新进展。它还讨论了数据集成、计算方法以及在精密医疗中部署HDTs的伦理、技术和监管挑战。
    链接: https://arxiv.org/abs/2508.13138
  2. 标题: ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs
    作者: Eray Eren
    发布日期: 2025年8月12日
    中文摘要: 韵律传达了语音信号的丰富情感和语义信息以及个人特征。我们提出了一种独立模型,将文本映射到韵律特征,如F0和能量,并可用于下游任务,如TTS。ProMode编码器以声学特征和时间对齐的文本内容作为输入,两者均部分掩码,并获得固定长度的潜在韵律嵌入。解码器使用编码的韵律输入和未掩码文本内容预测掩码区域的声学特征。在GigaSpeech数据集上训练,我们将方法与最先进的风格编码器进行比较。对于F0和能量预测,我们在不同粒度级别显示了我们的模型的持续改进。我们还将这些预测的韵律特征集成到TTS系统中,并进行感知测试,结果显示比基线更高的韵律偏好,证明了该模型在韵律建模重要任务中的潜力。
    链接: https://arxiv.org/abs/2508.09389
  3. 标题: A Generative Imputation Method for Multimodal Alzheimer’s Disease Diagnosis
    作者: Reihaneh Hassanzadeh
    发布日期: 2025年8月12日
    中文摘要: 多模态数据分析由于每个模态添加的互补信息,可以导致更准确的脑部疾病诊断。然而,使用多模态数据集在神经影像领域的重大挑战是不完整数据,其中某些受试者缺少某些模态。因此,需要有效的策略来完成数据。传统方法,如子采样或零填充,可能会降低预测准确性或引入意外偏差。相反,生成模型等先进方法已成为没有这些限制的有前景解决方案。在这项研究中,我们提出了一种生成对抗网络方法,旨在从现有模态重建缺失模态,同时保留疾病模式。我们使用T1加权结构磁共振成像和功能网络连接作为两种模态。我们的发现显示,使用我们的生成插值方法在阿尔茨海默病与认知正常组的分类准确性比传统方法提高了9%。
    链接: https://arxiv.org/abs/2508.09271
  4. 标题: Inclusive Employment Pathways: Career Success Factors for Autistic Individuals in Software Engineering
    作者: Orvila Sarker
    发布日期: 2025年8月13日
    中文摘要: 研究突出了自闭症个体在信息和通信技术(ICT)部门,特别是软件开发、测试和网络安全领域的宝贵贡献。他们在信息处理、注意力细节、创新思维和高品质成果承诺方面的优势已被充分记录。然而,尽管有潜力,自闭症个体在软件工程(SE)角色中往往面临障碍,由于缺乏个性化工具、复杂工作环境、非包容性招聘实践、有限的同事支持、具有挑战性的社会动态等。受神经多样性运动的伦理框架和Dandelion程序等开创性举措的成功激励,ICT部门的DEI越来越关注自闭症人才。这一运动从根本上将挑战重新定义为不是个体缺陷,而是为神经典型多数设计的环境失败。尽管有这一进步,但没有综合知识报告从软件工程教育到可持续工作场所包容的完整路径。为了解决这一问题,我们对30项研究进行了系统综述,并识别了18个成功因素,分为四个主题类别:(1)软件工程教育,(2)职业和就业培训,(3)工作环境,以及(4)工具和辅助技术。我们的发现为教育机构、雇主、组织和工具开发者提供了基于证据的推荐,以提升自闭症个体在SE中的包容性。这些包括包容性会议和协作实践策略、可访问和结构化的工作环境、清晰的角色和责任定义,以及提供量身定制的工作场所住宿。
    链接: https://arxiv.org/abs/2508.09680
  5. 标题: Click, Watch, Learn: The Impact of Student Self-Study Materials on Physics E&M Course Outcomes
    作者: Tatiana Erukhimova
    发布日期: 2025年8月16日
    中文摘要: 入门课程,特别是物理课程的表现,往往对STEM专业的学生成功至关重要,并可能影响个体在所选领域的坚持。为了提升学生的个体学习体验,许多大学的教师努力开发开放访问的自学材料,以帮助构建概念理解和问题解决技能。德克萨斯A&M大学的教师贡献了这些努力,创建了超过200个在线视频资源和广泛的以往考试库供学生使用。本工作探讨并测量这些资源对入门级、基于微积分的电磁课程学生课程成果的影响。从2021-2023三个秋季学期收集数据,包括课堂表现、概念评估以及相关大学水平数据,以上下文化学生背景和课前能力。与先前研究类似,我们发现数学的相关先前准备是学生表现的最强预测因素,先前物理知识是较弱但统计显著的预测因素。学生对补充旧考试的使用是学生表现的第二高预测因素。第一代学生在考试中观察到平均表现略低。然而,回归模型中的交互项表明,使用补充旧考试的第一代学生能够缩小这一差距。通过匿名调查,学生对材料报告了温暖印象,超过80%的学生分享它们对课堂外学习有显著贡献,98%的学生表示会推荐给同伴。
    链接: https://arxiv.org/abs/2508.12143

发表评论

Only people in my network can comment.
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾