🕵️‍♂️ LLM的自我救赎：从错误中吸取教训

大型语言模型（LLM）就像初入江湖的侠客，虽然身怀绝技（强大的语言能力），却也难免犯错。与人类用户的多轮交互过程中，LLM的错误往往会招致用户的“不满”，例如用户可能会重复指令、表达失望，甚至直接放弃当前任务。这些用户反馈就像武林高手的点拨，蕴含着宝贵的改进信息。试想，如果LLM能够理解这些“点拨”，并从中学习，岂不是可以不断精进，最终成为一代宗师？

本文将介绍一种名为RESPECT的方法，它能让LLM像武林高手一样，通过“反思”过去的交互，从错误中吸取教训，不断提升自身能力。我们将RESPECT应用于一个名为MULTIREF的多模态交互场景中，在这个场景里，人类指导LLM解决一个抽象推理任务。实验结果表明，RESPECT能够让LLM在数千次与人类的交互中，将任务完成率从31%提升到82%，而且完全不需要任何外部标注，就像一位侠客在实战中不断成长。

💡 反思之力：从交互中汲取隐式反馈

RESPECT的核心思想在于：对话中的隐式反馈信号就像武林秘籍，虽然形式多样，却蕴含着相对固定的规律。这些信号可以是直接的赞许（例如“太好了！”），也可以是失望的表达（例如“又错了！”），甚至可以是用户换一种方式重述请求。就像一位武林高手，即使不了解具体的任务，也能从这些细微的线索中判断LLM的表现。

RESPECT利用这些信号，让LLM像一位反思的侠客，回顾自己过去的交互，并从中解码出反馈信息。如图1所示，LLM与人类交互完成任务，然后回顾自己的交互历史，并根据用户的反馈重新训练自己。这个过程循环往复，LLM的能力也随之不断提升。与传统的训练方法不同，RESPECT不需要任何外部标注，也不需要用户主动提供反馈，就像一位侠客在实战中自我修炼。

                                 Deploy πθρ (a| x)
                                         |
                                         V
                                    Could you …
                                         |
                                         V
                                        ……
                                         |
                                         V
                                    Could you …
                                         |
                                         V
                                        ……
                                         |
                                         V
                                     Next …
                                         |
                                         V
                                        ……
                                         |
                                         V
                          Was my response good? <------------------
                                         |                       |
                                         | Retrospect            | Interactions
                                         |                       |
                                         V                       V
                          θρ+1 ← θρ  <---- Train on D≤ρ ------
                                         |
                                         V
                                   Performance

图1：RESPECT学习流程。LLM策略πθρ(a|x)在第ρ轮与用户进行多轮交互。每一轮结束后，LLM回顾自己的每一个动作（蓝色高亮），并根据交互上下文（包括后续话语）解码反馈。每一轮结束后，模型使用迄今为止收集的所有数据D≤ρ重新训练。LLM在没有任何外部标注的情况下性能不断提高。右图显示了实验中的性能曲线——LLM的任务完成率在六轮内从31%提高到82%。

🧩 MULTIREF：一个多轮交互的推理游戏

为了研究RESPECT的有效性，我们设计了一个名为MULTIREF的多轮交互场景，它要求模型展现复杂的抽象推理能力，而人类则需要逐步指导模型完成一系列目标。

MULTIREF是一个类似于“你画我猜”的游戏，如图2所示。说话者和聆听者都能看到一组七巧板形状，但顺序不同。说话者的目标是描述一个目标子集，让聆听者选中它们。由于目标需要多个抽象形状，人类通常需要多轮对话才能完成任务。在这个过程中，说话者会自然地产生隐式反馈信号，用于肯定或否定聆听者的行为。

+---+ +---+ +---+ +---+
| A | | B | | C | | D |
+---+ +---+ +---+ +---+
+---+ +---+ +---+ +---+
| E | | F | | G | | H |
+---+ +---+ +---+ +---+
+---+ +---+
| I | | J |
+---+ +---+

Targets: A E G I

A diamond head man without legs
Another diamond head man
No find another one with diamond head and triangle body and triangle leg
Select I
Select C
Deselect C Select G
……

图2：MULTIREF示例。说话者和聆听者都能看到一组七巧板形状，但顺序不同。说话者的目标是描述一个目标子集，让聆听者选中它们。

🔍 解码反馈：LLM的“读心术”

RESPECT的第一步是解码隐式反馈。我们通过提示LLM分析过去的交互元组(x, a, p, f¯)来计算反馈γˆ = ϕ(x, a, f¯)。我们的假设是，即使LLM在任务中失败，它也能够理解这些相对简单的隐式信号。就像一位武林高手，即使不了解具体的招式，也能从对手的反应中判断自己的攻击是否有效。图3展示了解码器提示。

Feedback Decoder Prompt
User: Please carefully read the following conversation and answer: Is the very last utterance from the speaker positive or negative positive, neutral, or negative feedback? Often negative feedback include corrections and keywords like no, not, undo, don’t, with generally negative sentiment, while positive feedback often includes good, yes, correct, okay, or simply move on to the next stage. Lean towards negative if it sounds neutral.
(start of the conversation)
Listener: Deselect F select G
Speaker: yes, pick the thin person with a triangle head
Listener: Select A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (Action to focus on)✅
Speaker: yes, pick the house with chimney . . . . . . . . . . . . . . . . . . . . . . . (Feedback)
(end of the conversation)
Answer a single word, Positive, or Negative Positive, Neutral or Negative.
Assistant: Positive

图3：用于从过去的交互中解码反馈的提示。该图结合了二元和三元反馈解码的提示。仅属于二元情况的部分用绿色着色，而属于三元情况的部分用橙色着色。模型生成的口头反馈以粗体显示。为了便于阅读，附加注释用洋红色斜体显示。

📚 学习之道：多种学习方法

RESPECT的第二步是学习。我们研究了多种学习方法，包括监督学习、强化学习和KTO效用最大化。

监督学习: 我们只用正面数据点 (γˆ(i) = positive) 进行微调，并丢弃被预测为中性或负面的数据点。
强化学习: 我们使用REINFORCE风格的策略梯度进行训练。
效用最大化: 我们使用Kahneman-Tversky优化 (KTO) 进行训练。

📊 实验结果：见证LLM的成长

我们在MULTIREF上进行了多轮实验，结果如图4所示。所有系统的交互成功率在最初几轮都单调递增，B-SUP（二元反馈+监督学习）的效果最佳，最终将交互成功率提升到了82%。

🔮 未来展望：持续学习之路

RESPECT提供了一种让LLM从交互中学习的方法，为构建更智能、更人性化的对话系统开辟了新的道路。未来，我们可以将RESPECT应用于更复杂的任务，例如摘要或问答，并探索更丰富的反馈解码方式。

参考文献:

Chen, Z. , Gul, M. O., Chen, Y., Geng, G., Wu, A., & Artzi, Y. (2024). Retrospective Learning from Interactions. ✅arXiv preprint arXiv:2410.13852.