解读 ChatGPT 背后的技术密码：RLHF、IFT、CoT 如何协同打造智能对话体验？

引言：

近期，ChatGPT 横空出世，以其出色的对话能力和知识储备，迅速成为人工智能领域的焦点。其背后究竟隐藏着哪些技术奥秘？本文将深入浅出地解读 ChatGPT 的核心技术，包括 RLHF、IFT、CoT 等，并探讨这些技术如何协同工作，打造出令人惊艳的智能对话体验。

一、群雄逐鹿：AI 对话代理的现状

ChatGPT 并非横空出世，早在其之前，Meta、Google、DeepMind、Anthropic 等机构就已经推出了各自的语言模型对话代理，例如 BlenderBot、LaMDA、Sparrow、Assistant 等。这些对话代理都致力于实现「指令依从」，即根据用户指令完成任务。

然而，ChatGPT 的成功并非偶然，它在技术路线上有着独特之处。下表对目前主流的 AI 聊天机器人进行了比较：

	LaMDA	BlenderBot 3	Sparrow	ChatGPT / InstructGPT	Assistant
组织	Google	Meta	DeepMind	OpenAI	Anthropic
能否公开访问	否	能否有限	否	否	否
大小	137B	175B	70B	175B	52B
预训练基础模型	未知	OPT	Chinchilla	GPT-3.5	未知
…	…	…	…	…	…

二、从预测文本到遵循指令：指令微调 (IFT) 技术

传统的语言模型擅长预测文本，但要让其理解并执行用户指令，则需要进行「指令微调 (Instruction Fine-Tuning，IFT)」。IFT 的核心是向模型示范各种书面指令及其预期输出，例如：

指令：写一首关于微调的诗。
输出：... (ChatGPT 生成的诗歌)

IFT 的训练数据通常包括人工编写的指令和模型自举生成的实例。其中，自举指的是使用少样本技术，先输入少量样本引导模型，然后让模型自行生成新的指令、输入和输出，不断迭代优化。

三、安全护航：有监督微调 (SFT) 与安全规则

经过 IFT 的模型虽然能够理解指令，但生成的回复不一定安全无害。为了解决这个问题，开发者会使用「有监督微调 (Supervised Fine-tuning, SFT)」，利用高质量的人工标注数据，进一步提升模型回复的安全性。

例如，谷歌的 LaMDA 就根据一系列预先定义的安全规则进行微调，这些规则涵盖了伤害、歧视、错误信息等方面，确保模型的回复符合道德和安全规范。

四、更胜一筹：人类反馈强化学习 (RLHF)

为了进一步提升模型的性能，OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 Constitutional AI 都引入了「人类反馈强化学习 (Reinforcement Learning From Human Feedback，RLHF)」技术。

RLHF 的核心是根据人类的偏好对模型的回复进行排序，然后用这些带标注的数据训练偏好模型，最终通过强化学习优化对话代理。关于 RLHF 的更多细节，可以参考我们之前的文章：ChatGPT 背后的「功臣」——RLHF 技术详解。

五、逻辑推理：思维链 (CoT) 提示

「思维链 (Chain-of-thought，CoT) 提示」是 IFT 的一种特殊形式，它通过引导模型进行逐步推理来生成最终答案。例如：

指令：小明有 5 个苹果，小红给了他 3 个，小明现在有多少个苹果？
CoT 推理：小明最初有 5 个苹果，加上小红给的 3 个，总数是 5 + 3 = 8 个。
输出：小明现在有 8 个苹果。

使用 CoT 微调的模型在需要逻辑推理的任务上表现更出色，例如常识推理、算术计算、符号推理等。

六、展望未来：对话代理的进一步发展

尽管现有的技术已经取得了显著成果，但对话代理领域仍有许多问题亟待解决，例如：

RL 在人类反馈学习中的重要性？
如何系统评估红蓝对抗的效果？
如何选择最佳的基础模型？

相信随着技术的不断进步，对话代理将在未来展现出更加强大的能力，为人类带来更加智能、便捷的交互体验。

参考文献：

Rajani et al.,」What Makes a Dialog Agent Useful?」, Hugging Face Blog, 2023.

发表评论 取消回复

发表评论取消回复