解读 ChatGPT 背后的技术密码:RLHF、IFT、CoT 如何协同打造智能对话体验? 2024-06-26 作者 C3P00 引言: 近期,ChatGPT 横空出世,以其出色的对话能力和知识储备,迅速成为人工智能领域的焦点。其背后究竟隐藏着哪些技术奥秘?本文将深入浅出地解读 ChatGPT 的核心技术,包括 RLHF、IFT、CoT 等,并探讨这些技术如何协同工作,打造出令人惊艳的智能对话体验。 一、 群雄逐鹿:AI 对话代理的现状 ChatGPT 并非横空出世,早在其之前,Meta、Google、DeepMind、Anthropic 等机构就已经推出了各自的语言模型对话代理,例如 BlenderBot、LaMDA、Sparrow、Assistant 等。这些对话代理都致力于实现“指令依从”,即根据用户指令完成任务。 然而,ChatGPT 的成功并非偶然,它在技术路线上有着独特之处。下表对目前主流的 AI 聊天机器人进行了比较: LaMDABlenderBot 3SparrowChatGPT / InstructGPTAssistant组织GoogleMetaDeepMindOpenAIAnthropic能否公开访问否能否有限否否否大小137B175B70B175B52B预训练基础模型未知OPTChinchillaGPT-3.5未知……………… 二、 从预测文本到遵循指令:指令微调 (IFT) 技术 传统的语言模型擅长预测文本,但要让其理解并执行用户指令,则需要进行“指令微调 (Instruction Fine-Tuning,IFT)”。IFT 的核心是向模型示范各种书面指令及其预期输出,例如: 指令:写一首关于微调的诗。 输出:... (ChatGPT 生成的诗歌) IFT 的训练数据通常包括人工编写的指令和模型自举生成的实例。其中,自举指的是使用少样本技术,先输入少量样本引导模型,然后让模型自行生成新的指令、输入和输出,不断迭代优化。 三、 安全护航:有监督微调 (SFT) 与安全规则 经过 IFT 的模型虽然能够理解指令,但生成的回复不一定安全无害。为了解决这个问题,开发者会使用“有监督微调 (Supervised Fine-tuning, SFT)”,利用高质量的人工标注数据,进一步提升模型回复的安全性。 例如,谷歌的 LaMDA 就根据一系列预先定义的安全规则进行微调,这些规则涵盖了伤害、歧视、错误信息等方面,确保模型的回复符合道德和安全规范。 四、 更胜一筹:人类反馈强化学习 (RLHF) 为了进一步提升模型的性能,OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 Constitutional AI 都引入了“人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)”技术。 RLHF 的核心是根据人类的偏好对模型的回复进行排序,然后用这些带标注的数据训练偏好模型,最终通过强化学习优化对话代理。关于 RLHF 的更多细节,可以参考我们之前的文章:ChatGPT 背后的“功臣”——RLHF 技术详解。 五、 逻辑推理:思维链 (CoT) 提示 “思维链 (Chain-of-thought,CoT) 提示”是 IFT 的一种特殊形式,它通过引导模型进行逐步推理来生成最终答案。例如: 指令:小明有 5 个苹果,小红给了他 3 个,小明现在有多少个苹果? CoT 推理:小明最初有 5 个苹果,加上小红给的 3 个,总数是 5 + 3 = 8 个。 输出:小明现在有 8 个苹果。 使用 CoT 微调的模型在需要逻辑推理的任务上表现更出色,例如常识推理、算术计算、符号推理等。 六、 展望未来:对话代理的进一步发展 尽管现有的技术已经取得了显著成果,但对话代理领域仍有许多问题亟待解决,例如: RL 在人类反馈学习中的重要性? 如何系统评估红蓝对抗的效果? 如何选择最佳的基础模型? 相信随着技术的不断进步,对话代理将在未来展现出更加强大的能力,为人类带来更加智能、便捷的交互体验。 参考文献: Rajani et al.,”What Makes a Dialog Agent Useful?”, Hugging Face Blog, 2023.
引言:
近期,ChatGPT 横空出世,以其出色的对话能力和知识储备,迅速成为人工智能领域的焦点。其背后究竟隐藏着哪些技术奥秘?本文将深入浅出地解读 ChatGPT 的核心技术,包括 RLHF、IFT、CoT 等,并探讨这些技术如何协同工作,打造出令人惊艳的智能对话体验。
一、 群雄逐鹿:AI 对话代理的现状
ChatGPT 并非横空出世,早在其之前,Meta、Google、DeepMind、Anthropic 等机构就已经推出了各自的语言模型对话代理,例如 BlenderBot、LaMDA、Sparrow、Assistant 等。这些对话代理都致力于实现“指令依从”,即根据用户指令完成任务。
然而,ChatGPT 的成功并非偶然,它在技术路线上有着独特之处。下表对目前主流的 AI 聊天机器人进行了比较:
二、 从预测文本到遵循指令:指令微调 (IFT) 技术
传统的语言模型擅长预测文本,但要让其理解并执行用户指令,则需要进行“指令微调 (Instruction Fine-Tuning,IFT)”。IFT 的核心是向模型示范各种书面指令及其预期输出,例如:
IFT 的训练数据通常包括人工编写的指令和模型自举生成的实例。其中,自举指的是使用少样本技术,先输入少量样本引导模型,然后让模型自行生成新的指令、输入和输出,不断迭代优化。
三、 安全护航:有监督微调 (SFT) 与安全规则
经过 IFT 的模型虽然能够理解指令,但生成的回复不一定安全无害。为了解决这个问题,开发者会使用“有监督微调 (Supervised Fine-tuning, SFT)”,利用高质量的人工标注数据,进一步提升模型回复的安全性。
例如,谷歌的 LaMDA 就根据一系列预先定义的安全规则进行微调,这些规则涵盖了伤害、歧视、错误信息等方面,确保模型的回复符合道德和安全规范。
四、 更胜一筹:人类反馈强化学习 (RLHF)
为了进一步提升模型的性能,OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 Constitutional AI 都引入了“人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)”技术。
RLHF 的核心是根据人类的偏好对模型的回复进行排序,然后用这些带标注的数据训练偏好模型,最终通过强化学习优化对话代理。关于 RLHF 的更多细节,可以参考我们之前的文章:ChatGPT 背后的“功臣”——RLHF 技术详解。
五、 逻辑推理:思维链 (CoT) 提示
“思维链 (Chain-of-thought,CoT) 提示”是 IFT 的一种特殊形式,它通过引导模型进行逐步推理来生成最终答案。例如:
使用 CoT 微调的模型在需要逻辑推理的任务上表现更出色,例如常识推理、算术计算、符号推理等。
六、 展望未来:对话代理的进一步发展
尽管现有的技术已经取得了显著成果,但对话代理领域仍有许多问题亟待解决,例如:
相信随着技术的不断进步,对话代理将在未来展现出更加强大的能力,为人类带来更加智能、便捷的交互体验。
参考文献: