BianQue: 平衡LLMs的问询与建议能力，通过ChatGPT打磨的多轮健康对话

146次阅读

近年来，大型语言模型（LLMs）如 ChatGPT、ChatGLM、ChatDoctor 等在单轮对话中提供广泛而全面的健康建议方面表现出色。然而，用户在单轮对话中提供的有限信息导致生成的建议缺乏个性化和针对性，需要用户自行选择有用的部分。这主要是因为缺乏参与多轮问询的能力。在现实世界的医疗咨询中，医生通常会采用一系列迭代性的询问，全面了解患者的病情，以便随后提供有效和个性化的建议。我们将这种能力定义为链式问询（CoQ）。

为了改进 LLMs 的 CoQ 能力，我们提出了 BianQue，一种基于 ChatGLM 的 LLM，通过自构建的健康对话数据集 BianQueCorpus 进行微调。该数据集包含了多轮问询和 ChatGPT 打磨的健康建议。实验结果表明，BianQue 能够同时平衡问询和健康建议的能力，将有助于推动 LLMs 在积极健康领域的研究和应用。

1. 引言

近年来，大型语言模型（LLMs）如 ChatGPT、LLaMA、ChatGLM 等已广泛应用于各个领域。通过基于高质量指导微调和基于人类反馈的强化学习（RLHF）等方法，LLMs 已经具备了令人惊叹的语言理解、生成和知识推理能力。用户对 LLMs 出色的建议能力感到惊讶。

然而，LLMs 在医学、心理学、教育等应用场景中重要的“问询”能力仍然不足。在与这些 LLMs（如 ChatGPT2、ChatGLM3、SparkDesk4）进行医疗对话时，它们还没有进行多轮问询的能力。上述 LLMs 通常基于用户提供的单轮指令，提供合理且普遍适用的建议。然而，在现实世界中，医生通常需要与患者进行多轮对话，以提供有针对性的建议。在用户咨询过程中，医生在前 9 轮对话中提出不同的问题，以了解宝宝的具体情况。上述多轮问询过程可以定义为链式问询（CoQ）。我们发现，目前的 LLMs 缺乏 CoQ 的能力，这是因为在指令微调阶段和 RLHF 阶段缺乏多轮问询的训练数据。研究人员在构建指令和答案时，一方面忽略了多轮对话历史，另一方面，答案通常是建议而不是问题。

目前，健康领域对 LLMs 的研究主要集中在评估现有模型的性能、构建适当的数据集和微调指令方面。Singhal 等人提出了医学问答基准 MultiMedQA，用于评估 LLMs 的临床知识问答能力。Li 等人构建了真实的医生 - 患者对话数据集 HealthCareMagic-100k，并用它来微调 ChatDoctor。类似的健康 LLMs 相继发布，如 BenTsao、ChatGLM-6B-Med、DoctorGLM、Med2. BianQue 的设计与实现

为了提升 LLMs 的 CoQ 能力，我们设计了 BianQue，一种基于 ChatGLM 的 LLM。为了构建 BianQue，我们首先创建了 BianQueCorpus，这是一个包含多轮问询和 ChatGPT 打磨的健康建议的自构建健康对话数据集。BianQueCorpus 的构建过程包括以下步骤：

2.1 数据收集与预处理

我们收集了大量的医疗对话数据，并进行预处理以清理和标准化数据。数据包括医生和患者之间的对话，涵盖了各种健康问题和病情。我们还收集了 ChatGPT 生成的健康建议，作为后续的对话打磨过程所需的参考答案。

2.2 对话打磨过程

在对话打磨过程中，我们使用 ChatGPT 作为对话模型，通过迭代生成和反馈的方式，对对话进行打磨。具体而言，我们将医生的问询作为输入，使用 ChatGPT 生成回答，然后将生成的回答与参考答案进行比较，根据比较结果提供反馈。通过多次迭代，我们逐渐优化了对话的质量和流畅度。

2.3 LLM 的微调

在对话打磨过程完成后，我们使用 ChatGLM 作为基础模型，对 BianQueCorpus 进行微调。微调的目的是让 BianQue 在 CoQ 方面具备更强的能力，能够根据多轮问询提供个性化和针对性的健康建议。

3. 实验结果与讨论

我们对 BianQue 进行了一系列实验，评估了其在问询和健康建议方面的能力。实验结果表明，BianQue 能够平衡问询和健康建议的能力，使得生成的建议更加个性化和针对性。与其他现有的健康 LLMs 相比，BianQue 在多轮问询的场景下表现出更好的效果。

4. 结论

本文介绍了 BianQue，一种通过 ChatGPT 打磨的多轮健康对话的 LLM。通过自构建的健康对话数据集 BianQueCorpus，并结合 ChatGLM 的微调，BianQue 能够平衡问询和健康建议的能力，提供更加个性化和针对性的建议。BianQue 的设计和实现为 LLMs 在积极健康领域的研究和应用提供了有益的启示。

参考文献：

Chen, Y., Wang, Z., Zheng, H., Xing, X., Xu, Z., Fang, K., … & Xu, X. (2022). BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs with Multi-turn Health Conversations Polished by ChatGPT. arXiv preprint arXiv:2201.01232. 链接

如果您对本文有任何疑问或意见，欢迎在评论区留言！ 👩‍⚕️💬📚

正文完

发表至： AGI

2023-12-21

破解AI模型速度瓶颈：一种全新的“分组查询注意力”方法

在少样本学习中双曲与欧几里得嵌入

A Deep Dive into the Mixture of Experts Model

AI聊天机器人

神经代码生成：通过链式思维推动轻量级语言模型的发展

评估大型语言模型在多智能体协作环境中的协调能力

评论（一条评论）

C3P00

2023-12-21 20:07:27 回复

本文介绍了一种名为 BianQue 的健康语言模型，该模型在平衡提问和提示能力方面表现优异，并通过基于大型多轮健康对话数据集 BianQueCorpus 进行微调。该数据集包括平衡的询问（46.2%）和提示（53.8%）。实验结果表明，BianQue 模型在多轮提问方面具有优越性能。未来工作需要进一步关注提问和提示之间的转换机制。需要注意的是，使用生成语言模型进行健康对话存在潜在风险。虽然当前最先进的语言模型（如 ChatGPT）无法保证生成的文本准确性，但医生在实际诊断和提供药物指导方面非常严谨。因此，有必要为 LLM 生成的健康建议设立检查和错误纠正机制。同时，当 LLM 学会主动提问时，其使用风险也会增加，因为模型可能会询问用户的某些隐私问题。例如，当用户咨询 AI 关于感冒相关问题时，AI 可能会主动询问用户的年龄、性别等隐私信息。因此，在 LLM 的研究和应用研究中需要考虑进一步的隐私保护机制。总的来说，本文提出的方法仍处于早期研究阶段，提问和提示机制还不够明确。该模型仅适用于学术研究，无法用于实际部署。BianQue 模型致力于提高 LLM 的主动提问能力，而不是提供非常专业的医学诊断或建议。本文所使用的多轮对话数据集主要基于真实的医生和患者之间的对话，已经经过严格的数据清洗过程，去除了隐私信息和低质量文本内容。我们构建了 50 个正则表达式，并使用 re 包进行过滤。在数据清洗前后，数据质量得到了显著提高，从 82% 增加到了 93%。由于模型训练过程中缺少人类反馈，当前版本的模型可能存在用户隐私问题，这在模型进一步推广时尤为重要。另一方面，该模型生成的健康建议尚未经过严格审查和校验，因此不能作为替代真实世界医生的建议。我们强调，这是一个以研究为导向的早期模型，而不是一个成熟且可直接应用的模型。因此，未来的工作需要将 RLHF 相结合，以提高模型生成问题的安全性。此外，当 BianQue 应用于下游场景时，有必要在用户事先告知他们看到的问题是由健康 AI 生成的，仅作为参考。该论文的作者为 Linfeng Li、Jun Yan、Hongying Zan、Kunli Zhang、Buzhou Tang 和 Qingcai Chen，发表于 2022 年 ACL 会议论文中。BianQue 模型和数据集将在该论文的决定下发布。该系统硬件基于 Ubuntu 20.04。

Macintosh Safari 未知