近年来,大型语言模型(LLMs)如ChatGPT、ChatGLM、ChatDoctor等在单轮对话中提供广泛而全面的健康建议方面表现出色。然而,用户在单轮对话中提供的有限信息导致生成的建议缺乏个性化和针对性,需要用户自行选择有用的部分。这主要是因为缺乏参与多轮问询的能力。在现实世界的医疗咨询中,医生通常会采用一系列迭代性的询问,全面了解患者的病情,以便随后提供有效和个性化的建议。我们将这种能力定义为链式问询(CoQ)。
为了改进LLMs的CoQ能力,我们提出了BianQue,一种基于ChatGLM的LLM,通过自构建的健康对话数据集BianQueCorpus进行微调。该数据集包含了多轮问询和ChatGPT打磨的健康建议。实验结果表明,BianQue能够同时平衡问询和健康建议的能力,将有助于推动LLMs在积极健康领域的研究和应用。
1. 引言
近年来,大型语言模型(LLMs)如ChatGPT、LLaMA、ChatGLM等已广泛应用于各个领域。通过基于高质量指导微调和基于人类反馈的强化学习(RLHF)等方法,LLMs已经具备了令人惊叹的语言理解、生成和知识推理能力。用户对LLMs出色的建议能力感到惊讶。
然而,LLMs在医学、心理学、教育等应用场景中重要的“问询”能力仍然不足。在与这些LLMs(如ChatGPT2、ChatGLM3、SparkDesk4)进行医疗对话时,它们还没有进行多轮问询的能力。上述LLMs通常基于用户提供的单轮指令,提供合理且普遍适用的建议。然而,在现实世界中,医生通常需要与患者进行多轮对话,以提供有针对性的建议。在用户咨询过程中,医生在前9轮对话中提出不同的问题,以了解宝宝的具体情况。上述多轮问询过程可以定义为链式问询(CoQ)。我们发现,目前的LLMs缺乏CoQ的能力,这是因为在指令微调阶段和RLHF阶段缺乏多轮问询的训练数据。研究人员在构建指令和答案时,一方面忽略了多轮对话历史,另一方面,答案通常是建议而不是问题。
目前,健康领域对LLMs的研究主要集中在评估现有模型的性能、构建适当的数据集和微调指令方面。Singhal等人提出了医学问答基准MultiMedQA,用于评估LLMs的临床知识问答能力。Li等人构建了真实的医生-患者对话数据集HealthCareMagic-100k,并用它来微调ChatDoctor。类似的健康LLMs相继发布,如BenTsao、ChatGLM-6B-Med、DoctorGLM、Med2. BianQue的设计与实现
为了提升LLMs的CoQ能力,我们设计了BianQue,一种基于ChatGLM的LLM。为了构建BianQue,我们首先创建了BianQueCorpus,这是一个包含多轮问询和ChatGPT打磨的健康建议的自构建健康对话数据集。BianQueCorpus的构建过程包括以下步骤:
2.1 数据收集与预处理
我们收集了大量的医疗对话数据,并进行预处理以清理和标准化数据。数据包括医生和患者之间的对话,涵盖了各种健康问题和病情。我们还收集了ChatGPT生成的健康建议,作为后续的对话打磨过程所需的参考答案。
2.2 对话打磨过程
在对话打磨过程中,我们使用ChatGPT作为对话模型,通过迭代生成和反馈的方式,对对话进行打磨。具体而言,我们将医生的问询作为输入,使用ChatGPT生成回答,然后将生成的回答与参考答案进行比较,根据比较结果提供反馈。通过多次迭代,我们逐渐优化了对话的质量和流畅度。
2.3 LLM的微调
在对话打磨过程完成后,我们使用ChatGLM作为基础模型,对BianQueCorpus进行微调。微调的目的是让BianQue在CoQ方面具备更强的能力,能够根据多轮问询提供个性化和针对性的健康建议。
3. 实验结果与讨论
我们对BianQue进行了一系列实验,评估了其在问询和健康建议方面的能力。实验结果表明,BianQue能够平衡问询和健康建议的能力,使得生成的建议更加个性化和针对性。与其他现有的健康LLMs相比,BianQue在多轮问询的场景下表现出更好的效果。
4. 结论
本文介绍了BianQue,一种通过ChatGPT打磨的多轮健康对话的LLM。通过自构建的健康对话数据集BianQueCorpus,并结合ChatGLM的微调,BianQue能够平衡问询和健康建议的能力,提供更加个性化和针对性的建议。BianQue的设计和实现为LLMs在积极健康领域的研究和应用提供了有益的启示。
参考文献:
- Chen, Y., Wang, Z., Zheng, H., Xing, X., Xu, Z., Fang, K., … & Xu, X. (2022). BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs with Multi-turn Health Conversations Polished by ChatGPT. arXiv preprint arXiv:2201.01232. 链接
如果您对本文有任何疑问或意见,欢迎在评论区留言! 👩⚕️💬📚
本文介绍了一种名为 BianQue 的健康语言模型,该模型在平衡提问和提示能力方面表现优异,并通过基于大型多轮健康对话数据集 BianQueCorpus 进行微调。该数据集包括平衡的询问(46.2%)和提示(53.8%)。实验结果表明,BianQue 模型在多轮提问方面具有优越性能。未来工作需要进一步关注提问和提示之间的转换机制。需要注意的是,使用生成语言模型进行健康对话存在潜在风险。虽然当前最先进的语言模型(如 ChatGPT)无法保证生成的文本准确性,但医生在实际诊断和提供药物指导方面非常严谨。因此,有必要为 LLM 生成的健康建议设立检查和错误纠正机制。同时,当 LLM 学会主动提问时,其使用风险也会增加,因为模型可能会询问用户的某些隐私问题。例如,当用户咨询 AI 关于感冒相关问题时,AI 可能会主动询问用户的年龄、性别等隐私信息。因此,在 LLM 的研究和应用研究中需要考虑进一步的隐私保护机制。总的来说,本文提出的方法仍处于早期研究阶段,提问和提示机制还不够明确。该模型仅适用于学术研究,无法用于实际部署。BianQue 模型致力于提高 LLM 的主动提问能力,而不是提供非常专业的医学诊断或建议。本文所使用的多轮对话数据集主要基于真实的医生和患者之间的对话,已经经过严格的数据清洗过程,去除了隐私信息和低质量文本内容。我们构建了 50 个正则表达式,并使用 re 包进行过滤。在数据清洗前后,数据质量得到了显著提高,从 82% 增加到了 93%。由于模型训练过程中缺少人类反馈,当前版本的模型可能存在用户隐私问题,这在模型进一步推广时尤为重要。另一方面,该模型生成的健康建议尚未经过严格审查和校验,因此不能作为替代真实世界医生的建议。我们强调,这是一个以研究为导向的早期模型,而不是一个成熟且可直接应用的模型。因此,未来的工作需要将 RLHF 相结合,以提高模型生成问题的安全性。此外,当 BianQue 应用于下游场景时,有必要在用户事先告知他们看到的问题是由健康 AI 生成的,仅作为参考。该论文的作者为 Linfeng Li、Jun Yan、Hongying Zan、Kunli Zhang、Buzhou Tang 和 Qingcai Chen,发表于 2022 年 ACL 会议论文中。BianQue 模型和数据集将在该论文的决定下发布。该系统硬件基于 Ubuntu 20.04。