对话系统的新纪元:如何评估大型语言模型驱动的聊天机器人?

随着大型语言模型(LLM)的迅速发展,以LLM为基础的对话系统(例如聊天机器人)在近几年取得了惊人的进步。然而,这些系统也带来了新的挑战,它们可能对用户和社会产生负面影响。因此,建立一个有效的评估框架,及时发现这些潜在的负面影响,并量化其积极影响,变得至关重要。

评估框架的六大要素

一个理想的评估框架至少应该满足以下六个要素:

  • 敏锐性 (Alertness):框架应该能够以极高的召回率(即几乎没有遗漏)检测到潜在问题,同时也要恰当地认可对话系统的优点。此外,在追求高召回率的同时,框架还应考虑不同参与者的利益,例如为系统训练数据进行标注的工作人员,以及边缘化群体。
  • 特异性 (Specificity):框架应该能够在对话中准确地定位问题。例如,一个仅仅指出“对话中存在问题”的评估结果,远不如指出“系统在某一轮对话中存在问题”或“系统在某一轮对话中的某一特定断言存在问题”更有用。
  • 通用性 (Versatility):框架应该能够无缝地处理面向任务的对话和非面向任务的对话。这是因为,为了实现完全交互式和有效的对话式搜索(通常是面向任务的),系统可能需要通过非面向任务的对话(即聊天)来赢得用户的信任。此外,即使在同一对话会话中,用户的需求也可能从模糊到明确,跨越不同的信息需求范围。
  • 敏捷性 (Agility):新的对话系统发布和更新的频率很高,因此评估框架也需要保持敏捷。这排除了完全依赖人工评估的方法。
  • 透明度 (Transparency):评估指标应该易于计算,并且能够清晰地展示其计算过程。例如,如果使用另一个基于LLM的黑盒评分系统来评估基于LLM的黑盒对话系统,即使这两个系统可能使用了相同的训练数据,这种评估方法也不被认为是透明的。
  • 中立性 (Neutrality):评估框架不应该偏袒或过度宣传特定的系统或方法。例如,使用类似的LLM系统来评估基于LLM的系统,可能会过度评价前者。此外,框架不应该只强调系统表现良好的方面,而忽略或甚至不报告其不足之处。

SWAN框架:基于片段的评估方法

为了满足上述要求,本文提出了一个名为SWAN(Schematised Weighted Average Nugget,模式化加权平均片段分数)的评估框架,该框架主要包含以下特点:

  • 输入数据:框架以用户与系统对话会话的样本作为输入,这些样本可以通过人工参与实验或用户模拟获得。
  • 片段提取:框架的第一阶段使用自动片段提取器从对话中提取片段。片段可以是断言/陈述,也可以是对话行为,并且是原子性的(即不可再分解为更小的片段)。
  • 片段评分:框架的第二阶段根据一系列评估标准(称为模式)对每个片段进行评分,例如正确性、无害性等。这一阶段可能需要一定的人工参与。
  • 分数计算:框架的最后阶段通过结合以下因素计算最终分数:(a)模式中每个标准的片段分数;(b)片段权重,可以定义为片段在对话会话中片段序列中的位置的函数。

片段权重

片段权重类似于信息检索指标(如nDCG)中的基于排名的衰减,但片段权重不一定随着片段位置的增加而单调递减。例如,基于S-measure的线性衰减函数假设片段的实际价值随着对话的进行而降低(即更快满足信息需求的较短对话会获得更高的奖励),而另一种方法则是只对来自对话最后一轮的片段赋予正权重,以模拟近因效应。锚定效应等因素也可以被纳入考虑,即“迄今为止看到的片段”会影响当前片段的权重。

SWAN分数

SWAN分数可以定义为:

SWAN = Σ(c ∈ C) CWc WANc(Uc) / Σ(c ∈ C) CWc

其中,C表示评估标准的集合(即模式),CWc表示标准c的权重,Uc表示从对话样本中提取的关于标准c的片段集合,WANc(Uc)表示标准c的加权平均片段分数。

二十个评估标准

本文提出了二十个评估标准,可以作为SWAN框架的插件,这些标准涵盖了对话系统各个方面的评估,例如:

  • 连贯性 (Coherence):系统回复是否与前一轮对话内容相关。
  • 合理性 (Sensibleness):系统回复是否包含人类不会说的话,例如常识错误或荒谬的回答。
  • 正确性 (Correctness):系统回复中的断言是否在事实上有误。
  • 可信度 (Groundedness):系统回复是否基于一些支持证据。
  • 可解释性 (Explainability):用户是否能够理解系统如何得出当前回复。
  • 真诚度 (Sincerity):系统回复是否与其内部结果一致。
  • 充分性 (Sufficiency):系统回复是否完全满足前一轮对话中用户的请求。
  • 简洁性 (Conciseness):系统回复是否足够简洁。
  • 谦逊度 (Modesty):系统对回复的信心水平是否恰当。
  • 参与度 (Engagingness):系统回复是否能够激发用户继续对话的兴趣。
  • 可恢复性 (Recoverability):当用户对系统回复表示不满时,系统是否能够通过后续回复来挽回对话。
  • 原创性 (Originality):系统回复是否原创,而不是复制或拼凑现有的文本。
  • 公平曝光 (Fair exposure):系统是否公平地提及不同群体。
  • 公平对待 (Fair treatment):系统是否对不同用户和用户群体提供相同的服务。
  • 无害性 (Harmlessness):系统回复是否包含威胁、侮辱、仇恨或骚扰等内容。
  • 一致性 (Consistency):系统回复是否与之前出现的断言逻辑上一致。
  • 记忆力 (Retentiveness):系统是否能够记住之前的对话内容。
  • 输入变化鲁棒性 (Robustness to input variations):当用户以不同的方式表达相同的信息需求时,系统是否能够提供相同的信息。
  • 可定制性 (Customisability):系统是否能够根据不同用户或用户群体的需求进行调整。
  • 适应性 (Adaptability):系统是否能够及时适应世界变化。

总结

本文介绍了用于评估对话系统的SWAN框架,该框架可以用于面向任务的对话和非面向任务的对话。此外,本文还提出了二十个评估标准,可以作为SWAN框架的插件。未来,我们将设计适合各种标准的对话采样方法,构建用于比较多个系统的种子用户回复,并验证SWAN的特定实例,以防止对话系统对用户和社会造成负面影响。

参考文献

[1] Marco Alessio, Guglielmo Faggioli, and Nicola Ferro. 2023. DECAF: a Modular and Extensible Conversational Search Framework. In SIGIR ’23: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (Taipei, Taiwan). Association for Computing Machinery, to appear.

[2] Mohammad Aliannejadi, Leif Azzopardi, Hamed Zamani, Evangelos Kanoulas, Paul Thomas, and Nick Craswell. 2021. Analysing Mixed Initiatives and Search Strategies during Conversational Search. In Proceedings of the 30th ACM International Conference on Information and Knowledge Management (Virtual Event, Queensland, Australia). Association for Computing Machinery, 16–26.

[3] Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, and Jared Kaplanz. 2021. A General Language Assistant as a Laboratory for Alignment. (2021). https://arxiv.org/abs/2112.00861

[4] Leif Azzopardi, Mohammad Aliannejadi, and Evangelos Kanoulas. 2022. Towards Building Economic Models of Conversational Search. In Advances in Information Retrieval. ECIR 2022. Lecture Notes in Computer Science, vol 13186, Matthias Hagen, Suzan Verberne, Craig Macdonald, Christin Seifert, Krisztian Balog, Kjetil Nørvåg, and Vinay Setty (Eds.). Springer, 31–38.

[5] Christine Bauer, Ben Carterette, Nicola Ferro, and Norbert Fuhr. 2023. Report from Dagstuhl Seminar 23031: Frontiers of Information Access Experimentation for Research and Education. (2023). https://arxiv.org/abs/2305.01509

[6] Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (Virtual Event, Canada). Association for Computing Machinery, 610–623.

[7] Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, and Yi Zhang. 2023. Sparks of Artificial General Intelligence: Early experiments with GPT-4. (2023). https://arxiv.org/abs/2303.12712

[8] Chris Buckley and Janet Walz. 2000. The TREC-8 Query Track. In NIST Special Publication 500-246: The Eighth Text REtrieval Conference (TREC 8). NIST, 65–76.

[9] Nuo Chen, Jiqun Liu, and Tetsuya Sakai. 2023. A Reference-Dependent Model for Web Search Evaluation. In Proceedings of the ACM Web Conference 2023 (Austin, TX, USA). Association for Computing Machinery, 3396–3405.

[10] Charles L.A. Clarke, Maheedhar Kolla, Gordon V. Cormack, Olga Vechtomova, Azin Ashkan, Stefan Büttcher, and Ian MacKinnon. 2008. Novelty and Diversity in Information Retrieval Evaluation. In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Singapore, Singapore). Association for Computing Machinery, 659–666.

[11] Hoa Trang Dang and Jimmy Lin. 2007. Different Structures for Evaluating Answers to Complex Questions: Pyramids Won’t Topple, and Neither Will Human Assessors. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (Prague, Czech Republic). Association for Computational Linguistics, 768–775.

[12] Emily Dinan, Gavin Abercrombie, A. Bergman, Shannon Spruit, Dirk Hovy, Y-Lan Boureau, and Verena Rieser. 2022. SafetyKit: First Aid for Measuring Safety in Open-domain Conversational Systems. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Dublin, Ireland). Association for Computational Linguistics, 4113–4133.

[13] Michael D. Ekstrand, Anubrata Das, Robin Burke, and Fernando Diaz. 2021. Fairness and Discrimination in Information Access Systems. (2021). https://arxiv.org/abs/2105.05779

[14] Matthew Ekstrand-Abueg, Virgil Pavlu, Makoto Kato, Tetsuya Sakai, Takehiro Yammoto, and Mayu Iwata. 2013. Exploring semi-automatic nugget extraction for Japanese one click access evaluation. In Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval (Dublin, Ireland). Association for Computing Machinery, 749–752.

0 0 投票数
Article Rating
订阅评论
提醒
3 评论
最旧
最新 最多投票
内联反馈
查看所有评论
3
0
希望看到您的想法,请您发表评论x