WebCPM: Interactive Web Search for Chinese Long-form Question Answering

84次阅读

长文本问答 (LFQA) 旨在回答复杂的、开放式的问题，并提供详细的、段落长度的回答。LFQA 的实际上的模式需要两个步骤：信息检索，寻找相关的支持事实，信息和合成，将这些信息整合成一个连贯的答案。在本文中，我们介绍了 WebCPM，这是中国的第一个 LFQA 数据集。WebCPM 的一个独特特点是其信息检索基于交互式网页搜索，它在实时与搜索引擎交互。类似于 WebGPT，我们开发了网页搜索界面。我们招募了标注者，使用我们的界面搜索相关信息，然后回答问题。同时，我们记录了标注者的网络搜索行为。我们总共收集了 5500 个高质量的问题 – 答案对，以及 14315 个支持事实和 121330 个网页搜索行为。我们微调了预训练的语言模型，以模仿人类的网络搜索行为，并基于收集的事实生成答案。我们基于这些微调的模型建立了 LFQA 流程，它在这些数据集和 DuReader 上产生了在 32.5% 和 47.5% 的案例中不比人类写的更好的答案。

作者通过以下方法取得了结果:
1. 提出长文本问答 (LFQA) 问题，并定义了解决方案所需的两个核心要素：信息检索和信息合成。
2. 使用检索 – 合成范式来解决 LFQA 问题。该范式包含两个核心要素：信息检索和信息合成。信息检索搜索外部知识源 (如互联网) 获取多种相关支持事实，信息合成将收集的事实整合成一个完整的答案。
3. 针对传统 LFQA 范式的缺陷，作者提出了交互式网页搜索的方法，以支持人类进行更复杂的问题分解和解决。人类可以进行交互式网页搜索，通过与搜索引擎实时交互，将复杂的问题分解为多个子问题，并逐步解决。通过识别和浏览相关信息，人类可以加深对话题的理解，并通过提出后续问题或相关术语来微调搜索。这种迭代过程可以扩展搜索范围，并提高搜索结果的质量。
4. 作者还提出了一个公共数据集和框架，以支持 LFQA 交互式网页搜索。该框架包括一个搜索模型和一个合成模型，它们可以模仿人类网页搜索行为进行信息检索和信息合成。作者通过选择最好的搜索和合成模型，将它们组合成一个整体 LFQA 管道，并与人类进行比较。人类评估表明，作者提出的管道在测试集中生成的答案有 32.5% 的时间不比人类差，对于超过 400 个中文字符的 DuReader 问题，作者提出的管道在 47.5% 的情况下生成的答案比 golden 标注的答案更好。
5. 作者还展示了如何使用他们的框架来创建新的中文问题，并使用公共问答论坛作为问题来源。

以下是作者在这篇论文中所得出的结论:
1. 交互式网页搜索可以提高 LFQA 解决方案的性能，因为人类可以进行网页搜索并逐步解决问题，而无需从头开始构建问题。
2. 使用 GPT-3 等预训练语言模型进行网页搜索和信息合成的效果比传统的检索 – 合成范式更好，因为它们可以模拟人类搜索行为。
3. 提供可访问的平台和公共基准对于探索 LFQA 交互式网页搜索领域至关重要。
4. 需要进一步研究如何平衡交互式网页搜索和信息合成的性能，以提高 LFQA 解决方案的效率和准确性。
5. 提供可访问的数据集和平台可以促进社区对 LFQA 领域的研究，并为其他研究领域提供测试平台。

正文完

发表至： AGI

2023-11-22

LangChain 中的链

YAYI 2: Multilingual Open-Source Large Language Models

解密Tele-FLM：高效的多语言大型语言模型

Prompt Engineering的现在和未来

ProAgent: 构建具有主动合作能力的大型语言模型