WebCPM: Interactive Web Search for Chinese Long-form Question Answering

84次阅读
没有评论

长文本问答 (LFQA) 旨在回答复杂的、开放式的问题,并提供详细的、段落长度的回答。LFQA 的实际上的模式需要两个步骤:信息检索,寻找相关的支持事实,信息和合成,将这些信息整合成一个连贯的答案。在本文中,我们介绍了 WebCPM,这是中国的第一个 LFQA 数据集。WebCPM 的一个独特特点是其信息检索基于交互式网页搜索,它在实时与搜索引擎交互。类似于 WebGPT,我们开发了网页搜索界面。我们招募了标注者,使用我们的界面搜索相关信息,然后回答问题。同时,我们记录了标注者的网络搜索行为。我们总共收集了 5500 个高质量的问题 – 答案对,以及 14315 个支持事实和 121330 个网页搜索行为。我们微调了预训练的语言模型,以模仿人类的网络搜索行为,并基于收集的事实生成答案。我们基于这些微调的模型建立了 LFQA 流程,它在这些数据集和 DuReader 上产生了在 32.5% 和 47.5% 的案例中不比人类写的更好的答案。


  • 作者通过以下方法取得了结果:

    1. 提出长文本问答 (LFQA) 问题,并定义了解决方案所需的两个核心要素:信息检索和信息合成。

    2. 使用检索 – 合成范式来解决 LFQA 问题。该范式包含两个核心要素:信息检索和信息合成。信息检索搜索外部知识源 (如互联网) 获取多种相关支持事实,信息合成将收集的事实整合成一个完整的答案。

    3. 针对传统 LFQA 范式的缺陷,作者提出了交互式网页搜索的方法,以支持人类进行更复杂的问题分解和解决。人类可以进行交互式网页搜索,通过与搜索引擎实时交互,将复杂的问题分解为多个子问题,并逐步解决。通过识别和浏览相关信息,人类可以加深对话题的理解,并通过提出后续问题或相关术语来微调搜索。这种迭代过程可以扩展搜索范围,并提高搜索结果的质量。

    4. 作者还提出了一个公共数据集和框架,以支持 LFQA 交互式网页搜索。该框架包括一个搜索模型和一个合成模型,它们可以模仿人类网页搜索行为进行信息检索和信息合成。作者通过选择最好的搜索和合成模型,将它们组合成一个整体 LFQA 管道,并与人类进行比较。人类评估表明,作者提出的管道在测试集中生成的答案有 32.5% 的时间不比人类差,对于超过 400 个中文字符的 DuReader 问题,作者提出的管道在 47.5% 的情况下生成的答案比 golden 标注的答案更好。

    5. 作者还展示了如何使用他们的框架来创建新的中文问题,并使用公共问答论坛作为问题来源。


  • 以下是作者在这篇论文中所得出的结论:

    1. 交互式网页搜索可以提高 LFQA 解决方案的性能,因为人类可以进行网页搜索并逐步解决问题,而无需从头开始构建问题。

    2. 使用 GPT-3 等预训练语言模型进行网页搜索和信息合成的效果比传统的检索 – 合成范式更好,因为它们可以模拟人类搜索行为。

    3. 提供可访问的平台和公共基准对于探索 LFQA 交互式网页搜索领域至关重要。

    4. 需要进一步研究如何平衡交互式网页搜索和信息合成的性能,以提高 LFQA 解决方案的效率和准确性。

    5. 提供可访问的数据集和平台可以促进社区对 LFQA 领域的研究,并为其他研究领域提供测试平台。

正文完
 
评论(没有评论)