在人工智能和自然语言处理领域,信息抽取一直是一个备受关注的研究方向。传统的信息抽取方法往往需要为每个具体任务设计特定的模型,这不仅增加了开发成本,也限制了模型在不同任务间的知识共享。近日,来自国际数字经济研究院、华南理工大学等机构的研究人员提出了一种名为UniEX的新型通用信息抽取框架,有望彻底改变这一现状。
统一视角下的信息抽取
UniEX框架的核心思想是将各种信息抽取任务统一看作是对文本中片段(span)的检测、分类和关联问题。研究人员发现,不同的信息抽取任务本质上都涉及确定语义角色和语义类型,而这些都可以转化为文本片段的形式。
例如,命名实体识别任务可以看作是检测语义角色的边界并对其进行分类;关系抽取则可以视为在特定语义角色之间建立语义关联。基于这一洞察,UniEX框架将信息抽取任务分解为三个基本操作:
- 片段检测:定位文本中提及的语义角色的边界
- 片段分类:识别语义角色的语义类型
- 片段关联:建立并衡量语义角色之间的关联,以确定语义类型
这种统一的视角使得UniEX框架能够以相同的方式处理各种信息抽取任务,包括命名实体识别、关系抽取、事件抽取和情感分析等。
创新的架构设计
为了实现这一统一的抽取范式,UniEX框架采用了多项创新设计:
- 统一输入格式
UniEX采用了一种规则化的转换方法,将各种抽取目标和统一的输入格式进行桥接。具体来说,它利用带有标识符的特定任务标签作为基于模式的提示,以学习通用的信息抽取知识。
例如,对于一个命名实体识别任务,输入可能是这样的:
[CLS] Entity Extraction [R-LEP]1 Location [R-LEP]2 Organization [R-LEP]3 Person [R-LEP]4 Miscellaneous [SEP] Arafat goes to Nablus ahead of cabinet meeting . [SEP]
这种设计使模型能够同时编码基于模式的提示和文本信息。
- 自编码语言模型
研究表明,具有双向上下文表示的自编码语言模型更适合自然语言理解任务。因此,UniEX采用了类似BERT的语言模型来构建其基础抽取架构,以进行底层语义编码。
- 三仿射注意力机制
UniEX引入了一种名为"三仿射注意力机制"(triaffine attention mechanism)的新技术来进行结构解码。这种机制能够同时考虑多个因素之间的高阶交互,包括任务、标签和内部标记。每个三仿射评分矩阵都分配给一个特定需求的提示,以获得基于片段的抽取目标。
具体来说,UniEX首先使用两个独立的前馈神经网络来创建内部标记的起始/结束位置的不同表示。然后,它应用深度三仿射变换,使用权重矩阵 $W \in R^{d×d×d}$ 来聚合基于模式的片段表示。这个过程可以用以下公式表示:
$H^s_x = FFNs(H_x)$
$H^e_x = FFNe(H_x)$
$S = σ(W ×_1 H_s ×_2 H^s_x ×_3 H^e_x)$
其中, $×_k$ 表示输入张量与 $W$ 的第 $k$ 维之间的矩阵乘法, $σ(*)$ 表示Sigmoid激活函数。
这种设计使UniEX能够在解码阶段精确控制在所有信息抽取任务中何处进行检测以及关联什么。
卓越的性能表现
研究人员在多个具有挑战性的基准数据集上对UniEX进行了广泛的实验,涵盖了4个主要的信息抽取任务(实体/关系/事件/情感抽取)。实验结果表明,与最先进的通用信息抽取模型和特定任务的低资源方法相比,UniEX在有监督、少样本和零样本设置下都取得了实质性的性能和效率提升。
在有监督的设置下,UniEX在几乎所有任务和数据集上都优于现有的通用信息抽取模型。与TANL和UIE相比,UniEX在大多数数据集上的表现都有显著提升,平均F1分数分别提高了1.36%和1.52%。
在低资源场景下,UniEX同样表现出色。在少样本命名实体识别任务上,UniEX在不同的类型粒度和领域划分下都达到了最佳性能,大幅超越了之前的方法。例如,在Cross-Dataset数据集上,UniEX在1-shot和5-shot设置下的平均F1分数分别比最接近的竞争对手高出6.94%和5.63%。
在零样本关系抽取任务中,UniEX在单三元组和多三元组评估中都始终优于基线模型,无论是在准确率还是整体F1分数方面。这充分证明了UniEX处理未见标签的能力。
高效的推理速度
除了性能优势,UniEX在推理效率方面也表现突出。与生成式模型相比,UniEX能够从通过三仿射变换获得的评分矩阵中一次性解码所有目标结构,大大提高了推理速度。实验表明,UniEX的平均推理速度是UIE的13.3倍。
这种效率优势源于UniEX的抽取式结构。生成式模型需要逐个生成目标结构的每个标记,因此推理速度受限于目标结构的长度。相比之下,UniEX能够并行处理所有可能的片段,从而实现更快的推理。
广阔的应用前景
UniEX框架的提出为通用信息抽取开辟了一个新的研究方向。它不仅在各种信息抽取任务上取得了state-of-the-art的性能,还展示了优秀的泛化能力和迁移学习潜力。
在实际应用中,UniEX可以大大简化信息抽取系统的开发过程。企业和研究机构可以使用同一个UniEX模型来处理多种信息抽取需求,而不必为每个具体任务开发和维护单独的模型。这不仅能降低开发和维护成本,还能提高整体系统的效率和性能。
此外,UniEX在低资源场景下的出色表现,使其特别适合应用于新兴领域或数据稀缺的情况。即使在训练数据有限的情况下,UniEX也能有效地利用标签语义来提升性能,这对于快速开发新的信息抽取应用具有重要意义。
未来研究方向
尽管UniEX取得了令人瞩目的成果,研究人员指出仍有一些值得进一步探索的方向:
- 复杂数据集和大规模标签集的处理:如何为复杂的数据集和大规模的标签集设计更精巧的提示仍是一个值得研究的问题。
- 预训练策略:目前的实验主要集中在特定大小的预训练语言模型上。未来可以探索在更大规模语料库上预训练UniEX,以进一步提升其性能和泛化能力。
- 多模态扩展:将UniEX框架扩展到处理图像、视频等多模态数据的信息抽取任务也是一个有前景的研究方向。
- 可解释性研究:深入研究UniEX的内部机制,提高模型的可解释性,有助于进一步优化模型设计和增强其在实际应用中的可信度。
UniEX的出现标志着通用信息抽取技术迈出了重要一步。随着进一步的研究和优化,我们有理由期待这一框架能在更广泛的自然语言处理应用中发挥重要作用,推动人工智能技术向着更智能、更通用的方向发展。
参考文献
[1] Yang, P., Lu, J., Gan, R., Wang, J., Zhang, Y., Zhang, J., & Zhang, P. (2023). UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective. arXiv preprint arXiv:2305.10306.
[2] Lu, J., Xu, C., Du, R., Wang, X., Qin, B., Gao, Y., … & Lin, Y. (2022). Unified structure generation for universal information extraction. arXiv preprint arXiv:2203.12277.
[3] Paolini, G., Athiwaratkun, B., Krone, J., Ma, J., Achille, A., Anubhai, R., … & Nardone, D. (2020). Structured prediction as translation between augmented natural languages. arXiv preprint arXiv:2101.05779.
[4] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1-67.
[5] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (pp. 4171-4186).