iText2KG：利用大语言模型构建增量知识图谱的新方法

🌍 引言

在现代信息时代，数据以无结构的形式广泛存在，导致大量潜在的信息无法得到有效利用。知识图谱（KG）的自动构建对于将这些数据结构化、便于访问至关重要。这不仅使用户能够更有效地搜索信息，还能促进洞察、推理和推断。然而，传统的自然语言处理（NLP）方法，如命名实体识别和关系提取，虽然在信息检索中扮演着重要角色，但仍面临诸多挑战，比如依赖预定义的实体类别和需要监督学习的局限性。

随着大型语言模型（LLM）的崛起，尤其是其在零样本或少样本学习中的应用，KG的构建迎来了新的机遇。然而，未解决的语义重复实体和关系仍然是一个挑战，导致图谱不一致，并需要大量后处理。为此，我们提出了一种名为 iText2KG 的方法，旨在利用LLM的强大能力，构建一致的知识图谱，且无需后处理。

📚 相关工作

现有的LLM基础知识图谱构建方法通常可分为三类：基于本体的、微调的和零样本或少样本学习方法。不同的研究展示了使用LLM进行知识图谱构建的潜力，但许多方法依赖于特定主题的知识或预定义的本体，限制了它们的通用性。因此，如何在各种应用场景中有效构建知识图谱，是一个亟待解决的问题。

🔍 增量文本转知识图谱

🎯 问题表述

我们将知识图谱定义为 $ \mathcal{G} = (\mathcal{E}, \mathcal{R}) $，其中 $ \mathcal{E} $ 表示节点集合，$ \mathcal{R} $ 表示边集合。为了确保图谱的唯一性和一致性，我们设定了两个约束条件：每个实体和关系都必须描述一个语义上独特的概念，并且集合中的每个元素都不应重复。

🌟 提出的方法

iText2KG 方法由四个模块组成：文档提炼器、增量实体提取器、增量关系提取器和图谱整合器。这些模块在KG构建过程中各自发挥着独特的作用，特别是实体提取和关系提取任务的分离，有助于提高性能。

模块1 – 文档提炼器：该模块利用LLMs将输入文档重写为语义块，依据预定义的架构或蓝图提取特定的信息。
模块2 – 增量实体提取器：通过遍历所有语义块，提取全局文档实体并确保每个实体语义唯一。
模块3 – 增量关系提取器：利用全局文档实体和语义块提取全局文档关系，确保提取的关系与上下文一致。
模块4 – 图谱整合器：将全局实体和关系输入到Neo4j中，构建知识图谱并可视化。

🔬 实验

我们在多种场景下测试了iText2KG方法，包括将科学论文、网站和简历转换为知识图谱。我们采用了GPT-4作为实验基础，因为其在KG构建和推理任务中的优异表现。实验结果显示，iText2KG在一致性和精确性方面优于基线方法。

📊 评估指标

我们提出了一系列评估指标来量化模型的表现，包括：

架构一致性：评估重写文本的内容是否与输入架构匹配。
信息一致性：评估重写文本的语义与原始报告的一致性。
三元组提取精度：评估提取的三元组与相应文本的一致性。
实体/关系解析的误发现率：评估未解析的实体或关系在总提取实体或关系中的比例。

🚀 结论

通过这一系列研究，我们的iText2KG方法成功地构建了一个灵活且高效的知识图谱构建框架。其零样本学习的能力使其在没有大量监督学习的情况下，依然能够在多种应用场景中表现出色。未来的研究将聚焦于提升实体和关系匹配的精确度，进一步优化知识图谱的构建过程。

参考文献

Carta, S. , et al. Iterative zero-shot LLM prompting for knowledge graph construction. arXiv preprint arXiv:2307.01128 (2023).✅
Ding, L. , et al. Automated construction of theme-specific knowledge graphs. arXiv preprint arXiv:2404.19146 (2024).✅
Eberendu, A. C., et al. Unstructured data: an overview of the data of big data. International Journal of Computer Trends and Technology 38(1), 46–50 (2016).✅
Hu, Y. , et al. LLM-Tikg: Threat intelligence knowledge graph construction utilizing large language model. Available at SSRN 4671345 (2023).✅
Zhu, Y. , et al. LLMs for knowledge graph construction and reasoning: Recent capabilities and future opportunities. arXiv preprint arXiv:2305.13168 (2023).✅

以上是关于iText2KG方法的综合概述，希望能够帮助读者更好地理解这一创新的知识图谱构建技术。