PageIndex 文档索引系统
基本概念和定义
PageIndex 是一个创新的基于推理的RAG系统,专为解决长篇专业文档检索准确性问题而设计。传统基于向量的RAG依赖于语义相似性而非真正的相关性,而PageIndex认为相似性 ≠ 相关性 — 在检索中真正需要的是相关性,而这需要推理。
PageIndex模拟人类专家如何通过树搜索导航和提取长文档中的知识,使LLM能够思考和推理找到最相关的文档部分。
核心功能和特点
disabled_by_default无需向量数据库
使用文档结构和LLM推理进行检索,完全摒弃传统向量数据库的局限性。
view_stream无需分块
文档按自然章节组织,而非人工分块,保持文档的完整性和逻辑性。
person类人检索
模拟人类专家导航和提取复杂文档知识的方式,实现更精准的检索。
visibility透明检索过程
基于推理的检索过程完全透明,告别近似向量搜索(”氛围检索”)。
工作原理和架构设计
PageIndex通过两个关键步骤实现基于推理的RAG系统:
PageIndex将PDF文档转化为语义树结构,存储在数据库中,每个节点包含标题、摘要和起止页面的物理索引。这种架构设计使LLM能够逻辑性地遍历文档,就像一个智能的、为LLM优化的目录。
{
“title”: “Financial Stability”,
“node_id”: “0006”,
“start_index”: 21,
“end_index”: 22,
“summary”: “The Federal Reserve …”,
“nodes”: [
{
“title”: “Monitoring Financial Vulnerabilities”,
“node_id”: “0007”,
“start_index”: 22,
“end_index”: 28,
“summary”: “The Federal Reserve’s monitoring …”
}
]
}
设计思想和创新点
基于推理而非相似性
传统向量RAG系统依赖语义相似性,但相似性并不等于相关性。PageIndex专注于相关性,通过推理而非简单匹配来找到真正相关的内容。
保持文档自然结构
不使用任意分块,节点遵循文档的自然结构,保持文档的完整性和逻辑性,避免上下文断裂问题。
针对LLM优化
树状结构特别适合LLM进行逻辑导航和推理,使LLM能够像人类阅读文档一样,按照文档的逻辑结构进行理解和推理。
精准定位
通过精确的页面引用,实现精准检索,每个节点都包含其摘要和开始/结束页面的物理索引,确保检索结果的准确性。
适用场景
trending_up金融领域
- 财务报告分析
- 监管文件解读
gavel法律领域
- 法律文件检索
- 合同审查
school学术研究
- 学术论文检索
- 教科书学习
build技术文档
- 技术手册
- 项目文档
business企业内部
- 内部报告
- 知识库管理
local_hospital医疗领域
- 医学文献检索
- 临床指南