🌌 ä¿¡æ¯æµ·æ´‹ä¸çš„ç¯å¡”:LongKey 框架的关键çŸè¯æå–之旅 2024-12-01 作者 C3P00 在信æ¯çˆ†ç‚¸çš„时代,如何从庞大的文本数æ®ä¸æå–出有价值的信æ¯ï¼Œæˆä¸ºäº†ä¸€ä¸ªäºŸå¾…解决的难题。éšç€æ–‡çŒ®å’Œå¦æœ¯è®ºæ–‡æ•°é‡çš„æ¿€å¢žï¼Œæ‰‹åŠ¨æ ‡æ³¨å’Œæå–关键信æ¯çš„æ–¹å¼å·²ç»æ˜¾å¾—ä¸å†çŽ°å®žã€‚为æ¤ï¼Œè‡ªåŠ¨åŒ–的关键çŸè¯æå–(Keyphrase Extraction, KPE)技术应è¿è€Œç”Ÿï¼Œå®ƒé€šè¿‡è¯†åˆ«æ–‡æœ¬ä¸çš„代表性术è¯æ¥åº”对这一挑战。然而,现有的许多方法主è¦é›†ä¸åœ¨çŸæ–‡æœ¬çš„处ç†ä¸Šï¼Œé¢å¯¹é•¿æ–‡æœ¬æ—¶å´æ˜¾å¾—力ä¸ä»Žå¿ƒã€‚为了解决这一问题,Jeovane Honorio Alves å’Œ Radu State æ出了 LongKey,一个专为长文档设计的关键çŸè¯æå–框架。 📜 引言:信æ¯æå–çš„å¿…è¦æ€§ 在当今信æ¯æ³›æ»¥çš„时代,如何高效地从å„ç§æ–‡æœ¬ä¸æå–出é‡è¦ä¿¡æ¯ï¼Œå°¤å…¶æ˜¯åœ¨äº’è”网和组织数æ®é›†ä¸çš„æµ·é‡æ•°æ®é¢å‰ï¼Œæ˜¾å¾—尤为é‡è¦ã€‚关键çŸè¯æå–旨在识别出能够增强文档ç†è§£ã€æ£€ç´¢å’Œä¿¡æ¯ç®¡ç†çš„代表性çŸè¯ã€‚关键å—é€šå¸¸æ˜¯æ–‡æ¡£ä¸»é¢˜çš„æ ¸å¿ƒæˆ–ç‹¬ç‰¹å…ƒç´ ï¼Œè€Œå¤šä¸ªå•è¯ç»„åˆåœ¨ä¸€èµ·åˆ™å½¢æˆå…³é”®çŸè¯ã€‚在实际应用ä¸ï¼Œå…³é”®å—和关键çŸè¯è¿™ä¸¤ä¸ªæœ¯è¯å¸¸å¸¸å¯ä»¥äº’æ¢ä½¿ç”¨ã€‚ 🔠关键çŸè¯æå–的现状 关键çŸè¯æå–æŠ€æœ¯é€šå¸¸æ ¹æ®å…¶åŸºæœ¬åŽŸç†è¿›è¡Œåˆ†ç±»ã€‚ä¾‹å¦‚ï¼Œæ— ç›‘ç£æ–¹æ³•å¦‚ TF-IDF 通过计算术è¯åœ¨æ–‡æ¡£å’Œæ•´ä¸ªè¯æ–™åº“ä¸çš„频率æ¥è¯„估术è¯çš„é‡è¦æ€§ã€‚RAKE 方法通过共现比率评估å•è¯çš„相关性,而 TextRank 则使用基于图的结构æ¥è¡¡é‡å•è¯çš„å¼ºåº¦å’Œç›¸ä¼¼æ€§ã€‚ä¸Žæ— ç›‘ç£æ–¹æ³•ä¸åŒï¼ŒKeyBERT 使用预è®ç»ƒçš„ BERT 嵌入和余弦相似度æ¥ç¡®å®šé‡è¦æ€§å’Œç›¸å…³æ€§ã€‚ 然而,尽管 KPE 是一ç§å¼ºå¤§çš„å·¥å…·ï¼Œä½†å¤§å¤šæ•°ç ”ç©¶ä»ç„¶é›†ä¸åœ¨çŸæ–‡æœ¬ä¸Šï¼Œå¦‚摘è¦å’Œæ–°é—»æ–‡ç« 。长文本的å¤æ‚æ€§å’Œå¤šæ ·æ€§ä½¿å¾—çŽ°æœ‰æ–¹æ³•éš¾ä»¥åº”å¯¹ï¼Œè¿™å°±éœ€è¦å¼€å‘出专门针对长文本数æ®çš„高级方法。 🚀 LongKey:长文档的关键çŸè¯æå–框架 1. 方法概述 LongKey 的设计旨在填补长文本关键çŸè¯æå–的空白。它的创新之处在于两个关键贡献:首先,LongKey 扩展了对编ç 器模型(如 Longformer)的令牌支æŒï¼Œèƒ½å¤Ÿå¤„ç†å¤šè¾¾ 96K 的令牌,适åˆé•¿æ–‡æ¡£çš„推ç†ï¼›å…¶æ¬¡ï¼Œå®ƒå¼•å…¥äº†ä¸€ç§æ–°çš„关键çŸè¯å€™é€‰åµŒå…¥ç–略,能够æ•æ‰å’Œæ•´åˆæ–‡æ¡£ä¸çš„上下文信æ¯ï¼Œä»Žè€Œå®žçŽ°æ›´å‡†ç¡®çš„上下文感知æå–。 2. LongKey çš„å·¥ä½œåŽŸç† LongKey 的方法论å¯ä»¥åˆ†ä¸ºä¸‰ä¸ªé˜¶æ®µï¼šåˆå§‹å•è¯åµŒå…¥ã€å…³é”®çŸè¯å€™é€‰åµŒå…¥å’Œå€™é€‰è¯„分。æ¯ä¸ªé˜¶æ®µéƒ½æ—¨åœ¨ç²¾ç‚¼å…³é”®çŸè¯çš„选择和评估。 🌠åˆå§‹å•è¯åµŒå…¥ LongKey 使用 Longformer 模型æ¥ç”Ÿæˆé•¿æ–‡æœ¬çš„嵌入。Longformer 是一ç§ç¼–ç 器类型的è¯è¨€æ¨¡åž‹ï¼Œç‹¬ç‰¹ä¹‹å¤„在于它通过滑动窗å£æ³¨æ„力机制和任务特定的全局注æ„力机制æ¥æ”¯æŒæ‰©å±•ä¸Šä¸‹æ–‡ã€‚通过将输入文档转æ¢ä¸ºæ•°å€¼è¡¨ç¤ºï¼ŒLongformer 能够生æˆæ•æ‰æ¯ä¸ªä»¤ç‰Œä¸Šä¸‹æ–‡ç»†èŠ‚的嵌入。 📈 关键çŸè¯åµŒå…¥ 关键çŸè¯åµŒå…¥æ˜¯ä¸Šä¸‹æ–‡æ•æ„Ÿçš„,这æ„味ç€åŒä¸€å…³é”®çŸè¯åœ¨ä¸åŒçš„文本环境ä¸å¯èƒ½ä¼šäº§ç”Ÿä¸åŒçš„嵌入。LongKey 通过å·ç§¯ç½‘络构建æ¯ä¸ªæ½œåœ¨ n-gram 关键çŸè¯çš„åµŒå…¥ï¼Œå¹¶ä½¿ç”¨æœ€å¤§æ± åŒ–æ“作将关键çŸè¯å€™é€‰çš„所有出现åˆå¹¶ä¸ºå•ä¸€çš„综åˆè¡¨ç¤ºã€‚è¿™ç§æ–¹æ³•å¸®åŠ©å¼ºè°ƒæœ€å…·ä¸Šä¸‹æ–‡æ„义的关键çŸè¯ã€‚ 🆠候选评分 在 LongKey 方法ä¸ï¼Œæ¯ä¸ªå€™é€‰åµŒå…¥éƒ½ä¼šè¢«åˆ†é…一个排å分数,分数越高表示关键çŸè¯è¶Šèƒ½å‡†ç¡®ä»£è¡¨æ–‡æ¡£å†…容。LongKey 在è®ç»ƒè¿‡ç¨‹ä¸é€šè¿‡ä¼˜åŒ–排åæŸå¤±å’Œåˆ†å—æŸå¤±æ¥å¾®è°ƒå…¶æ€§èƒ½ï¼Œç¡®ä¿ä¸ŽçœŸå®žå…³é”®çŸè¯çš„相关性。 📊 å®žéªŒè®¾ç½®ä¸Žç»“æžœåˆ†æž LongKey 在广泛的 LDKP æ•°æ®é›†ä¸Šè¿›è¡Œäº†éªŒè¯ï¼Œå¹¶åœ¨å…个ä¸åŒçš„未è§æ•°æ®é›†ä¸Šè¿›è¡Œäº†æµ‹è¯•ã€‚实验结果表明,LongKey 在关键çŸè¯æå–任务ä¸è¡¨çŽ°ä¼˜å¼‚,尤其是在长文本的处ç†ä¸Šã€‚ 1. æ•°æ®é›† 为了评估 LongKey çš„èƒ½åŠ›ï¼Œç ”ç©¶è€…ä»¬æž„å»ºäº†é•¿æ–‡æ¡£å…³é”®çŸè¯è¯†åˆ«æ•°æ®é›†ï¼ˆLDKP),该数æ®é›†ä¸“门用于从完整文本ä¸æå–关键çŸè¯ã€‚LDKP 包å«ä¸¤ä¸ªåæ•°æ®é›†ï¼šLDKP3K å’Œ LDKP10K. ¼Œåˆ†åˆ«åŒ…å«çº¦ 100,000 å’Œ 1.3M 的文档。✅ 2. 实验结果 在 LDKP3K 测试å集上,LongKey 的表现优于其他方法,F1@5 达到了 39.55%。在 LDKP10K 测试å集上,LongKey 也以 41.81% çš„ F1@5 领先。å³ä½¿åœ¨é¢†åŸŸè½¬ç§»çš„情况下,LongKey ä»ç„¶ä¿æŒäº†è‰¯å¥½çš„性能,显示出其在ä¸åŒæ–‡æœ¬é•¿åº¦å’Œé¢†åŸŸä¸çš„适应性。 🌟 总结与展望 LongKey çš„æ出为长文档的关键çŸè¯æå–设立了新的基准。它的创新架构和有效的嵌入ç–略为文档索引ã€æ‘˜è¦å’Œæ£€ç´¢æ供了显著的潜力。尽管在çŸæ–‡æœ¬æ•°æ®é›†ä¸Šçš„表现略显ä¸è¶³ï¼Œä½† LongKey 在长文本数æ®é›†ä¸Šçš„优势使其æˆä¸ºæœªæ¥ç ”究的é‡è¦æ–¹å‘。 未æ¥çš„工作å¯ä»¥è€ƒè™‘扩展关键çŸè¯çš„长度é™åˆ¶ï¼Œå¹¶ä¼˜åŒ–模型以更好地处ç†é•¿æ–‡æœ¬å†…容。LongKey çš„æˆåŠŸå±•ç¤ºäº†åœ¨ä¿¡æ¯è¿‡è½½çš„时代,自动化关键çŸè¯æå–技术的é‡è¦æ€§å’Œæ½œåŠ›ã€‚ 📚 å‚考文献 Alves, J. H., & State, R. (2024). LongKey: Keyphrase Extraction for Long Documents. arXiv:2411.17863v1.✅ BERT, Devlin, J. , Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.✅ TF-IDF, Salton, G. , & Buckley, C. (1988). Term Weighting Approaches in Automatic Text Retrieval.✅ TextRank, Mihalcea, R. , & Tarau, P. (2004). TextRank: Bringing Order into Texts.✅ RAKE, Rose, S. , Engel, D., & Cowley, W. (2010). Automatic Keyword Extraction from Individual Documents.✅ Longformer, Beltagy, I. , Peters, M. E., & Cohan, A. (2020). Longformer: The Long-Document Transformer.✅
在信æ¯çˆ†ç‚¸çš„时代,如何从庞大的文本数æ®ä¸æå–出有价值的信æ¯ï¼Œæˆä¸ºäº†ä¸€ä¸ªäºŸå¾…解决的难题。éšç€æ–‡çŒ®å’Œå¦æœ¯è®ºæ–‡æ•°é‡çš„æ¿€å¢žï¼Œæ‰‹åŠ¨æ ‡æ³¨å’Œæå–关键信æ¯çš„æ–¹å¼å·²ç»æ˜¾å¾—ä¸å†çŽ°å®žã€‚为æ¤ï¼Œè‡ªåŠ¨åŒ–的关键çŸè¯æå–(Keyphrase Extraction, KPE)技术应è¿è€Œç”Ÿï¼Œå®ƒé€šè¿‡è¯†åˆ«æ–‡æœ¬ä¸çš„代表性术è¯æ¥åº”对这一挑战。然而,现有的许多方法主è¦é›†ä¸åœ¨çŸæ–‡æœ¬çš„处ç†ä¸Šï¼Œé¢å¯¹é•¿æ–‡æœ¬æ—¶å´æ˜¾å¾—力ä¸ä»Žå¿ƒã€‚为了解决这一问题,Jeovane Honorio Alves å’Œ Radu State æ出了 LongKey,一个专为长文档设计的关键çŸè¯æå–框架。
📜 引言:信æ¯æå–çš„å¿…è¦æ€§
在当今信æ¯æ³›æ»¥çš„时代,如何高效地从å„ç§æ–‡æœ¬ä¸æå–出é‡è¦ä¿¡æ¯ï¼Œå°¤å…¶æ˜¯åœ¨äº’è”网和组织数æ®é›†ä¸çš„æµ·é‡æ•°æ®é¢å‰ï¼Œæ˜¾å¾—尤为é‡è¦ã€‚关键çŸè¯æå–旨在识别出能够增强文档ç†è§£ã€æ£€ç´¢å’Œä¿¡æ¯ç®¡ç†çš„代表性çŸè¯ã€‚关键å—é€šå¸¸æ˜¯æ–‡æ¡£ä¸»é¢˜çš„æ ¸å¿ƒæˆ–ç‹¬ç‰¹å…ƒç´ ï¼Œè€Œå¤šä¸ªå•è¯ç»„åˆåœ¨ä¸€èµ·åˆ™å½¢æˆå…³é”®çŸè¯ã€‚在实际应用ä¸ï¼Œå…³é”®å—和关键çŸè¯è¿™ä¸¤ä¸ªæœ¯è¯å¸¸å¸¸å¯ä»¥äº’æ¢ä½¿ç”¨ã€‚
🔠关键çŸè¯æå–的现状
关键çŸè¯æå–æŠ€æœ¯é€šå¸¸æ ¹æ®å…¶åŸºæœ¬åŽŸç†è¿›è¡Œåˆ†ç±»ã€‚ä¾‹å¦‚ï¼Œæ— ç›‘ç£æ–¹æ³•å¦‚ TF-IDF 通过计算术è¯åœ¨æ–‡æ¡£å’Œæ•´ä¸ªè¯æ–™åº“ä¸çš„频率æ¥è¯„估术è¯çš„é‡è¦æ€§ã€‚RAKE 方法通过共现比率评估å•è¯çš„相关性,而 TextRank 则使用基于图的结构æ¥è¡¡é‡å•è¯çš„å¼ºåº¦å’Œç›¸ä¼¼æ€§ã€‚ä¸Žæ— ç›‘ç£æ–¹æ³•ä¸åŒï¼ŒKeyBERT 使用预è®ç»ƒçš„ BERT 嵌入和余弦相似度æ¥ç¡®å®šé‡è¦æ€§å’Œç›¸å…³æ€§ã€‚
然而,尽管 KPE 是一ç§å¼ºå¤§çš„å·¥å…·ï¼Œä½†å¤§å¤šæ•°ç ”ç©¶ä»ç„¶é›†ä¸åœ¨çŸæ–‡æœ¬ä¸Šï¼Œå¦‚摘è¦å’Œæ–°é—»æ–‡ç« 。长文本的å¤æ‚æ€§å’Œå¤šæ ·æ€§ä½¿å¾—çŽ°æœ‰æ–¹æ³•éš¾ä»¥åº”å¯¹ï¼Œè¿™å°±éœ€è¦å¼€å‘出专门针对长文本数æ®çš„高级方法。
🚀 LongKey:长文档的关键çŸè¯æå–框架
1. 方法概述
LongKey 的设计旨在填补长文本关键çŸè¯æå–的空白。它的创新之处在于两个关键贡献:首先,LongKey 扩展了对编ç 器模型(如 Longformer)的令牌支æŒï¼Œèƒ½å¤Ÿå¤„ç†å¤šè¾¾ 96K 的令牌,适åˆé•¿æ–‡æ¡£çš„推ç†ï¼›å…¶æ¬¡ï¼Œå®ƒå¼•å…¥äº†ä¸€ç§æ–°çš„关键çŸè¯å€™é€‰åµŒå…¥ç–略,能够æ•æ‰å’Œæ•´åˆæ–‡æ¡£ä¸çš„上下文信æ¯ï¼Œä»Žè€Œå®žçŽ°æ›´å‡†ç¡®çš„上下文感知æå–。
2. LongKey 的工作原ç†
LongKey 的方法论å¯ä»¥åˆ†ä¸ºä¸‰ä¸ªé˜¶æ®µï¼šåˆå§‹å•è¯åµŒå…¥ã€å…³é”®çŸè¯å€™é€‰åµŒå…¥å’Œå€™é€‰è¯„分。æ¯ä¸ªé˜¶æ®µéƒ½æ—¨åœ¨ç²¾ç‚¼å…³é”®çŸè¯çš„选择和评估。
🌠åˆå§‹å•è¯åµŒå…¥
LongKey 使用 Longformer 模型æ¥ç”Ÿæˆé•¿æ–‡æœ¬çš„嵌入。Longformer 是一ç§ç¼–ç 器类型的è¯è¨€æ¨¡åž‹ï¼Œç‹¬ç‰¹ä¹‹å¤„在于它通过滑动窗å£æ³¨æ„力机制和任务特定的全局注æ„力机制æ¥æ”¯æŒæ‰©å±•ä¸Šä¸‹æ–‡ã€‚通过将输入文档转æ¢ä¸ºæ•°å€¼è¡¨ç¤ºï¼ŒLongformer 能够生æˆæ•æ‰æ¯ä¸ªä»¤ç‰Œä¸Šä¸‹æ–‡ç»†èŠ‚的嵌入。
📈 关键çŸè¯åµŒå…¥
关键çŸè¯åµŒå…¥æ˜¯ä¸Šä¸‹æ–‡æ•æ„Ÿçš„,这æ„味ç€åŒä¸€å…³é”®çŸè¯åœ¨ä¸åŒçš„文本环境ä¸å¯èƒ½ä¼šäº§ç”Ÿä¸åŒçš„嵌入。LongKey 通过å·ç§¯ç½‘络构建æ¯ä¸ªæ½œåœ¨ n-gram 关键çŸè¯çš„åµŒå…¥ï¼Œå¹¶ä½¿ç”¨æœ€å¤§æ± åŒ–æ“作将关键çŸè¯å€™é€‰çš„所有出现åˆå¹¶ä¸ºå•ä¸€çš„综åˆè¡¨ç¤ºã€‚è¿™ç§æ–¹æ³•å¸®åŠ©å¼ºè°ƒæœ€å…·ä¸Šä¸‹æ–‡æ„义的关键çŸè¯ã€‚
🆠候选评分
在 LongKey 方法ä¸ï¼Œæ¯ä¸ªå€™é€‰åµŒå…¥éƒ½ä¼šè¢«åˆ†é…一个排å分数,分数越高表示关键çŸè¯è¶Šèƒ½å‡†ç¡®ä»£è¡¨æ–‡æ¡£å†…容。LongKey 在è®ç»ƒè¿‡ç¨‹ä¸é€šè¿‡ä¼˜åŒ–排åæŸå¤±å’Œåˆ†å—æŸå¤±æ¥å¾®è°ƒå…¶æ€§èƒ½ï¼Œç¡®ä¿ä¸ŽçœŸå®žå…³é”®çŸè¯çš„相关性。
📊 实验设置与结果分æž
LongKey 在广泛的 LDKP æ•°æ®é›†ä¸Šè¿›è¡Œäº†éªŒè¯ï¼Œå¹¶åœ¨å…个ä¸åŒçš„未è§æ•°æ®é›†ä¸Šè¿›è¡Œäº†æµ‹è¯•ã€‚实验结果表明,LongKey 在关键çŸè¯æå–任务ä¸è¡¨çŽ°ä¼˜å¼‚,尤其是在长文本的处ç†ä¸Šã€‚
1. æ•°æ®é›†
为了评估 LongKey çš„èƒ½åŠ›ï¼Œç ”ç©¶è€…ä»¬æž„å»ºäº†é•¿æ–‡æ¡£å…³é”®çŸè¯è¯†åˆ«æ•°æ®é›†ï¼ˆLDKP),该数æ®é›†ä¸“门用于从完整文本ä¸æå–关键çŸè¯ã€‚LDKP 包å«ä¸¤ä¸ªåæ•°æ®é›†ï¼šLDKP3K å’Œ LDKP10K. ¼Œåˆ†åˆ«åŒ…å«çº¦ 100,000 å’Œ 1.3M 的文档。✅
2. 实验结果
在 LDKP3K 测试å集上,LongKey 的表现优于其他方法,F1@5 达到了 39.55%。在 LDKP10K 测试å集上,LongKey 也以 41.81% çš„ F1@5 领先。å³ä½¿åœ¨é¢†åŸŸè½¬ç§»çš„情况下,LongKey ä»ç„¶ä¿æŒäº†è‰¯å¥½çš„性能,显示出其在ä¸åŒæ–‡æœ¬é•¿åº¦å’Œé¢†åŸŸä¸çš„适应性。
🌟 总结与展望
LongKey çš„æ出为长文档的关键çŸè¯æå–设立了新的基准。它的创新架构和有效的嵌入ç–略为文档索引ã€æ‘˜è¦å’Œæ£€ç´¢æ供了显著的潜力。尽管在çŸæ–‡æœ¬æ•°æ®é›†ä¸Šçš„表现略显ä¸è¶³ï¼Œä½† LongKey 在长文本数æ®é›†ä¸Šçš„优势使其æˆä¸ºæœªæ¥ç ”究的é‡è¦æ–¹å‘。
未æ¥çš„工作å¯ä»¥è€ƒè™‘扩展关键çŸè¯çš„长度é™åˆ¶ï¼Œå¹¶ä¼˜åŒ–模型以更好地处ç†é•¿æ–‡æœ¬å†…容。LongKey çš„æˆåŠŸå±•ç¤ºäº†åœ¨ä¿¡æ¯è¿‡è½½çš„时代,自动化关键çŸè¯æå–技术的é‡è¦æ€§å’Œæ½œåŠ›ã€‚
📚 å‚考文献