分类: ðŸŒ

  • çªç ´ä¼ ç»Ÿï¼šåˆ©ç”¨å¤§åž‹è¯­è¨€æ¨¡åž‹æå‡è´¢åŠ¡æ•°æ®å¼‚常检测

    财务数æ®ï¼Œå°¤å…¶æ˜¯æ¥è‡ªæ€»è´¦çš„æ•°æ®ï¼Œè®°å½•ç€ä¼ä¸šçš„财务交易,包括收入ã€æ”¯å‡ºã€èµ„产和负债,对于确ä¿è´¢åŠ¡è®°å½•çš„真实性和é€æ˜Žåº¦è‡³å…³é‡è¦ [21, 24]。它ä¸ä»…帮助ä¼ä¸šæ»¡è¶³ç›‘管机构ã€æŠ•èµ„者和金èžæœºæž„等利益相关者的è¦æ±‚,还通过分æžæ”¯æŒå†³ç­–,而异常检测则是维护数æ®å®Œæ•´æ€§å’Œå¯é æ€§çš„关键 [37]。

    然而,财务数æ®ä¸­çš„异常,å¯èƒ½æ˜¯ç”±äºŽé”™è¯¯ã€æ¬ºè¯ˆæˆ–æ“纵造æˆçš„,会带æ¥å·¨å¤§çš„财务æŸå¤±ï¼ŒæŸå®³æŠ•èµ„者信心,并需è¦è¿›è¡Œæ¬ºè¯ˆè°ƒæŸ¥ [24]。因此,åŠæ—¶æœ‰æ•ˆåœ°æ£€æµ‹å¼‚常对于éµå®ˆæ³•è§„å’Œä¿æŠ¤è´¢åŠ¡å®‰å…¨è‡³å…³é‡è¦ [8, 22]。传统的财务异常检测方法在处ç†å¤æ‚ã€åºžå¤§çš„æ•°æ®å’Œä¸æ–­å‡çº§çš„欺诈手法方é¢å­˜åœ¨å›°éš¾ã€‚早期的åšæ³•ä¾èµ–于人工检查和基于规则的系统,效率低下,æ¼æŽ‰äº†å¾ˆå¤šå¼‚常,并产生了大é‡è¯¯æŠ¥ï¼Œå¯¼è‡´è´¢åŠ¡æ¬ºè¯ˆéš¾ä»¥å¯Ÿè§‰ [5]。

    机器学习 (ML) 在现代财务审计中å˜å¾—越æ¥è¶Šé‡è¦ï¼Œå®ƒèƒ½å¤Ÿé«˜æ•ˆåœ°å¤„ç†å¤§åž‹æ•°æ®é›†å¹¶è¯†åˆ«å…¶ä¸­çš„模å¼ã€‚然而,éšç€è´¢åŠ¡æ¬ºè¯ˆæ‰‹æ³•å˜å¾—越æ¥è¶Šå¤æ‚,需è¦æ–°çš„方法æ¥å…‹æœæ•°æ®é¢„处ç†å’Œæ¨¡åž‹å±€é™æ€§å¸¦æ¥çš„挑战 [2, 22]。最近的研究表明,自动编ç å™¨åœ¨å¼‚常检测方é¢æœ‰æ½œåŠ›ï¼Œè€Œå¤§åž‹è¯­è¨€æ¨¡åž‹ (LLM) 在å„ç§ä»»åŠ¡ä¸­éƒ½è¡¨çŽ°å‡ºè‰²ï¼Œä½†çŽ°å®žä¸–界数æ®çš„稀ç–性和å¤æ‚性é™åˆ¶äº†å®ƒä»¬çš„有效性 [26, 36]。

    挑战与机é‡ï¼šåˆ©ç”¨å¤§åž‹è¯­è¨€æ¨¡åž‹ç¼–ç éžè¯­ä¹‰è´¢åŠ¡æ•°æ®

    本文ç€çœ¼äºŽé«˜æ•ˆæ£€æµ‹æ€»è´¦æ•°æ®ä¸­çš„异常,é‡ç‚¹å…³æ³¨ç‰¹å¾ç»´åº¦å¼‚质性和特å¾ç¨€ç–性这两个问题,它们阻ç¢äº†è´¢åŠ¡å®¡è®¡ä¸­çš„异常检测。我们的方法是利用 Sentence-BERT LLM 的预训练表示æ¥ç¼–ç æ—¥è®°è´¦åˆ†å½•ä¸­çš„éžè¯­ä¹‰åˆ†ç±»æ•°æ®ï¼Œä»Žè€Œæ高对数æ®å¼‚常的识别能力。

    现有的解决方案使用å„ç§çŸ¢é‡åŒ–方法,éšåŽå¯¹ç¨€ç–特å¾è¿›è¡Œé™ç»´ï¼Œä½†è¿™å¯èƒ½ä¸è¶³ä»¥åº”对现实世界中的日记账分录,因为这些分录在长度和å¤æ‚性上往往差异很大。此外,交易异常的éžæ—¶é—´æ€§ç‰¹å¾é™åˆ¶äº†å¯åº”用的特å¾ç¼–ç æ–¹æ³•èŒƒå›´ã€‚因此,用于检测财务数æ®å¼‚常的机器学习算法在处ç†å¼‚质性和稀ç–æ•°æ®æ—¶ä¼šé‡åˆ°å›°éš¾ï¼Œå¯¼è‡´ç¼–ç å’Œåˆ†ç±»é—®é¢˜ï¼Œæœ€ç»ˆå¯¼è‡´ç»“æžœä¸ç†æƒ³ã€‚这会影å“财务记录审计的å¯é æ€§ã€‚

    我们æ出了一ç§æ–°æ–¹æ³•ï¼Œå¦‚图 1 所示,利用预训练的 Sentence-Transformer 模型æ¥ç¼–ç éžè¯­ä¹‰è´¢åŠ¡æ•°æ®ï¼Œè§£å†³ç‰¹å¾å¼‚质性和稀ç–性问题。这ç§æ–¹æ³•ä¸åŒäºŽä¼ ç»Ÿçš„财务异常检测机器学习技术,它æ出了一ç§æ··åˆæ¨¡åž‹ï¼Œå°† Sentence-Transformer 嵌入与机器学习分类器相结åˆï¼Œä»¥æ高异常检测性能。准确的异常检测是å¯é è´¢åŠ¡å®¡è®¡çš„基石。改进处ç†è´¢åŠ¡æ•°æ®ä¸­çš„异质性和稀ç–性的方法å¯ä»¥æ˜¾è‘—æ高异常检测æµç¨‹ï¼Œæœ‰åŠ©äºŽæ›´å¥½åœ°è¿›è¡Œé£Žé™©ç®¡ç†å’Œéµå®ˆæ³•è§„。该方法在财务异常检测之外具有更广泛的æ„义,为跨领域应用高级编ç æŠ€æœ¯å¤„ç†å¤æ‚æ•°æ®é›†æ供了模æ¿ã€‚

    研究目标与贡献

    在这项工作中,我们æ出了以下两个å‡è®¾ï¼š

    • å‡è®¾ 1: 利用 Sentence-Transformer LLM 对财务记录中的éžè¯­ä¹‰åˆ†ç±»æ•°æ®è¿›è¡Œç¼–ç ï¼Œå¯ä»¥æœ‰æ•ˆåœ°æ ‡å‡†åŒ–特å¾å˜å¼‚性,增强特å¾é›†çš„紧凑性和信æ¯ä¿ç•™èƒ½åŠ›ï¼Œä¸Žä¼ ç»Ÿæ–¹æ³•ç›¸æ¯”,这一点å¯ä»¥é€šè¿‡ PCA ç­‰é™ç»´æŠ€æœ¯æ¥è¡¡é‡ã€‚
    • å‡è®¾ 2: 将基于 Sentence-Transformer çš„ LLM 嵌入与优化的机器学习模型相结åˆï¼Œå¯ä»¥æ高财务日记账分录中的异常检测性能,这一点å¯ä»¥é€šè¿‡ä¸Žä¼ ç»Ÿæœºå™¨å­¦ä¹ æ–¹æ³•ç›¸æ¯”,改进评估指标æ¥è¯æ˜Žã€‚

    在制定我们的å‡è®¾æ—¶ï¼Œæˆ‘们借鉴了最近的研究å‘现,这些å‘现表明 LLM 除了文本任务之外,还å¯ä»¥é€‚应其他任务 [28]。研究表明,最åˆåœ¨æ–‡æœ¬ä¸Šè®­ç»ƒçš„ LLM å¯ä»¥æœ‰æ•ˆåœ°å¤„ç†å’Œç¼–ç éžæ–‡æœ¬ã€è¯­è¨€éžè¯­ä¹‰æ•°æ® [30]。这ç§èƒ½åŠ›æºäºŽå…¶ Transformer å—çš„ç¼–ç åŠŸèƒ½ï¼Œä¿ƒä½¿æˆ‘们æ出了å‡è®¾ 1,建议使用 SBERT LLM å°†éžè¯­ä¹‰è´¢åŠ¡æ•°æ®é›†è½¬æ¢ä¸ºæ ‡å‡†åŒ–çš„å•ä¸€å°ºå¯¸å‘é‡ç‰¹å¾ã€‚éšåŽï¼Œæˆ‘们的å‡è®¾ 2 建立在 LLM 高效的编ç èƒ½åŠ›åŸºç¡€ä¸Šï¼Œè¿™æ„味ç€é›†æˆ LLM 嵌入å¯ä»¥å¢žå¼ºæœºå™¨å­¦ä¹ æ¨¡åž‹ï¼Œç‰¹åˆ«æ˜¯åœ¨æ£€æµ‹è´¢åŠ¡æ•°æ®ä¸­çš„异常方é¢ã€‚验è¯å‡è®¾ 1 å°†è¯æ˜Žä¸€ç§ç®¡ç†è´¢åŠ¡è®°å½•ä¸­ç‰¹å¾å˜å¼‚性的新方法,增强异常检测。确认å‡è®¾ 2 将说明将 LLM 嵌入与优化模型相结åˆåœ¨æ£€æµ‹è´¢åŠ¡å¼‚常方é¢çš„有效性,有å¯èƒ½è¶…越传统方法。

    这些å‘现å¯ä»¥å…±åŒæ”¹å˜å½“å‰è´¢åŠ¡å¼‚常检测的åšæ³•ã€‚LLM 的创新应用å¯ä»¥æžå¤§åœ°æŽ¨åŠ¨è¯¥é¢†åŸŸçš„å‘展,展示其在跨学科应用中的潜力,并改进财务审计和监控系统。

    背景与相关工作

    机器学习方法åŠå…¶åœ¨æ£€æµ‹è´¢åŠ¡å¼‚常方é¢çš„å±€é™æ€§

    财务异常检测至关é‡è¦ï¼Œæ¬ºè¯ˆæ´»åŠ¨å¯¹è¯¥è¡Œä¸šé€ æˆäº†å·¨å¤§å½±å“。数字金èžæœåŠ¡çš„兴起,尤其是在 COVID-19 大æµè¡Œä¹‹åŽï¼Œéœ€è¦å…ˆè¿›çš„欺诈检测方法 [43]。深度学习,包括å˜åˆ†è‡ªåŠ¨ç¼–ç å™¨å’Œ LSTM 架构,在检测日记账分录 [44] 和电å­å•†åŠ¡ [27] 中的异常方é¢å–得了æˆåŠŸï¼ŒLSTM 也éžå¸¸æœ‰æ•ˆ [1]。图神ç»ç½‘络 (GNN) 以其处ç†æ¬ºè¯ˆæ£€æµ‹ä¸­å¤æ‚æ•°æ®å…³ç³»çš„能力而著称 [43]。å„ç§æœºå™¨å­¦ä¹ æŠ€æœ¯ï¼Œå¦‚朴素è´å¶æ–¯ã€é€»è¾‘回归ã€KNNã€éšæœºæ£®æž—å’Œé¡ºåº CNN,已被应用于信用å¡æ¬ºè¯ˆæ£€æµ‹ [29],其中基于 CatBoost 的方法çªå‡ºäº†ç‰¹å¾å·¥ç¨‹å’Œå†…存压缩在æ高效率方é¢çš„作用 [13]。机器学习在金èžé¢†åŸŸå¾—到了广泛的应用,从检测日记账分录异常到识别医疗ä¿å¥å’Œé“¶è¡Œä¸šåŠ¡ä¸­çš„欺诈交易 [29, 38]。虽然案例研究è¯å®žäº†å®ƒä»¬çš„有效性,但也指出了实际应用中的挑战 [7]。

    由于欺诈手法ä¸æ–­å˜åŒ–和财务数æ®çš„å¤æ‚性,在财务欺诈检测中应用机器学习é¢ä¸´ç€æŒ‘战 [11]。准确的建模ä¾èµ–于高质é‡çš„标准化数æ®ï¼Œè¿™ä¸€ç‚¹åœ¨ä¿¡ç”¨å¡è¡Œä¸šä¸­ä¹Ÿæœ‰æ‰€è®¨è®º [31]。财务数æ®çš„éžå¹³ç¨³æ€§ã€éžçº¿æ€§æ€§å’Œä½Žä¿¡å™ªæ¯”使模型训练和性能å¤æ‚化 [40],需è¦å…ˆè¿›çš„方法æ¥é¢„处ç†å¤æ‚æ•°æ®ï¼Œæ高数æ®è´¨é‡å’Œæ¨¡åž‹æ€§èƒ½ã€‚增强数æ®è¡¨ç¤ºå’Œç®€åŒ–特å¾è¿˜å¯ä»¥æ高机器学习模型的å¯è§£é‡Šæ€§ï¼Œæ»¡è¶³é‡‘èžé¢†åŸŸçš„法规和åˆè§„è¦æ±‚ [38]。此外,平衡计算å¤æ‚度和高检测精度至关é‡è¦ [27],这强调了需è¦å¢žå¼ºç‰¹å¾é›†çš„紧凑性和信æ¯ä¿ç•™èƒ½åŠ›ã€‚有希望的研究方å‘需è¦æŽ¢ç´¢å„ç§æœºå™¨å­¦ä¹ æ–¹æ³•å’Œæ··åˆåº”用,强调创新的数æ®é¢„处ç†å’Œé€‚应性强的机器学习方法,以应对数æ®è´¨é‡å’Œæ¨¡åž‹é€‚应性挑战 [4]。

    大型语言模型的应用和能力

    GPT-3ã€PaLM å’Œ LLaMA 等大型语言模型标志ç€è‡ªç„¶è¯­è¨€å¤„ç† (NLP) 和人工智能 (AI) 的范å¼è½¬å˜ï¼Œä»ŽåŸºäºŽè§„则的框架å‘展到å¤æ‚çš„ Transformer 等神ç»ç½‘络架构。这ç§æ¼”å˜ä½¿ LLM 能够将大é‡è¯­è¨€æ•°æ®é›†ç¼–ç ä¸ºå‘é‡è¡¨ç¤ºï¼Œç”¨äºŽå„ç§åº”用 [41, 42]。BERT 等大型语言模型擅长æ•æ‰è¯­è¨€çš„å¤æ‚语义和å¥æ³•ç»†å¾®å·®åˆ«ï¼Œä»Žè€Œäº§ç”Ÿå¯†é›†çš„嵌入。这些嵌入对于节点分类等任务至关é‡è¦ï¼Œä¾‹å¦‚文本图中的节点分类 [14],è¯æ˜Žäº† LLM 能够从大é‡æ–‡æœ¬è¯­æ–™åº“中生æˆæœ‰æ„义的表示 [32]。LLM 最åˆæ˜¯ä¸ºè¯­è¨€ä»»åŠ¡è€Œè®¾è®¡çš„,但它显示出éžå‡¡çš„多功能性,扩展到éžè¯­è¨€é¢†åŸŸï¼Œæœ‰æ•ˆåœ°å°†å„ç§æ•°æ®ç±»åž‹ï¼ˆåŒ…括éžè¯­ä¹‰å…ƒç´ ï¼‰ç¼–ç ä¸ºé¡ºåºæ ¼å¼ã€‚例如,Sentence-Transformers 对éžè¯­è¨€æ•°æ®è¿›è¡ŒçŸ¢é‡åŒ–,将 LLM 的使用扩展到计算机视觉 [30]。LLM 在文本摘è¦å’Œå†…容推è等任务中表现出色,从而è¯æ˜Žäº†å…¶å¹¿æ³›çš„适用性 [25, 41, 42]。LLM 通过有效地管ç†ç‰¹å¾å˜å¼‚性和稀ç–性,为数æ®åˆ†æžæ供了创新方法,从而增强了异常检测。它们å¯ä»¥è¶…越传统的机器学习,处ç†å¤æ‚æ•°æ®ä»¥è¿›è¡Œé«˜çº§åˆ†æž [3, 20]。

    在财务分æžä¸­ï¼ŒLLM æž„æˆäº†ä¸€æ¬¡é‡å¤§çš„方法论飞跃。Sentence-Transformers 强调了 LLM 在处ç†å¼‚常检测中的特å¾å¼‚质性和稀ç–性方é¢çš„能力,因为它å¯ä»¥ç”Ÿæˆæœ‰æ„义的å‘é‡ [34, 39, 40]。Sentence-BERT (SBERT) 是 BERT 的改进版本,它å¯ä»¥ç”Ÿæˆè¯­ä¹‰å¯†é›†çš„å¥å­åµŒå…¥ï¼Œä»Žè€Œæ高èšç±»å’Œè¯­ä¹‰æœç´¢çš„性能 [34]。SBERT 利用暹罗网络和三元组网络æ¥å¢žå¼ºå¥å­è¯­ä¹‰åˆ†æžï¼Œç¡®ä¿ç›¸ä¼¼çš„å¥å­åœ¨åµŒå…¥ç©ºé—´ä¸­å½¼æ­¤é è¿‘。这ç§æ”¹è¿›å°†åµŒå…¥ç”Ÿæˆæ—¶é—´ä»Ž BERT çš„ 65 å°æ—¶ç¼©çŸ­åˆ°å¤§åž‹æ•°æ®é›†çš„几秒钟。SBERT 在å¥å­å¯¹å›žå½’和语义相似性等å„ç§ä»»åŠ¡ä¸­è¡¨çŽ°å‡ºè‰²ï¼Œè¯æ˜Žäº†å®ƒåœ¨ä¼ ç»Ÿæ–‡æœ¬ä»»åŠ¡ä¹‹å¤–,快速ã€é«˜è´¨é‡åœ°åµŒå…¥è¯­è¨€å’Œéžè¯­è¨€æ•°æ®åº”用方é¢çš„潜力 [34]。

    财务异常检测中的研究差è·

    尽管机器学习和深度学习在财务异常检测方é¢å–得了进展,但这些方法往往由于财务数æ®çš„多样性和稀ç–性而失败,特别是在日记账分录中,这会æŸå®³æ•°æ®ç¼–ç å’Œåˆ†ç±»çš„有效性,进而影å“财务审计的精度和å¯é æ€§ [6]。传统的异常检测技术ä¾èµ–于矢é‡åŒ–å’Œé™ç»´ï¼Œä½†è¿™äº›æŠ€æœ¯å¯èƒ½ä¸è¶³ä»¥åº”对现实世界中的日记账分录,因为这些分录在长度和å¤æ‚性上差异很大。此外,财务交易的éžæ—¶é—´æ€§ç‰¹å¾é™åˆ¶äº†ä¸€äº›ç‰¹å¾ç¼–ç ç­–略的使用。

    先进的机器学习技术在éžè¯­ä¹‰ã€åˆ†ç±»è´¢åŠ¡æ•°æ®æ–¹é¢ä»æœªå¾—到充分利用,传统的异常检测方法在解决éžæ—¶é—´æ€§å’Œå¼‚质性数æ®å¤æ‚性方é¢å­˜åœ¨ä¸è¶³ã€‚Sentence-Transformer LLM 在财务数æ®åˆ†æžæ–¹é¢å°šæœªå¼€å‘的潜力,为处ç†ç‰¹å¾å˜å¼‚性和稀ç–性æ供了创新机会。通过将 LLM 嵌入与优化的机器学习模型相结åˆï¼Œå¼¥åˆé‡è¦çš„研究差è·ï¼Œå¯ä»¥æ˜¾è‘—æ高财务异常检测的分类精度和数æ®ç¼–ç ç¨³å¥æ€§ï¼Œè¶…越传统方法。

    æ•°æ®æ述和伦ç†è€ƒé‡

    在我们的工作中,我们使用了æ¥è‡ªå„ç§åŒ¿åå…¬å¸çš„汇总的真实世界总账数æ®é›†ï¼Œå¦‚ Bakumenko 等人所述 [6]。该数æ®é›†åŒ…å«åŒ¿å化的日记账分录,涵盖多个行业和时间段的系统特定账户计划。它最åˆç»è¿‡é¢„处ç†ï¼ŒæŽ’除了包å«è¶…过四个交易的分录,以管ç†å¼‚常值。它包å«ä¸€å°éƒ¨åˆ†å¸¦æ ‡ç­¾çš„异常,其中包å«å…«ç§ç±»åž‹çš„错误,这些错误由财务审计人员创建,以å映财务记录中常è§çš„异常,表明现实世界异常检测中的关键关注领域。该数æ®é›†ä¾§é‡äºŽå¯¹å¼‚常检测至关é‡è¦çš„属性,例如æºç³»ç»Ÿã€è´¦æˆ·ç±»åˆ«å’Œå€Ÿè´·æŒ‡ç¤ºå™¨ï¼Œç®€åŒ–了数æ®ä¸­å¼‚常的识别。

    在这项工作中,我们对总账数æ®é›†åº”用了严格的伦ç†å议,确ä¿å½»åº•çš„匿å化,以消除任何关于公å¸æˆ–个人的å¯è¯†åˆ«ä¿¡æ¯ã€‚该数æ®é›†ä¿æŒæœºå¯†ï¼Œä¸å¯å…±äº«ï¼Œé˜²æ­¢æœªç»æŽˆæƒçš„访问。我们é¿å…使用云存储,以最大é™åº¦åœ°é™ä½Žæ•°æ®æ³„露风险,维护数æ®é›†çš„完整性。数æ®å¤„ç†å’Œåˆ†æžä¸¥æ ¼éµå®ˆæ³•å¾‹å’Œä¼¦ç†å‡†åˆ™ã€‚引入的异常ç»è¿‡ç²¾å¿ƒç®¡ç†ï¼Œä»¥ç»´æŠ¤ç ”究目的的伦ç†æ•°æ®æ“纵实践。

    方法

    æ•°æ®é¢„处ç†

    该数æ®é›†åŒ…å« 32,100 个日记账分录中的交易级数æ®ç‚¹ï¼ŒåŒ…括 148 个旨在å映异常模å¼è€Œæ²¡æœ‰ä¸ªä½“å差的异常。为了在日记账分录中进行异常检测,将交易汇总æˆé›†åˆ ,其中 è¡¨ç¤ºåŒ…å« ä¸ªäº¤æ˜“çš„æ—¥è®°è´¦åˆ†å½•ã€‚æ±‡æ€»é›†åˆ æ˜¯é€šè¿‡å¯¹æ¯ä¸ª 应用汇总函数 å½¢æˆçš„,表示为

    A = {A(J. | J ∈ J}✅

    在 Bakumenko 等人的工作中 [6],填充将交易长度标准化为统一的特å¾å‘é‡ ï¼Œå‡†å¤‡æœºå™¨å­¦ä¹ æ¨¡åž‹è¾“å…¥ã€‚äº¤æ˜“ç”± ERP 属性定义,例如账户编å·å’Œå€Ÿè´·æ ‡å¿—,åˆå¹¶åˆ° 特å¾ä¸­ã€‚此编ç ç‰¹å¾åœ¨ç¨€ç–矩阵中的维度éµå¾ªä»¥ä¸‹å…¬å¼ï¼š

    feature_count = max(transaction_amount) * (|unique_values(feature1)| + |unique_values(feature2)|)

    其中 是所有日记账分录中最大交易金é¢çš„乘积,表示为 ï¼Œä»¥åŠ å’Œ 特å¾å‘é‡ä¸­å”¯ä¸€å…ƒç´ çš„组åˆè®¡æ•°ï¼ˆ å’Œ )。因此,对于存在 577 个唯一 值和 特å¾å‘é‡ä¸­ 4 个唯一值的独热编ç æ–¹æ³•ï¼Œå°†å¯¼è‡´ 2336 个编ç ç‰¹å¾ã€‚此特å¾ç©ºé—´ç»è¿‡ PCA é™ç»´ã€‚

    相å,为了将 SBERT 模型应用于æ¯ä¸ª JE 中的交易数æ®ç¼–ç ï¼Œæˆ‘们首先基于 JE 标识符,通过 group-by æ“作将交易分类特å¾è¿žæŽ¥èµ·æ¥ã€‚å°†æ¯ä¸ªäº¤æ˜“çš„ å’Œ 属性以åŠäº¤æ˜“本身组åˆåœ¨ä¸€èµ·çš„过程如下:

    text_8 = "Source: " + feature1_8 + " Account_DC: " + feature2_8 + " " + transaction_8

    其中 是组 的连接文本, 是组 中的交易数é‡ã€‚ 是连接æ“作,使用逗å·å’Œç©ºæ ¼ä½œä¸ºäº¤æ˜“的分隔符。 是组 中第 个交易的 属性, 是组 中第 个交易的 属性。

    …

    æ¯ä¸ª JE 的连接文本 ( ) 被处ç†ä¸ºå•ä¸ªå¥å­ç»“构。SBERT 模型的 encode 方法首先将æ¯ä¸ªå­—符串标记化为一系列标记。SBERT 然åŽä½¿ç”¨å…¶åŸºäºŽ BERT 的架构为æ¯ä¸ªæ ‡è®°ç”Ÿæˆä¸Šä¸‹æ–‡åµŒå…¥ï¼Œè¿™æ¶‰åŠå¤šä¸ª Transformer 层和自注æ„力机制。平å‡æ± åŒ–步骤将这些标记嵌入èšåˆä¸ºå›ºå®šå¤§å°çš„å¥å­åµŒå…¥ã€‚PCA ç­‰é™ç»´æ²¡æœ‰ç”¨äºŽä¿æŒåµŒå…¥çš„原始维度,确ä¿ç²¾ç¡®çš„评估 [6]。我们将嵌入归一化为零å‡å€¼å’Œå•ä½æ–¹å·®ï¼Œä»¥ä¾¿åœ¨æœºå™¨å­¦ä¹ ä»»åŠ¡ä¸­æ高一致性并加快收敛速度,这对于基于è·ç¦»æˆ–梯度下é™çš„算法至关é‡è¦ï¼Œå¯ä»¥æ高跨模型的性能。SBERT 嵌入为æ¯ä¸ªæ—¥è®°è´¦åˆ†å½•åˆ›å»ºå›ºå®šå¤§å°çš„密集å‘é‡ï¼Œæ•èŽ·äº¤æ˜“详细信æ¯ï¼Œé€šè¿‡æ€»ç»“å¤æ‚çš„æ•°æ®äº¤äº’,帮助进行异常检测和模å¼è¯†åˆ«ã€‚

    æ•°æ®å¹³è¡¡å’Œæ¨¡åž‹æ€§èƒ½éªŒè¯

    在机器学习中,类分布ä¸å¹³è¡¡çš„å斜数æ®é›†ä¼šé˜»ç¢æ¨¡åž‹è®­ç»ƒä¸­çš„分类任务,因为它会åå‘多数类,并影å“异常检测。éµå¾ª [18] 中的指å—,我们使用 80/20 分层分割,以确ä¿è®­ç»ƒé›†å’Œæµ‹è¯•é›†ä¸­åŒ…å«æ¯”例异常表示,从而å‡å°‘å差。我们通过对少数类进行加æƒæ¥è°ƒæ•´ä¸å¹³è¡¡ï¼Œä»¥æ高模型阶段的æ•æ„Ÿæ€§ï¼Œå¹¶ç¡®ä¿ç»“果一致性和与æ’定éšæœºçŠ¶æ€çš„公平比较。在训练和优化中,我们é¿å…了交å‰éªŒè¯ï¼Œè®¤è¯†åˆ°å®ƒåœ¨ä¸å¹³è¡¡æ•°æ®é›†å’Œå¤§åž‹ç‰¹å¾é›†ä¸­å­˜åœ¨çš„缺点,这一点由 Rao 等人指出 [33]。交å‰éªŒè¯ä¼šå¢žåŠ è¿‡æ‹Ÿåˆé£Žé™©ï¼Œå°¤å…¶æ˜¯åœ¨ä½¿ç”¨è®¸å¤šæ¨¡åž‹å’Œå¹¿æ³›çš„超å‚数调整时。éšç€æ•°æ®ç»´åº¦çš„增加,它的有效性会下é™ï¼Œå¯¼è‡´æ¨¡åž‹æ–¹å·®æ›´é«˜ï¼Œéš¾ä»¥ä»Žå¤æ‚的特å¾äº¤äº’中获得å¯é çš„评估。ä¸å¹³è¡¡æ•°æ®é›†ä¼šåŠ å‰§è¿™ä¸€æŒ‘战,导致交å‰éªŒè¯æŠ˜å å差,并导致性能评估å差。

    我们选择一致的 80/20 分层分割,以ä¿æŒè·¨æ¨¡åž‹çš„测试集一致性,这对于准确比较算法性能至关é‡è¦ï¼Œè€Œäº¤å‰éªŒè¯çš„å¯å˜æ•°æ®å­é›†å¯èƒ½ä¼šæŸå®³è¿™ä¸€ç‚¹ã€‚虽然这ç§ç­–ç•¥å¯ä»¥ç¼“解一些挑战,但它å¯èƒ½ä¼šå½±å“模型的泛化能力。为了抵消这一点,我们采用了仔细的指标选择和训练åŽäº¤å‰éªŒè¯è¯„估,尽管由于数æ®é›†çš„å¤æ‚性,直接对少数类进行过采样技术ä¸å¯è¡Œã€‚

    模型选择

    åœ¨è¿™é¡¹å·¥ä½œä¸­ï¼Œæˆ‘ä»¬è¯„ä¼°äº†ä¸‰ç§ Sentence-BERT 模型用于嵌入生æˆï¼šall-mpnet-base-v2ã€all-distilroberta-v1 å’Œ all-MiniLM-L6-v2,这些模型因其æµè¡Œåº¦å’Œæ€§èƒ½è€Œè¢«é€‰ä¸­ï¼Œè¿™ä¸€ç‚¹å¯ä»¥é€šè¿‡å®ƒä»¬åœ¨ HuggingFace 模型中心的高下载率æ¥è¯æ˜Ž [16]。æ¯ä¸ªæ¨¡åž‹éƒ½åœ¨è¶…过 10 亿对数æ®ä¸Šè¿›è¡Œè®­ç»ƒï¼Œå…·æœ‰ä¸åŒçš„优势:all-mpnet-base-v2 在质é‡æ–¹é¢è¡¨çŽ°å‡ºè‰²ï¼Œæ€§èƒ½å¾—分为 63.30 [35],all-distilroberta-v1 在效率和性能之间å–得平衡,大å°ä¸º 290 MB,all-MiniLM-L6-v2 速度快,大å°ä¸º 80 MB,适åˆå®žæ—¶åº”用 [35]。有关模型规格的详细信æ¯ï¼Œè¯·å‚阅表 1。选择这些模型是因为它们在质é‡ã€æ•ˆçŽ‡å’Œé€Ÿåº¦æ–¹é¢çš„互补优势,有助于这项研究中的全é¢è¯„估。

    我们还使用了五ç§æœºå™¨å­¦ä¹ åˆ†ç±»å™¨ï¼šéšæœºæ£®æž— (RF)ã€ä½¿ç”¨ XGBoost (XGB) 的梯度æå‡æœº (GBM)ã€æ”¯æŒå‘é‡æœº (SVM)ã€é€»è¾‘回归 (LR) 和使用 Keras TensorFlow 实现的神ç»ç½‘络 (NN)。RF 以其通过集æˆå†³ç­–æ ‘æ¥å‡å°‘过拟åˆçš„能力而闻å,GBM 以其通过优化弱学习器æ¥è§£å†³æ•°æ®ä¸å¹³è¡¡é—®é¢˜çš„能力而闻å,SVM 以其在高维空间中的有效性而闻å,LR 是一ç§å¿«é€Ÿé«˜æ•ˆçš„基线,而 NN 则用于对å¤æ‚关系进行建模,需è¦ä»”细调整架构 [10, 12, 15, 17, 19, 23]。

    实验设计

    我们的工作使用了一个包å«å®žé™…异常和人工æ’入异常的财务数æ®é›†ï¼Œæ—¨åœ¨æ£€æµ‹åŽè€…,åŒæ—¶æœ€å¤§é™åº¦åœ°å‡å°‘å‰è€…中的误报。该数æ®é›†å映了现实世界æ¡ä»¶ï¼Œå…·æœ‰æ˜¾è‘—çš„ç±»ä¸å¹³è¡¡ï¼Œä¸Ž Bakumenko 等人的工作 [6] 中的数æ®é›†ç›¸åŒï¼Œç»è¿‡åŒ¿å化和细化,åªåŒ…å«å¿…è¦çš„分类特å¾ã€‚我们将 8 ç§ç±»åž‹çš„异常视为å•ä¸ªå¼‚常类,从而将其构建为二元分类挑战,确ä¿æˆ‘们的训练/测试分割中异常类型的å‡åŒ€åˆ†å¸ƒã€‚

    为了有效地识别财务日记账分录中的异常,这些分录构æˆä¸€ä¸ªé«˜ç»´æ•°æ®é›†ï¼Œæˆ‘们通过使用 SBERT LLM 对éžè¯­ä¹‰åˆ†ç±»æ•°æ®è¿›è¡Œç¼–ç æ¥è¿›è¡Œåˆ›æ–°ï¼Œç‰¹åˆ«æ˜¯ä½¿ç”¨ 3 个 Sentence-Transformers 模型将å¯å˜é•¿åº¦çš„分录标准化为一致的特å¾ç©ºé—´ï¼Œè§£å†³åŽŸå§‹å·¥ä½œ [6] 中传统编ç æ–¹æ³•çš„å±€é™æ€§ã€‚

    实验结果

    ç¼–ç ç‰¹å¾é›†åˆ†æž

    我们对æ¥è‡ªä¸‰ä¸ª SBERT 模型嵌入的特å¾é›†è¿›è¡Œäº†ä¸»æˆåˆ†åˆ†æž (PCA)(图 3)。PCA 展示了嵌入在数æ®é›†ä¸­çš„维度和信æ¯ä¿ç•™èƒ½åŠ›ï¼Œå°½ç®¡è¿›è¡Œäº†é™ç»´ï¼Œä½†ä»ç„¶ä¿ç•™äº†æ˜¾è‘—的方差。æ¥è‡ª all-MiniLM-L6-v2 模型 (LLM1) çš„åµŒå…¥éœ€è¦ 63 个æˆåˆ†æ‰èƒ½ä¿ç•™ 99% çš„æ–¹å·®ï¼Œéœ€è¦ 150 个æˆåˆ†æ‰èƒ½ä¿ç•™ 99.9% 的方差,而 all-distilroberta-v1 (LLM2) å’Œ all-mpnet-base-v2 (LLM3) 模型,尽管å‘é‡æ›´å¤§ï¼ˆ770),但对于相åŒçš„方差水平,需è¦çš„æˆåˆ†æ›´å°‘(LLM2 为 57 个,LLM3 为 52 个)。

    进一步分æžè¡¨æ˜Žï¼Œæœ€ç»ˆ 0.9% 的方差信æ¯é‡è¾ƒå°‘,这表明它å¯èƒ½åŒ…å«å™ªå£°æˆ–æ•°æ®é›†ç‰¹å®šçš„特å¾ã€‚一项比较研究(图 4)表明,LLM 嵌入在é™ç»´æ–¹é¢ä¼˜äºŽç‹¬çƒ­ç¼–ç ã€‚LLM 嵌入在维度更少的情况下ä¿æŒäº†é«˜æ–¹å·®ï¼Œè¿™ä¸Žæ¥è‡ªç‹¬çƒ­ç¼–ç çš„稀ç–ã€é«˜ç»´å‘é‡å½¢æˆå¯¹æ¯”。独热编ç æ•°æ®æœ€åˆæœ‰ 2336 个维度,é™ç»´åˆ° 419 个æ‰èƒ½è¾¾åˆ° 99% 的方差,这ä»ç„¶é«˜äºŽ LLM 嵌入。

    é‡è¦çš„是è¦è®¤è¯†åˆ° PCA 的线性性质é™åˆ¶äº†å®ƒæ•æ‰éžçº¿æ€§å¤æ‚性的能力。虽然 PCA 有助于ç†è§£ç»“构属性和é™ç»´çš„潜力,但它ä¸èƒ½é¢„测下游任务中的性能。我们的扩展分æžåŒ…括对这些任务中嵌入的ç»éªŒè¯„估。

    总之,LLM 嵌入比独热编ç æ供更有效的数æ®è¡¨ç¤ºï¼Œå¯¹äºŽç±»ä¼¼çš„方差水平,需è¦æ›´å°‘的维度,这使得 LLM 嵌入更适åˆå¤æ‚任务。

    下游模型训练和优化

    我们使用了å„ç§æœºå™¨å­¦ä¹ åˆ†ç±»å™¨ï¼Œå¦‚第 4.3 节所述,包括 SVMã€RFã€XGBoostã€LRã€ANN å’Œ DNNã€‚å¯¹äºŽéž ANN/DNN 模型,使用 Hyperopt 库和树形 Parzen 估计器 (TPE) 算法进行è´å¶æ–¯ä¼˜åŒ–,在 100 次迭代中进行超å‚数调整。计算样本æƒé‡ä»¥è§£å†³ä¸å¹³è¡¡æ•°æ®é›†é—®é¢˜ï¼Œå¹¶é€šè¿‡è½¬æ¢å¤šç±»åˆ«æ ‡ç­¾æ¥å®žçŽ°äºŒå…ƒåˆ†ç±»ã€‚模型训练使用 Python ä»¥åŠ Scikit-learn å’Œ TensorFlow 库。我们设计了三ç§å…·æœ‰ä¸åŒå¤æ‚度的神ç»ç½‘络架构,并在 50 个 epoch 上进行训练,并使用早期åœæ­¢æ¥è¿›è¡Œæ³›åŒ–,如表 2 所示。

    通过在 NumPy å’Œ TensorFlow 中固定ç§å­æ¥ç¡®ä¿å¯é‡å¤æ€§ï¼Œå¹¶é€šè¿‡è‡ªå®šä¹‰å›žè°ƒæ¥ç›‘控平å‡å¬å›žå®ã€‚ANN 模型包å«å•ä¸ªéšè—层,用于快速训练,DNN1 包å«å¤šä¸ªéšè—层,用于å¤æ‚模å¼è¯†åˆ«ï¼ŒDNN2 åŒ…å« dropout 层,以防止过拟åˆï¼ŒåŒæ—¶ä¿æŒç±»ä¼¼ DNN1 的深度架构。

    评估指标和比较分æž

    在这项工作中,我们之å‰è®¨è®ºäº†å°† LR 作为基线模型的好处。对于三个 SBERT 模型嵌入中的æ¯ä¸€ä¸ªï¼Œæˆ‘们训练了两个下游 LR 模型:一个使用默认å‚数的模型和一个ç»è¿‡ Hyperopt 优化的模型。未ç»ä¼˜åŒ–的模型在平å‡å¬å›žå®æ–¹é¢è¡¨çŽ°å‡ºé«˜æ€§èƒ½ï¼Œåˆ†åˆ«ä¸º all-MiniLM-L6-v2 为 0.9516,all-distilroberta-v1 为 0.9040,all-mpnet-base-v2 为 0.9520。图 5 显示了ç»è¿‡ä¼˜åŒ–çš„ LR 模型的学习曲线,使用 函数进行交å‰éªŒè¯ï¼Œä»¥æ£€æŸ¥æ³›åŒ–和过拟åˆã€‚它在ä¸æ–­å¢žåŠ çš„æ•°æ®å­é›†ä¸Šè®­ç»ƒæ¨¡åž‹ï¼Œå¹¶åœ¨è®­ç»ƒé›†å’ŒéªŒè¯é›†ä¸Šè¿›è¡Œè¯„估,使用 5 折交å‰éªŒè¯ã€‚我们计算了跨折å çš„训练和验è¯åˆ†æ•°çš„å‡å€¼å’Œæ ‡å‡†å·®ï¼Œä»¥è¯„ä¼°å¹³å‡æ€§èƒ½å’Œå˜å¼‚性,åŒæ—¶è€ƒè™‘ç±»ä¸å¹³è¡¡ã€‚训练分数线(红色)表示训练å­é›†çš„性能,交å‰éªŒè¯åˆ†æ•°çº¿ï¼ˆç»¿è‰²ï¼‰è¡¨ç¤ºæœªè§è¿‡çš„验è¯é›†çš„性能,æ供了一个å¯é çš„估计,用于评估跨数æ®å­é›†çš„模型性能以åŠé€šè¿‡æ›´å¤šæ•°æ®è¿›è¡Œæ”¹è¿›çš„å¯èƒ½æ€§ã€‚

    在图 5 中,所有三个模型都展示了积æžçš„学习特å¾ã€‚E3 模型在学习和泛化方é¢è¡¨çŽ°å‡ºè‰²ï¼Œå±•ç¤ºäº†å¼ºå¤§çš„æ•°æ®å­¦ä¹ èƒ½åŠ›ã€‚E1 模型虽然性能尚å¯ï¼Œä½†æ˜¾ç¤ºå‡ºè¾¾åˆ°å­¦ä¹ èƒ½åŠ›æžé™çš„迹象。E2 模型正在改进,但需è¦æ›´å¥½çš„正则化策略。Hyperopt 优化的分æžæ˜¾ç¤ºï¼ŒE1 çš„ C 值为 0.07677,表明正则化程度适中。E2 的正则化更强,C 值为 0.01702,并使用 ‘newton-cg’ 求解器。E3 çš„ C 值最å°ï¼Œä¸º 0.01358,使用 ‘liblinear’ 求解器,显示出最强的正则化。所有模型都使用统一的类æƒé‡æ¥æ高少数类预测精度,并根æ®å…¶å­¦ä¹ éœ€æ±‚调整特定的正则化强度和求解器选择。

    图 6 评估了 LRã€RFã€XGBã€SVM å’Œ NN 分类器的性能,这些分类器ç»è¿‡ä¼˜åŒ–并与æ¥è‡ªä¸‰ä¸ªè¯­è¨€æ¨¡åž‹çš„嵌入相集æˆã€‚性能指标基于平å‡å¬å›žå®ã€‚所有嵌入都显示出ä¸åŒç¨‹åº¦çš„有效性,其中 all-mpnet-base-v2 在å„ç§åˆ†ç±»å™¨ä¸­è¡¨çŽ°å‡ºç¨³å®šæ€§å’Œæ€§èƒ½ã€‚all-MiniLM-L6-v2 也表现良好,尤其是在 LR å’Œ NN 中,而 all-distilroberta-v1 也很稳固,但没有在 NN 中超过 all-MiniLM-L6-v2。这些差异表明,æŸäº›åµŒå…¥åœ¨ä¸‹æ¸¸ä»»åŠ¡ä¸­ä¸Žç‰¹å®šåˆ†ç±»å™¨æ›´å…¼å®¹ï¼Œè¿™æŒ‡å¯¼äº†å®žé™…模型选择。

    使用ä¸åŒåµŒå…¥çš„优化模型的混淆矩阵值如表 3 所示。all-MiniLM-L6-v2 嵌入与 LRï¼Œä»¥åŠ NN(如果 FP å‡å°‘),å¯èƒ½æ供最平衡的性能,而 all-mpnet-base-v2 嵌入在跨模型的 TP 率方é¢è¡¨çŽ°å‡ºæ›´é«˜çš„性能。图 7 对比了 LLM 嵌入与传统填充独热编ç åœ¨ LRã€RFã€SVM å’Œ NN 模型中的å¬å›žå®åˆ†æ•°å·®å¼‚。æ¯ä¸ªæ¡å½¢å›¾æ˜¾ç¤ºäº† LLM 嵌入的å¬å›žåˆ†æ•°å·®å¼‚,方框图总结了æ¯ä¸ªæ¨¡åž‹çš„分布和å‡å€¼ï¼ˆè±å½¢ï¼‰ã€‚

    对于 LR,LLM 嵌入将å¬å›žåˆ†æ•°æ高了 +0.056ã€+0.030 å’Œ +0.032,分布紧凑,表明在跨嵌入方é¢çš„一致增强。相å,RF 模型在使用 LLM 嵌入时表现出下é™ï¼Œå·®å¼‚分别为 -0.066ã€-0.044 å’Œ -0.021,å˜å¼‚范围适中。SVM 模型在使用 LLM 嵌入时性能下é™ï¼Œå·®å¼‚分别为 -0.085ã€-0.108 å’Œ -0.015,显示出å‘更低性能的显著å˜å¼‚。NN 模型å—益于 LLM 嵌入,分别增加了 +0.064ã€+0.050 å’Œ +0.062,å˜å¼‚性最å°ï¼Œè¡¨æ˜Žå¯é çš„积æžå½±å“。LLM 嵌入改进的 LR å’Œ NN 模型性能优于传统的填充独热编ç ï¼Œä½†é€šå¸¸ä¼šé™ä½Ž RF å’Œ SVM 模型的有效性。虽然æŸäº›æ¨¡åž‹å¯èƒ½å§‹ç»ˆå—益于 LLM 嵌入,但这çªå‡ºäº†åœ¨å°† LLM 嵌入应用于数æ®ç¼–ç æ—¶æ€§èƒ½çš„模型特定å˜å¼‚性。

    图 8 中的 Bland-Altman 图比较了两个分数集,评估了使用嵌入(all-MiniLM-L6-v2 (E1)ã€all-distilroberta-v1 (E2) å’Œ all-mpnet-base-v2 (E3))的机器学习模型性能与传统方法的对比。红线显示了所有模型的平å‡å¬å›žå®åˆ†æ•°å·®å¼‚。è“线设置在平å‡å·®å¼‚ ± 1.96 SD,定义了一致性é™åº¦ï¼Œè¡¨æ˜Žå¤§å¤šæ•°åˆ†æ•°å·®å¼‚的预期范围。è“线周围的点分散表明,æŸäº›æ¨¡åž‹çš„新嵌入与传统方法相比,与预期性能范围一致。性能在跨机器学习模型和嵌入方é¢æœ‰æ‰€ä¸åŒã€‚例如,NN 模型通常表现出改进的结果,这一点由红线上方的正å差所示,而 SVM 模型显示出有效性é™ä½Žï¼Œè¿™ä¸€ç‚¹ç”±è´Ÿå差所示。总体而言,使用 LLM 嵌入的机器学习模型往往与传统方法的预期性能范围相匹é…,表明平å‡ç»“果相当。

    å‡è®¾é‡è¿°

    对 Sentence-Transformer 嵌入进行的 PCA 分æžè¡¨æ˜Žï¼Œä¸Žä¼ ç»Ÿæ–¹æ³•ç›¸æ¯”,财务数æ®ç¼–ç çš„紧凑性和信æ¯ä¿ç•™èƒ½åŠ›æœ‰æ‰€æ高,从而è¯å®žäº†å‡è®¾ 1。这çªå‡ºäº†åµŒå…¥åœ¨æ ‡å‡†åŒ–特å¾å˜å¼‚性和有效压缩信æ¯æ–¹é¢çš„优越能力。

    对于å‡è®¾ 2,将 Sentence-Transformer 嵌入与优化的 LR å’Œ NN 模型相结åˆï¼Œæ˜¾ç¤ºå‡ºæ”¹è¿›çš„异常检测性能,这è¯å®žäº† LLM 嵌入超越传统方法的潜力。虽然观察到一些性能差异,例如在 SVM 模型中,但这些差异都在预期的范围内。结果强调了这ç§åˆ›æ–°æ–¹æ³•çš„有效性,强调了战略性模型选择的é‡è¦æ€§ï¼Œä»¥æœ€å¤§é™åº¦åœ°å‘挥其优势。

    讨论

    这项工作利用 Sentence-Transformer LLM 对财务数æ®è¿›è¡Œç¼–ç ï¼Œå±•ç¤ºäº†ä¸€ç§å¢žå¼ºå¼‚常检测的新方法。

    结果解读

    对æ¥è‡ªä¸‰ä¸ª SBERT 模型(MiniLM-L6-v2ã€all-distilroberta-v1 å’Œ all-mpnet-base-v2)的嵌入进行的 PCA 分æžè¡¨æ˜Žï¼Œä¸Žä¼ ç»Ÿç¼–ç æ–¹æ³•ç›¸æ¯”,财务数æ®é›†çš„é™ç»´å’Œä¿¡æ¯ä¿ç•™èƒ½åŠ›æœ‰äº†æ˜¾è‘—æ高。例如,考虑到下游机器学习性能,all-mpnet-base-v2 模型åªéœ€è¦ 52 个 PCA æˆåˆ†å°±èƒ½ä¿ç•™ 99% 的方差,而填充独热编ç åˆ™éœ€è¦ 419 个。所有 3 个 SBERT 模型的嵌入特å¾ç»´åº¦åœ¨ç›¸åŒæ¯”较中明显更低。这ç§è¿›æ­¥è§£å†³äº†è´¢åŠ¡éžè¯­ä¹‰éžæ—¶é—´æ€§åˆ†ç±»ç‰¹å¾é›†ä¸­ç‰¹å¾å¼‚质性和稀ç–性的关键挑战,这比传统方法有了显著改进。下游机器学习模型的性能è¯å®žäº† LLM 嵌入在异常检测中的有效性。å„ç§æœºå™¨å­¦ä¹ åˆ†ç±»å™¨çš„使用,包括ç»è¿‡è´å¶æ–¯ä¼˜åŒ–çš„ LRã€RFã€XGBã€SVM å’Œ NN,以åŠå¤šç§æž¶æž„和调整的å‚数,çªå‡ºäº†åµŒå…¥çš„多功能性和æ高模型性能的潜力。使用所有 3 个 SBERT 嵌入的 LR å’Œ NN 模型的优越评估指标强调了这些嵌入在增强异常检测方é¢çš„潜力。SVM 的表现ä¸ä½³ï¼Œå³ä½¿åœ¨é¢„期的范围内,也çªå‡ºäº†åœ¨æœªæ¥çš„应用中需è¦è¯„估模型嵌入兼容性。

    对财务异常检测的影å“

    å°† Sentence-Transformer LLM æ•´åˆåˆ°è´¢åŠ¡å¼‚常检测中,代表ç€ä»Žä¼ ç»Ÿæ–¹æ³•çš„飞跃,增强了数æ®è¡¨ç¤ºå’Œç®—法对异常的æ•æ„Ÿæ€§ã€‚è¿™ç§æ–¹æ³•åœ¨å®žé™…应用中承诺通过æ高准确性和最大é™åº¦åœ°å‡å°‘误报æ¥æ高欺诈检测效率,从而简化财务æ“作。这ç§æ–°æ–¹æ³•åœ¨æŸäº›æƒ…况下将æˆåˆ†æ•°é‡å‡å°‘了八å€ï¼ŒåŒæ—¶æ高了下游模型性能,有效地标准化了特å¾å˜å¼‚性。它è¯æ˜Žäº†å…¶æœ‰æ•ˆæ€§ï¼Œå¹¶ä¸ºè´¢åŠ¡æ•°æ®ç¼–ç è®¾å®šäº†æ–°çš„标准。éšç€è¿™ç§æ–¹æ³•è®ºå˜å¾—越æ¥è¶Šæ™®é,它å¯èƒ½ä¼šåœ¨è´¢åŠ¡åˆ†æžä¸­å»ºç«‹æ–°çš„基准,推动该行业机器学习应用的进步。进一步的实è¯ç ”究和现实世界应用å¯ä»¥å·©å›ºå…¶åœ°ä½å¹¶é‡åŒ–其影å“。

    å±€é™æ€§å’Œåå·®

    我们的研究使用了æ¥è‡ªå„ç§ ERP 的真实世界数æ®é›†ï¼Œå¹¶ç”±è´¢åŠ¡å®¡è®¡äººå‘˜æ·»åŠ äº†å…«ç§ä¸åŒçš„有æ„引入和标记的异常。这些异常å映了审计人员对实际异常检测的兴趣,具有åˆæˆæ€§è´¨ï¼Œå¯èƒ½ä¼šé™åˆ¶æ³›åŒ–能力。此外,分æžçŽ°å®žä¸–界财务数æ®çš„挑战在于å¯èƒ½å­˜åœ¨çš„未标记异常,这å¯èƒ½ä¼šä½¿æœºå™¨å­¦ä¹ æ¨¡åž‹éªŒè¯äº§ç”Ÿå差,并增加误报率。此外,PCA 分æžæ˜¯ä¸€ç§çº¿æ€§æ–¹æ³•ï¼Œå…¶èƒ½åŠ›æœ‰é™ï¼Œæ— æ³•è¡¨ç¤ºç‰¹å¾é›†ä¸­çš„éžçº¿æ€§å…³ç³»ã€‚此外,LLM 对æ示工程åšå‡ºå应,这æ„味ç€è¾“入特å¾è¿žæŽ¥çš„å˜åŒ–会改å˜åµŒå…¥ï¼Œè¿™ä¸€ç‚¹åœ¨æœ¬ç ”究中没有涉åŠã€‚最åŽï¼Œæˆ‘们的方法侧é‡äºŽåˆ†ç±»ç‰¹å¾ï¼Œéœ€è¦åœ¨éœ€è¦ç²¾ç¡®æ•°å€¼åˆ†æžçš„情况下进行扩展。

    结论与未æ¥å·¥ä½œ

    贡献总结

    我们的研究通过将 LLM 嵌入与机器学习分类器相结åˆï¼ŒæŽ¨åŠ¨äº†è´¢åŠ¡å¼‚常检测领域的å‘展,这是一ç§æ–°æ–¹æ³•ï¼Œæ˜¾è‘—缓解了特å¾å¼‚质性和稀ç–性问题。利用 Sentence-Transformer 模型对财务数æ®è¿›è¡Œç¼–ç ï¼Œæˆ‘们的方法ä¸ä»…在é™ç»´å’Œä¿¡æ¯ä¿ç•™æ–¹é¢è¶…越了传统的编ç æŠ€æœ¯ï¼Œè€Œä¸”还展示了在选定的机器学习分类器中增强的异常检测效果。这与特å¾è¡¨ç¤ºçš„既定原则相一致 [9],å映了它们在财务数æ®çŽ¯å¢ƒä¸­çš„实际应用。在全é¢çš„实验设置和展示实际适用性的基础上,我们的工作为自然语言处ç†å’Œè´¢åŠ¡åˆ†æžäº¤å‰é¢†åŸŸæœªæ¥çš„研究æ供了å®è´µçš„è§è§£ã€‚

    更广泛的影å“å’Œæ„义

    大型语言模型 (LLM) 在éžè¯­ä¹‰è´¢åŠ¡æ•°æ®ä¸Šçš„创新应用解决了高维性和稀ç–性问题,为 LLM 在其传统应用之外的领域的使用开创了先例。这å映了 LLM æˆåŠŸåœ°å¯¹è§†è§‰æ ‡è®°è¿›è¡Œç¼–ç çš„å‘现 [30]。通过超越传统方法,LLM 嵌入展示了其在语言任务之外的潜力,特别是对于缺ä¹å›ºæœ‰è¯­ä¹‰çš„æ•°æ®ç±»åž‹ã€‚è¿™ç§æ–¹æ³•è®ºçš„进步å¯ä»¥å¸®åŠ©å„ç§å…·æœ‰ç±»ä¼¼æŒ‘战的行业,特别是医疗ä¿å¥å’Œé›¶å”®è¡Œä¸šï¼Œå…¶ä¸­å¤æ‚çš„æ•°æ®é›†å¯ä»¥ä»Ž LLM 增强的数æ®è¡¨ç¤ºèƒ½åŠ›ä¸­èŽ·ç›Šã€‚在医疗ä¿å¥é¢†åŸŸï¼ŒLLM 嵌入å¯ä»¥é€šè¿‡æ£€æµ‹ä¸»è¦ä¸ºæ•°å€¼ã€ç¼ºä¹æ–‡æœ¬æ¸…晰度或包å«ç»“构化数æ®ï¼ˆå¦‚ MRIã€CT 扫æã€ICD 代ç å’Œå®žéªŒå®¤å€¼ï¼‰çš„æ•°æ®é›†ä¸­çš„模å¼æ¥å¢žå¼ºæ‚£è€…æ•°æ®åˆ†æžï¼Œè¿™äº›æ•°æ®éœ€è¦é¢†åŸŸçŸ¥è¯†æ‰èƒ½è¿›è¡Œè§£é‡Šã€‚在零售领域,LLM å¯ä»¥ä»Žé«˜ç»´äº¤æ˜“æ•°æ®ä¸­æ供详细的è§è§£ï¼Œæ­ç¤ºå¤æ‚的产å“-消费者交互。这å¯ä»¥å¢žå¼ºæœºå™¨å­¦ä¹ æ¨¡åž‹é¢„测行为ã€ç»†åˆ†å¸‚场和推è产å“的能力,从而促进市场分æžã€‚

    LLM 在éžè¯­ä¹‰æ•°æ®ä¸Šçš„使用扩展了它们的应用范围,并促使人们é‡æ–°æ€è€ƒæ•°æ®åˆ†æžæ–¹æ³•ï¼Œä»Žè€ŒæŽ¨åŠ¨è·¨å­¦ç§‘研究,探索其在å¤æ‚æ•°æ®é›†ä¸­çš„潜力。

    未æ¥ç ”究方å‘

    未æ¥çš„研究应该将 LLM 嵌入方法扩展到更广泛的财务数æ®é›†ï¼Œè¯„ä¼°å…¶å¯æ‰©å±•æ€§ã€å¯¹å¼‚常检测精度的影å“以åŠå“应ä¸æ–­å˜åŒ–的财务欺诈模å¼çš„计算效率。将这ç§æ–¹æ³•æ‰©å±•åˆ°è·¨å¤šä¸ªé¢†åŸŸçš„å„ç§éžè¯­ä¹‰æ•°æ®ç±»åž‹ï¼Œè¿™äº›æ•°æ®ç±»åž‹å…·æœ‰é«˜ç»´å’Œç¨€ç–æ•°æ®é›†ï¼Œå¹¶ä¸Žå…¶ä»–先进的机器学习和深度学习模型相集æˆï¼Œå°†æµ‹è¯• LLM 嵌入的适应性和有效性。应该探索无监ç£ç­–ç•¥æ¥è§£å†³é›¶æ—¥å¼‚常问题,改进我们的方法,以更好地检测新模å¼ã€‚未æ¥çš„研究应该调查å„ç§æ•°æ®é¢„处ç†ç­–略(包括èšåˆæ–¹æ³•å’Œæ示工程)如何æ高 LLM ç¼–ç æ•ˆçŽ‡ã€‚对éžçº¿æ€§é™ç»´æŠ€æœ¯çš„é‡ç‚¹æŽ¢ç´¢å¯ä»¥è¡¥å…… PCA,旨在更有效地æ•æ‰ LLM 嵌入中的å¤æ‚关系。调查åˆæˆå¼‚常与现实世界异常对模型性能的影å“,将æ供对å‘现的实际适用性的è§è§£ã€‚最åŽï¼Œé€šè¿‡æµ‹è¯•å„ç§æœ€å…ˆè¿›çš„ LLM 架构æ¥æŽ¢ç´¢æ¨¡åž‹åµŒå…¥å…¼å®¹æ€§ï¼Œå¯èƒ½ä¼šäº§ç”Ÿæ›´é‡èº«å®šåˆ¶çš„异常检测解决方案。

    å‚考文献

    [1] Yara Alghofaili, Albatul Albattah, and Murad A Rassam. 2020. A. ¿¿nancial fraud✅
    detection model based on LSTM deep learning technique. Journal of Applied
    Security Research 15, 4 (2020), 498–516.

    [2] A. Alhashedi. 2021. Financial Fraud Detection Applying Data Mining Techniques:✅
    A Comprehensive Review from 2009 to 2019. Computer Science Review 40 (2021),

    1. https://doi.org/10.1016/j.cosrev.2021.100402

    [3] Abhijit Anand, Jurek Leonhardt, Jaspreet Singh, Koustav Rudra, and Avishek
    Anand. 2023. Data augmentation for sample eï¿¿cient and robust document
    ranking. ACM Transactions on Information Systems (2023).

    [4] Matin N Ashtiani and Bijan Raahemi. 2021. Intelligent fraud detection in ï¿¿nancial
    statements using machine learning and data mining: a systematic literature
    review. IEEE Access 10 (2021), 72504–72525.

    [5] V. Vlasselaer B. Baesens and W. Verbeke. 2015. Fraud analytics using descriptive,✅
    predictive, and social network techniques : a guide to data science for fraud detection.
    Wiley, New York.

    [6] Alexander Bakumenko and Ahmed Elragal. 2022. Detecting anomalies in ï¿¿nancial

    data using machine learning algorithms. Systems 10, 5 (2022), 130.

    [7] Seila Becirovic, Emir Zunic, and Dzenana Donko. 2020. A Case Study of Cluster-
    based and Histogram-based Multivariate Anomaly Detection Approach in Gen-
    eral Ledgers. In 2020 19th International Symposium Infoteh-Jahorina (INFOTEH).
    IEEE, 1–6.

    [8] F Belfo and A Trigo. 2013. Accounting Information Systems: Tradition and Future

    Directions. Procedia Technology 9 (2013), 536–546.

    [9] Yoshua Bengio, Aaron Courville, and Pascal Vincent. 2013. Representation
    learning: A review and new perspectives. IEEE transactions on pattern analysis
    and machine intelligence 35, 8 (2013), 1798–1828.

    [10] Leo Breiman. 2001. Random forests. Machine learning 45 (2001), 5–32.
    [11] Longbing Cao. 2022. Ai in ï¿¿nance: challenges, techniques, and opportunities.

    ACM Computing Surveys (CSUR) 55, 3 (2022), 1–38.

    [12] Tianqi Chen and Carlos Guestrin. 2016. Xgboost: A scalable tree boosting system.
    In Proceedings of the 22nd acm sigkdd international conference on knowledge
    discovery and data mining. 785–794.

  • 用XGBoost玩转排åºä»»åŠ¡ï¼šä»ŽåŽŸç†åˆ°å®žæˆ˜

    在信æ¯çˆ†ç‚¸çš„时代,如何从海é‡ä¿¡æ¯ä¸­å¿«é€Ÿæ‰¾åˆ°æˆ‘们想è¦çš„内容,æˆä¸ºäº†ä¸€ä¸ªé‡è¦çš„挑战。排åºå­¦ä¹ ï¼ˆLearning to Rank,LTR)应è¿è€Œç”Ÿï¼Œå®ƒåˆ©ç”¨æœºå™¨å­¦ä¹ çš„力é‡ï¼Œå¸®åŠ©æˆ‘们对信æ¯è¿›è¡ŒæŽ’åºï¼Œå°†æœ€ç¬¦åˆç”¨æˆ·éœ€æ±‚的结果排在最å‰é¢ã€‚XGBoost作为一ç§å¼ºå¤§çš„机器学习算法,在排åºä»»åŠ¡ä¸­ä¹Ÿå‘挥ç€é‡è¦ä½œç”¨ã€‚

    排åºä»»åŠ¡ï¼šè®©ä¿¡æ¯äº•ç„¶æœ‰åº

    排åºä»»åŠ¡å¹¿æ³›åº”用于æœç´¢å¼•æ“Žã€æŽ¨è系统ã€å¹¿å‘Šå¹³å°ç­‰é¢†åŸŸã€‚例如,当你æœç´¢â€œç¾Žé£Ÿâ€æ—¶ï¼Œæœç´¢å¼•æ“Žä¼šæ ¹æ®ç›¸å…³æ€§ã€å—欢迎程度等因素对结果进行排åºï¼Œå°†æœ€ç¬¦åˆä½ å£å‘³çš„é¤åŽ…排在最å‰é¢ã€‚

    XGBoost:排åºä»»åŠ¡çš„利器

    XGBoost(Extreme Gradient Boosting)是一ç§åŸºäºŽæ¢¯åº¦æå‡æ ‘算法的机器学习模型,它在å„ç§æœºå™¨å­¦ä¹ ä»»åŠ¡ä¸­éƒ½è¡¨çŽ°å‡ºè‰²ï¼ŒåŒ…括排åºä»»åŠ¡ã€‚

    XGBoost在排åºä»»åŠ¡ä¸­ä¸»è¦ä½¿ç”¨pairwise rank方法。这ç§æ–¹æ³•å°†æŽ’åºé—®é¢˜è½¬åŒ–为æˆå¯¹æ¯”较问题,å³æ¯”较两个文档(doc)与当å‰æŸ¥è¯¢ï¼ˆquery)的相关程度,并根æ®æ¯”较结果对文档进行排åºã€‚

    XGBoost排åºä»»åŠ¡çš„æµç¨‹

    1. 训练样本输入: 将包å«queryå’Œdoc的训练样本输入XGBoost模型。
    2. 特å¾å€™é€‰é›†ï¼š XGBoost模型会根æ®è®­ç»ƒæ ·æœ¬ï¼Œè‡ªåŠ¨å­¦ä¹ ç‰¹å¾å€™é€‰é›†ã€‚
    3. 寻找划分点: XGBoost模型会根æ®ç‰¹å¾å€™é€‰é›†ï¼Œä½¿ç”¨è´ªå©ªç®—法寻找最佳划分点,将数æ®åˆ†æˆä¸åŒçš„å­é›†ã€‚
    4. 生æˆæ ‘: é‡å¤æ­¥éª¤3,直到ä¸èƒ½å†åˆ†è£‚生æˆä¸€æ£µå®Œæ•´çš„树。
    5. æ‹Ÿåˆæ¨¡åž‹ï¼š XGBoost模型会根æ®è®­ç»ƒæ ·æœ¬ï¼Œä½¿ç”¨pairwise loss(AUC)æ¥æ‹Ÿåˆæ¨¡åž‹ï¼Œç”Ÿæˆä¸‹ä¸€æ£µæ ‘。
    6. 训练完æˆï¼š 当生æˆè®¾å®šæ•°ç›®çš„æ ‘åŽï¼Œè®­ç»ƒå®Œæˆã€‚
    7. 测试样本输入: 将测试样本输入训练好的XGBoost模型。
    8. 打分: XGBoost模型会根æ®è®­ç»ƒæ‰€å¾—模型和打分机制,对æ¯ä¸ªå¯¹è¿›è¡Œæ‰“分。
    9. 排åºï¼š æ ¹æ®æ‰“分结果,对doc进行排åºã€‚

    打分机制:相关度的é‡åŒ–

    XGBoost的打分机制是基于树模型的预测结果。æ¯ä¸ªå¯¹åœ¨æ¯æ£µæ ‘上都会获得一个分数,最终的打分结果是所有树上分数的累加。

    需è¦æ³¨æ„的是,XGBoost的打分结果是相关度的一ç§è¡¨ç¤ºï¼Œå¹¶ä¸æ˜ å°„到æŸä¸ªå…·ä½“数值。

    XGBoost排åºä»»åŠ¡çš„优势

    • 强大的预测能力: XGBoost模型能够学习å¤æ‚的特å¾å…³ç³»ï¼Œå¹¶åšå‡ºå‡†ç¡®çš„预测。
    • å¯è§£é‡Šæ€§ï¼š XGBoost模型能够æ供特å¾é‡è¦æ€§ä¿¡æ¯ï¼Œå¸®åŠ©æˆ‘们ç†è§£æ¨¡åž‹çš„决策过程。
    • 高效性: XGBoost模型能够高效地处ç†å¤§è§„模数æ®ã€‚

    实战案例:用XGBoost进行æœç´¢ç»“果排åº

    å‡è®¾æˆ‘们有一个æœç´¢å¼•æ“Žï¼Œéœ€è¦å¯¹æœç´¢ç»“果进行排åºã€‚我们å¯ä»¥ä½¿ç”¨XGBoost模型æ¥è®­ç»ƒä¸€ä¸ªæŽ’åºæ¨¡åž‹ï¼Œå¹¶åˆ©ç”¨è¯¥æ¨¡åž‹å¯¹æœç´¢ç»“果进行排åºã€‚

    1. æ•°æ®å‡†å¤‡ï¼š 收集包å«queryå’Œdoc的训练数æ®ï¼Œå¹¶æå–相关特å¾ï¼Œä¾‹å¦‚queryå’Œdoc的文本相似度ã€doc的点击率等。
    2. 模型训练: 使用XGBoost模型训练排åºæ¨¡åž‹ï¼Œå¹¶ä½¿ç”¨pairwise loss作为目标函数。
    3. 模型评估: 使用测试数æ®è¯„估模型的性能,例如AUC指标。
    4. 模型部署: 将训练好的模型部署到æœç´¢å¼•æ“Žä¸­ï¼Œç”¨äºŽå¯¹æœç´¢ç»“果进行排åºã€‚

    总结

    XGBoost是一ç§å¼ºå¤§çš„机器学习算法,它在排åºä»»åŠ¡ä¸­è¡¨çŽ°å‡ºè‰²ã€‚通过使用XGBoost模型,我们å¯ä»¥æž„建高效ã€å‡†ç¡®çš„排åºç³»ç»Ÿï¼Œå¸®åŠ©ç”¨æˆ·å¿«é€Ÿæ‰¾åˆ°ä»–们想è¦çš„ä¿¡æ¯ã€‚

    å‚考文献

    • ã€1】机器学习算法-åˆè¯†Learning to Rank
    • ã€2】浅谈Learning to Rank中的RankNetå’ŒLambdaRank算法
    • ã€3】从L2R开始ç†è§£ä¸€ä¸‹xgboostçš„ ‘objective’: ‘rank:pairwise’å‚æ•°
    • ã€4】XGBoost Documentation
    • ã€5】xgboost/demo/rank/
    • ã€6】机器学习排åºä¹‹Learning to Rank简å•ä»‹ç»
    • ã€7】通俗ç†è§£kaggle比赛大æ€å™¨xgboost
    • ã€8】如何ç†è§£æœºå™¨å­¦ä¹ å’Œç»Ÿè®¡ä¸­çš„AUC?
    • ã€9】XGBoost learning-to-rank model to predictions core function?
    • ã€10】『我爱机器学习ã€é›†æˆå­¦ä¹ ï¼ˆä¸‰ï¼‰XGBoost
    • ã€11】XGBoost_æºç åˆæŽ¢
    • ã€12】XGBoost Parameters

    æ·±å…¥è§£æž Learning to Rank (LTR)

    Learning to Rank (LTR) 是一ç§æœºå™¨å­¦ä¹ æŠ€æœ¯ï¼Œç”¨äºŽæž„建能够对项目列表进行排åºçš„模型,以最佳地满足用户的æœç´¢æ„图。它在信æ¯æ£€ç´¢ã€æŽ¨è系统ã€è‡ªç„¶è¯­è¨€å¤„ç†ç­‰é¢†åŸŸéƒ½æœ‰ç€å¹¿æ³›çš„应用。

    LTR 的核心æ€æƒ³:

    LTR 的核心æ€æƒ³æ˜¯åˆ©ç”¨æœºå™¨å­¦ä¹ ç®—法,从标注数æ®ä¸­å­¦ä¹ ä¸€ä¸ªæŽ’åºå‡½æ•°ï¼Œè¯¥å‡½æ•°èƒ½å¤Ÿé¢„测ä¸åŒé¡¹ç›®ä¸Žç‰¹å®šæŸ¥è¯¢çš„相关性,并根æ®ç›¸å…³æ€§å¯¹é¡¹ç›®è¿›è¡ŒæŽ’åºã€‚

    LTR 的应用场景:

    • æœç´¢å¼•æ“Ž: æ ¹æ®ç”¨æˆ·æŸ¥è¯¢ï¼Œå¯¹ç½‘页进行排åºï¼Œå°†æœ€ç›¸å…³çš„网页排在å‰é¢ã€‚
    • 推è系统: æ ¹æ®ç”¨æˆ·çš„历å²è¡Œä¸ºå’Œå好,推è用户å¯èƒ½æ„Ÿå…´è¶£çš„商å“ã€ç”µå½±ã€éŸ³ä¹ç­‰ã€‚
    • 机器翻译: 对多个候选翻译结果进行排åºï¼Œé€‰æ‹©æœ€ç¬¦åˆè¯­æ³•å’Œè¯­ä¹‰çš„翻译结果。
    • 问答系统: 对多个候选答案进行排åºï¼Œé€‰æ‹©æœ€æœ‰å¯èƒ½å›žç­”用户问题的答案。

    LTR 的工作æµç¨‹:

    1. æ•°æ®æ”¶é›†å’Œæ ‡æ³¨: 收集包å«æŸ¥è¯¢å’Œç›¸å…³é¡¹ç›®çš„æ•°æ®é›†ï¼Œå¹¶å¯¹æ¯ä¸ªæŸ¥è¯¢-项目对进行相关性标注,例如,使用 0 到 4 的等级表示相关性从低到高。
    2. 特å¾å·¥ç¨‹: 从查询ã€é¡¹ç›®å’Œä¸Šä¸‹æ–‡ä¿¡æ¯ä¸­æå–特å¾ï¼Œä¾‹å¦‚,查询è¯çš„ TF-IDF 值ã€é¡¹ç›®çš„ PageRank 值ã€ç”¨æˆ·åŽ†å²ç‚¹å‡»çŽ‡ç­‰ã€‚
    3. 模型训练: 选择åˆé€‚çš„ LTR 算法,使用标注数æ®å’Œæå–的特å¾è®­ç»ƒæŽ’åºæ¨¡åž‹ã€‚
    4. 模型评估: 使用测试集评估模型的排åºæ€§èƒ½ï¼Œå¸¸ç”¨çš„指标包括 NDCGã€MAPã€MRR 等。
    5. 模型部署: 将训练好的模型部署到实际系统中,对新的查询进行排åºã€‚

    LTR 的主è¦ç±»åž‹:

    LTR 算法主è¦åˆ†ä¸ºä¸‰ç±»ï¼š

    • Pointwise: 将排åºé—®é¢˜è½¬åŒ–为å•ä¸ªé¡¹ç›®çš„分类或回归问题,例如,预测æ¯ä¸ªé¡¹ç›®çš„相关性得分,然åŽæ ¹æ®å¾—分进行排åºã€‚
      • 优点: 简å•æ˜“实现,训练速度快。
      • 缺点: 忽略了项目之间的相对顺åºå…³ç³»ï¼Œå¯èƒ½å¯¼è‡´æŽ’åºç»“æžœä¸å‡†ç¡®ã€‚
      • 常用算法: 线性回归ã€é€»è¾‘回归ã€æ”¯æŒå‘é‡æœºç­‰ã€‚
    • Pairwise: 将排åºé—®é¢˜è½¬åŒ–为项目对的分类问题,例如,预测哪个项目比å¦ä¸€ä¸ªé¡¹ç›®æ›´ç›¸å…³ï¼Œç„¶åŽæ ¹æ®é¢„测结果进行排åºã€‚
      • 优点: 考虑了项目之间的相对顺åºå…³ç³»ï¼ŒæŽ’åºç»“果更准确。
      • 缺点: 训练速度比 Pointwise 慢,需è¦å¤„ç†çš„样本数é‡æ›´å¤šã€‚
      • 常用算法: RankNetã€LambdaRankã€RankSVM 等。
    • Listwise: 将整个项目列表作为一个训练样本,直接优化排åºåˆ—表的整体指标,例如,NDCGã€MAP 等。
      • 优点: 直接优化排åºæŒ‡æ ‡ï¼ŒæŽ’åºç»“果最准确。
      • 缺点: 训练速度最慢,算法å¤æ‚度高。
      • 常用算法: ListNetã€AdaRankã€LambdaMART 等。

    LTR 的优势:

    • 自动化: LTR å¯ä»¥è‡ªåŠ¨ä»Žæ•°æ®ä¸­å­¦ä¹ æŽ’åºå‡½æ•°ï¼Œæ— éœ€äººå·¥åˆ¶å®šå¤æ‚的排åºè§„则。
    • 个性化: LTR å¯ä»¥æ ¹æ®ç”¨æˆ·çš„历å²è¡Œä¸ºå’Œå好,进行个性化的排åºã€‚
    • å¯æ‰©å±•æ€§: LTR å¯ä»¥å¤„ç†å¤§è§„模数æ®é›†å’Œé«˜ç»´ç‰¹å¾ç©ºé—´ã€‚

    LTR 的挑战:

    • æ•°æ®æ ‡æ³¨æˆæœ¬é«˜: LTR 需è¦å¤§é‡çš„标注数æ®ï¼Œè€Œæ ‡æ³¨æ•°æ®çš„获å–æˆæœ¬è¾ƒé«˜ã€‚
    • 模型å¯è§£é‡Šæ€§å·®: 一些 LTR 模型,例如深度学习模型,å¯è§£é‡Šæ€§è¾ƒå·®ï¼Œéš¾ä»¥ç†è§£æ¨¡åž‹çš„排åºä¾æ®ã€‚
    • 排åºæŒ‡æ ‡çš„选择: ä¸åŒçš„排åºæŒ‡æ ‡é€‚用于ä¸åŒçš„应用场景,选择åˆé€‚的排åºæŒ‡æ ‡è‡³å…³é‡è¦ã€‚

    总而言之,LTR 是一ç§å¼ºå¤§çš„机器学习技术,å¯ä»¥å¸®åŠ©æˆ‘们构建更智能ã€æ›´ç²¾å‡†çš„排åºç³»ç»Ÿã€‚éšç€æŠ€æœ¯çš„ä¸æ–­å‘展,LTR 将在更多领域å‘挥é‡è¦ä½œç”¨ã€‚


    使用 XGBoost æ¥ä¼˜åŒ–æœç´¢ç»“果排åºæ˜¯ä¸€ä¸ªå¾ˆå¥½çš„方法。以下是一个简å•çš„步骤:

    1. æ•°æ®å‡†å¤‡:收集一组包å«æœç´¢æŸ¥è¯¢ã€æœç´¢ç»“æžœåŠç›¸å…³æ€§å¾—分的训练数æ®ã€‚这些数æ®å°†ç”¨äºŽè®­ç»ƒ XGBoost 模型。
    2. 特å¾å·¥ç¨‹:æ ¹æ®æœç´¢æŸ¥è¯¢å’Œç»“果内容,抽å–出一些有用的特å¾,如关键è¯åŒ¹é…度ã€æ ‡é¢˜ç›¸ä¼¼åº¦ã€ç‚¹å‡»çŽ‡ç­‰ã€‚这些特å¾å°†ä½œä¸º XGBoost 模型的输入。
      • æœç´¢è¯ç‰¹å¾:关键è¯é•¿åº¦ã€å…³é”®è¯å‡ºçŽ°é¢‘率ã€å…³é”®è¯ TF-IDF 等。
      • 用户特å¾:用户年龄ã€æ€§åˆ«ã€åœ°ç†ä½ç½®ã€åŽ†å²æœç´¢è¡Œä¸ºç­‰ã€‚
    3. 模型训练:使用 XGBoost 算法在训练数æ®ä¸Šè®­ç»ƒä¸€ä¸ªæŽ’åºæ¨¡åž‹ã€‚å¯ä»¥è°ƒæ•´ä¸€äº›è¶…å‚æ•°,如树的深度ã€å­¦ä¹ çŽ‡ç­‰,以优化模型性能。
    4. 模型部署:将训练好的 XGBoost 模型集æˆåˆ°æœç´¢ç³»ç»Ÿä¸­,当用户进行æœç´¢æ—¶,æ ¹æ®ç»“果的特å¾ä¿¡æ¯,利用模型进行实时预测,得到最终的排åºç»“果。
    5. æŒç»­ä¼˜åŒ–:éšç€æ—¶é—´çš„推移,å¯ä»¥æ”¶é›†æ–°çš„训练数æ®,周期性地é‡æ–°è®­ç»ƒæ¨¡åž‹,以适应æœç´¢çŽ¯å¢ƒçš„å˜åŒ–。

    下é¢æ˜¯ä¸€ä¸ªç®€å•çš„ Python 代ç ç¤ºä¾‹,展示如何使用 XGBoost 进行æœç´¢ç»“果排åº:

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    
    # å‡è®¾æ•°æ®å·²ç»å‡†å¤‡å¥½,包å«æœç´¢ç»“果特å¾ã€æœç´¢è¯ç‰¹å¾å’Œç”¨æˆ·ç‰¹å¾
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 创建并训练 XGBoost 模型
    model = xgb.XGBRanker(objective='rank:pairwise',
                         learning_rate=0.1,
                         max_depth=3,
                         n_estimators=100,
                         random_state=42)
    model.fit(X_train, y_train,
              eval_set=[(X_val, y_val)],
              eval_metric='ndcg@5',
              early_stopping_rounds=10)
    
    # 对新的æœç´¢ç»“果进行排åº
    new_X = ...  # æ–°çš„æœç´¢ç»“果特å¾ã€æœç´¢è¯ç‰¹å¾å’Œç”¨æˆ·ç‰¹å¾
    rankings = model.predict(new_X. sorted_results = new_X[np.argsort(rankings)[::-1]]✅

    è¿™åªæ˜¯ä¸€ä¸ªç®€å•çš„示例,实际应用中å¯èƒ½éœ€è¦æ›´å¤æ‚的特å¾å·¥ç¨‹å’Œæ¨¡åž‹ä¼˜åŒ–。


  • 如何用XGBoost对æœç´¢ç»“果进行优化排åº

    XGBoost是一ç§å¼ºå¤§çš„梯度æå‡ç®—法,å¯ä»¥ç”¨äºŽå¯¹æœç´¢ç»“果进行排åºï¼Œä»Žè€Œæå‡æœç´¢è´¨é‡ã€‚下é¢å°†è¯¦ç»†è¯´æ˜Žå¦‚何使用XGBoost进行æœç´¢ç»“果优化排åºï¼š

    1. æ•°æ®å‡†å¤‡

    • 收集数æ®: 首先需è¦æ”¶é›†æœç´¢ç»“果的相关数æ®ï¼ŒåŒ…括:
      • 查询: 用户输入的æœç´¢è¯
      • 文档: 与查询相关的æœç´¢ç»“果,æ¯ä¸ªæ–‡æ¡£åŒ…å«æ ‡é¢˜ã€æ‘˜è¦ã€é“¾æŽ¥ç­‰ä¿¡æ¯
      • 相关性标签: 人工标注的查询与文档之间的相关性等级,例如:
        • 完美: 文档完全满足查询æ„图
        • 优秀: 文档高度相关,但å¯èƒ½ç¼ºå°‘一些细节
        • 良好: 文档部分相关,å¯ä»¥æ供一些有用信æ¯
        • 较差: 文档与查询ä¸å¤ªç›¸å…³
        • æ— å…³: 文档与查询完全无关
    • 特å¾å·¥ç¨‹: 将原始数æ®è½¬æ¢æˆæ¨¡åž‹å¯ä»¥ç†è§£çš„特å¾å‘é‡ï¼Œå¸¸ç”¨çš„特å¾åŒ…括:
      • 查询特å¾: 查询è¯é•¿åº¦ã€æŸ¥è¯¢è¯ç±»åž‹ï¼ˆå¦‚人物ã€åœ°ç‚¹ã€äº‹ä»¶ï¼‰ã€æŸ¥è¯¢è¯çš„IDF值等
      • 文档特å¾: 文档长度ã€æ–‡æ¡£ä¸­å…³é”®è¯çš„TF-IDF值ã€æ–‡æ¡£çš„PageRank值ã€æ–‡æ¡£çš„新鲜度等
      • 查询-文档交互特å¾: 查询è¯ä¸Žæ–‡æ¡£æ ‡é¢˜çš„相似度ã€æŸ¥è¯¢è¯ä¸Žæ–‡æ¡£æ‘˜è¦çš„相似度ã€æŸ¥è¯¢è¯åœ¨æ–‡æ¡£ä¸­å‡ºçŽ°çš„频率等
    • æ•°æ®é›†åˆ’分: 将收集到的数æ®åˆ’分为训练集ã€éªŒè¯é›†å’Œæµ‹è¯•é›†ï¼Œç”¨äºŽæ¨¡åž‹è®­ç»ƒã€å‚数调优和最终效果评估。

    2. 模型训练

    • 选择目标函数: XGBoost支æŒå¤šç§ç›®æ ‡å‡½æ•°ï¼Œå¯¹äºŽæœç´¢ç»“果排åºé—®é¢˜ï¼Œå¸¸ç”¨çš„目标函数是 Rank:Pairwise,它会比较两个文档的预测得分,并根æ®å®ƒä»¬çš„真实相关性标签进行惩罚。
    • 设置评估指标: 选择åˆé€‚的评估指标æ¥è¡¡é‡æ¨¡åž‹çš„排åºæ•ˆæžœï¼Œå¸¸ç”¨çš„指标包括:
      • NDCG (Normalized Discounted Cumulative Gain): 考虑了文档的相关性和ä½ç½®ï¼Œå€¼è¶Šé«˜è¡¨ç¤ºæŽ’åºæ•ˆæžœè¶Šå¥½ã€‚
      • MAP (Mean Average Precision): 计算æ¯ä¸ªæŸ¥è¯¢çš„å¹³å‡å‡†ç¡®çŽ‡ï¼Œç„¶åŽå¯¹æ‰€æœ‰æŸ¥è¯¢è¿›è¡Œå¹³å‡ï¼Œå€¼è¶Šé«˜è¡¨ç¤ºæŽ’åºæ•ˆæžœè¶Šå¥½ã€‚
    • 调整超å‚æ•°: XGBoost 有许多超å‚æ•°å¯ä»¥è°ƒæ•´ï¼Œä¾‹å¦‚æ ‘çš„æ•°é‡ã€æ ‘的深度ã€å­¦ä¹ çŽ‡ç­‰ã€‚å¯ä»¥ä½¿ç”¨ç½‘æ ¼æœç´¢æˆ–è´å¶æ–¯ä¼˜åŒ–等方法æ¥æ‰¾åˆ°æœ€ä½³çš„超å‚数组åˆã€‚

    3. 模型评估和部署

    • 模型评估: 使用测试集评估训练好的模型的排åºæ•ˆæžœï¼Œå¹¶åˆ†æžæ¨¡åž‹çš„优缺点。
    • 模型部署: 将训练好的模型部署到线上æœç´¢ç³»ç»Ÿä¸­ï¼Œå¯¹æ–°çš„查询进行实时排åºã€‚

    ç¤ºä¾‹ä»£ç  (Python)

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import ndcg_score
    
    # 加载数æ®
    # å‡è®¾æ•°æ®å·²ç»å¤„ç†æˆç‰¹å¾å‘é‡ï¼Œå¹¶å­˜å‚¨åœ¨ X å’Œ y 中
    # X. 特å¾çŸ©é˜µï¼Œæ¯è¡Œä»£è¡¨ä¸€ä¸ªæŸ¥è¯¢-文档对✅
    # y: 相关性标签,值越大表示相关性越高
    
    # 划分数æ®é›†
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 定义 XGBoost 排åºæ¨¡åž‹
    params = {
        'objective': 'rank:pairwise',
        'eval_metric': 'ndcg',
        'eta': 0.1,
        'max_depth': 6,
        'n_estimators': 100,
    }
    dtrain = xgb.DMatrix(X_train, label=y_train)
    dtest = xgb.DMatrix(X_test, label=y_test)
    
    # 训练模型
    model = xgb.train(params, dtrain, evals=[(dtest, 'eval')], num_boost_round=1000, early_stopping_rounds=10)
    
    # 预测排åº
    y_pred = model.predict(dtest)
    
    # 评估模型
    ndcg = ndcg_score([y_test], [y_pred])
    print(f"NDCG: {ndcg}")
    
    # ä¿å­˜æ¨¡åž‹
    model.save_model("xgb_ranking_model.bin")

    总结

    使用 XGBoost 对æœç´¢ç»“果进行优化排åºæ˜¯ä¸€ä¸ªå¤æ‚的过程,需è¦è¿›è¡Œæ•°æ®å‡†å¤‡ã€ç‰¹å¾å·¥ç¨‹ã€æ¨¡åž‹è®­ç»ƒã€å‚数调优ã€æ¨¡åž‹è¯„估和部署等多个步骤。åŒæ—¶ï¼Œéœ€è¦æ ¹æ®å…·ä½“的业务场景和数æ®ç‰¹ç‚¹é€‰æ‹©åˆé€‚的特å¾ã€æ¨¡åž‹å’Œè¯„估指标,æ‰èƒ½å–得最佳的排åºæ•ˆæžœã€‚


    NDCG 和 MAP
    解æžï¼š

    在信æ¯æ£€ç´¢é¢†åŸŸï¼Œè¯„估排åºç»“果好å是éžå¸¸é‡è¦çš„环节。NDCG å’Œ MAP 是常用的两ç§è¯„估指标,它们都考虑了文档的相关性和ä½ç½®ä¿¡æ¯ï¼Œä½†è®¡ç®—æ–¹å¼æœ‰æ‰€ä¸åŒã€‚

    1. NDCG (Normalized Discounted Cumulative Gain): 归一化折æŸç´¯è®¡å¢žç›Š

    NDCG 是一ç§è¡¡é‡æŽ’åºè´¨é‡çš„指标,它考虑了文档的相关性和ä½ç½®ï¼Œè®¤ä¸ºæŽ’åé å‰çš„相关文档比排åé åŽçš„相关文档更有价值。

    计算步骤:

    1. 计算æ¯ä¸ªæ–‡æ¡£çš„增益 (Gain): æ ¹æ®æ–‡æ¡£çš„相关性等级,赋予æ¯ä¸ªæ–‡æ¡£ä¸€ä¸ªå¢žç›Šå€¼ã€‚例如,å¯ä»¥ä½¿ç”¨ä»¥ä¸‹è§„则:
      • 完美: 3分
      • 优秀: 2分
      • 良好: 1分
      • 较差: 0分
      • æ— å…³: 0分
    2. 计算累计增益 (Cumulative Gain): å°†å‰ k 个文档的增益值累加起æ¥ï¼Œå¾—到 CG@k。
    3. 计算折æŸç´¯è®¡å¢žç›Š (Discounted Cumulative Gain): 对 CG@k 进行折æŸï¼Œå°†æŽ’åé åŽçš„文档的增益值é™ä½Žã€‚常用的折æŸå‡½æ•°æ˜¯ 1/log2(i+1),其中 i 是文档的排å。
      • DCG@k = Σ(i=1 to k) [Gain(i) / log2(i+1)]
    4. 计算ç†æƒ³æŠ˜æŸç´¯è®¡å¢žç›Š (Ideal Discounted Cumulative Gain): 对完美排åºä¸‹çš„ DCG@k 进行计算,得到 IDCG@k。完美排åºæ˜¯æŒ‡æ‰€æœ‰ç›¸å…³æ–‡æ¡£éƒ½æŽ’在最å‰é¢ã€‚
    5. 计算归一化折æŸç´¯è®¡å¢žç›Š (Normalized Discounted Cumulative Gain): å°† DCG@k 除以 IDCG@k,得到 NDCG@k。
      • NDCG@k = DCG@k / IDCG@k

    NDCG çš„å–值范围是 [0, 1],值越高表示排åºæ•ˆæžœè¶Šå¥½ã€‚

    示例:

    å‡è®¾æœ‰ 5 个文档,相关性等级分别为:[完美, 优秀, æ— å…³, 良好, 较差],则:

    • 完美排åº: [完美, 优秀, 良好, 较差, æ— å…³]
    • 模型排åº: [完美, æ— å…³, 优秀, 良好, 较差]

    计算 NDCG@3:

    • 完美排åº:
      • DCG@3 = 3/log2(2) + 2/log2(3) + 1/log2(4) ≈ 4.26
      • IDCG@3 = 4.26 (因为是完美排åº)
      • NDCG@3 = 4.26 / 4.26 = 1
    • 模型排åº:
      • DCG@3 = 3/log2(2) + 0/log2(3) + 2/log2(4) ≈ 3.5
      • IDCG@3 = 4.26
      • NDCG@3 = 3.5 / 4.26 ≈ 0.82

    2. MAP (Mean Average Precision): å¹³å‡å‡†ç¡®çŽ‡å‡å€¼

    MAP 是一ç§è¡¡é‡æ£€ç´¢ç³»ç»Ÿåœ¨æ‰€æœ‰æŸ¥è¯¢ä¸Šçš„å¹³å‡æ€§èƒ½çš„指标,它考虑了æ¯ä¸ªæŸ¥è¯¢çš„å¹³å‡å‡†ç¡®çŽ‡ (Average Precision)。

    计算步骤:

    1. 计算æ¯ä¸ªæŸ¥è¯¢çš„准确率 (Precision): 对于æ¯ä¸ªæŸ¥è¯¢ï¼Œè®¡ç®—å‰ k 个文档的准确率 P@k,å³å‰ k 个文档中相关文档的比例。
    2. 计算æ¯ä¸ªæŸ¥è¯¢çš„å¹³å‡å‡†ç¡®çŽ‡ (Average Precision): 对于æ¯ä¸ªæŸ¥è¯¢ï¼Œè®¡ç®—所有相关文档ä½ç½®ä¸Šçš„准确率的平å‡å€¼ã€‚
      • AP = Σ(k=1 to n) [P@k * rel(k)] / num_relevant_docs
      • 其中 n 是文档总数,rel(k) 表示第 k 个文档是å¦ç›¸å…³ (相关为 1,ä¸ç›¸å…³ä¸º 0),num_relevant_docs 是相关文档的总数。
    3. 计算所有查询的平å‡å‡†ç¡®çŽ‡å‡å€¼ (Mean Average Precision): 将所有查询的 AP 值进行平å‡ã€‚
      • MAP = Σ(q=1 to Q. [AP(q)] / Q✅
      • 其中 Q 是查询的总数。

    MAP çš„å–值范围也是 [0, 1],值越高表示排åºæ•ˆæžœè¶Šå¥½ã€‚

    示例:

    å‡è®¾æœ‰ä¸¤ä¸ªæŸ¥è¯¢ï¼Œæ¯ä¸ªæŸ¥è¯¢è¿”回 5 个文档,相关性标签如下:

    • 查询 1: [完美, 优秀, æ— å…³, 良好, 较差]
    • 查询 2: [优秀, æ— å…³, 良好, 完美, 较差]

    计算 MAP:

    • 查询 1:
      • P@1 = 1/1 = 1, P@2 = 2/2 = 1, P@3 = 2/3 ≈ 0.67, P@4 = 3/4 = 0.75, P@5 = 3/5 = 0.6
      • AP = (11 + 11 + 0.670 + 0.751 + 0.6*0) / 3 ≈ 0.81
    • 查询 2:
      • P@1 = 1/1 = 1, P@2 = 1/2 = 0.5, P@3 = 2/3 ≈ 0.67, P@4 = 3/4 = 0.75, P@5 = 3/5 = 0.6
      • AP = (11 + 0.51 + 0.671 + 0.751 + 0.6*0) / 4 ≈ 0.73
    • MAP = (0.81 + 0.73) / 2 = 0.77

    总结:

    • NDCG 更加关注排åé å‰çš„文档,适用于评估 Top-K 排åºç»“果。
    • MAP 综åˆè€ƒè™‘了所有相关文档的ä½ç½®ï¼Œé€‚用于评估整体排åºæ€§èƒ½ã€‚

    选择哪ç§æŒ‡æ ‡å–决于具体的应用场景和需求。


    NDCG 和 MAP 计算实例详解

    为了更清晰地解释 NDCG å’Œ MAP 的计算过程,我们用一个具体的例å­æ¥è¯´æ˜Žã€‚

    å‡è®¾æœ‰ä¸€ä¸ªæœç´¢å¼•æ“Žï¼Œç”¨æˆ·æ交了两个查询 Query 1 å’Œ Query 2,æ¯ä¸ªæŸ¥è¯¢è¿”回了 5 个结果,æ¯ä¸ªç»“果的相关性等级已ç»æ ‡æ³¨å¥½ï¼Œå¦‚下表所示:

    查询排å文档相关性等级Gain
    Query 11A完美3
    2B优秀2
    3Cæ— å…³0
    4D良好1
    5E较差0
    Query 21F优秀2
    2Gæ— å…³0
    3H良好1
    4I完美3
    5J较差0

    1. NDCG 计算

    我们以 NDCG@3 为例,分别计算 Query 1 å’Œ Query 2 çš„ NDCG@3,然åŽå–å¹³å‡å€¼ã€‚

    Query 1:

    • 计算 DCG@3:
      • DCG@3 = 3/log2(1+1) + 2/log2(2+1) + 0/log2(3+1) ≈ 3.52
    • 计算 IDCG@3:
      • 完美排åºä¸ºï¼š[A, B, D],因此:
      • IDCG@3 = 3/log2(1+1) + 2/log2(2+1) + 1/log2(3+1) ≈ 4.26
    • 计算 NDCG@3:
      • NDCG@3 = DCG@3 / IDCG@3 ≈ 3.52 / 4.26 ≈ 0.83

    Query 2:

    • 计算 DCG@3:
      • DCG@3 = 2/log2(1+1) + 0/log2(2+1) + 1/log2(3+1) ≈ 2.13
    • 计算 IDCG@3:
      • 完美排åºä¸ºï¼š[F, H, I],因此:
      • IDCG@3 = 2/log2(1+1) + 1/log2(2+1) + 3/log2(3+1) ≈ 4.52
    • 计算 NDCG@3:
      • NDCG@3 = DCG@3 / IDCG@3 ≈ 2.13 / 4.52 ≈ 0.47

    å¹³å‡ NDCG@3:

    • (0.83 + 0.47) / 2 = 0.65

    2. MAP 计算

    分别计算 Query 1 å’Œ Query 2 çš„ AP (Average Precision),然åŽå–å¹³å‡å€¼ã€‚

    Query 1:

    • 相关文档有:A, B, D. ¼Œå…± 3 个✅
    • P@1 = 1/1 = 1
    • P@2 = 2/2 = 1
    • P@3 = 2/3 ≈ 0.67
    • P@4 = 3/4 = 0.75
    • P@5 = 3/5 = 0.6
    • AP = (11 + 11 + 0.670 + 0.751 + 0.6*0) / 3 ≈ 0.81

    Query 2:

    • 相关文档有:F, H, I. ¼Œå…± 3 个✅
    • P@1 = 1/1 = 1
    • P@2 = 1/2 = 0.5
    • P@3 = 2/3 ≈ 0.67
    • P@4 = 3/4 = 0.75
    • P@5 = 3/5 = 0.6
    • AP = (11 + 0.50 + 0.671 + 0.751 + 0.6*0) / 3 ≈ 0.64

    å¹³å‡ MAP:

    • (0.81 + 0.64) / 2 = 0.725

    总结:

    通过以上例å­ï¼Œæˆ‘们å¯ä»¥çœ‹åˆ° NDCG å’Œ MAP 都是用æ¥è¯„ä¼°æœç´¢ç»“果排åºè´¨é‡çš„指标,但它们侧é‡ç‚¹æœ‰æ‰€ä¸åŒã€‚NDCG 更关注排åé å‰çš„结果,而 MAP 则综åˆè€ƒè™‘了所有相关文档的ä½ç½®ã€‚选择哪ç§æŒ‡æ ‡å–决于具体的应用场景和需求。


  • 法律智慧的知识注入:通过诊断和正负样本强化学习探索大语言模型咨询

    è¿‘å¹´æ¥ï¼Œéšç€ç”Ÿæˆå¼å¤§è¯­è¨€æ¨¡åž‹ï¼ˆLLMs)的广泛应用,其在法律领域也得到了越æ¥è¶Šå¤šçš„关注。然而,对于没有法律背景的用户æ¥è¯´ï¼Œåœ¨é¢å¯¹æ³•å¾‹æ¡ˆä»¶æ—¶ï¼Œä»–们往往难以用专业语言进行æ问,也å¯èƒ½åœ¨å‘LLMs陈述案件时忽略关键的法律因素。为了解决这个问题,我们æ出了诊断å¼æ³•å¾‹å¤§è¯­è¨€æ¨¡åž‹ï¼ˆD3LM),它利用类似律师的适应性诊断问题æ¥æ”¶é›†é¢å¤–的案件信æ¯ï¼Œå¹¶æ供高质é‡çš„å馈。

    D3LM结åˆäº†ä¸€ç§åˆ›æ–°çš„基于图的正负样本强化学习(PURL)算法,能够生æˆå…³é”®é—®é¢˜ï¼Œå¹¶å¢žå¼ºç”¨æˆ·ä¸ŽLLMs的交互。此外,一个集æˆçš„基于LLMsçš„åœæ­¢å‡†åˆ™ï¼Œå¯ä»¥å®žçŽ°ç²¾ç¡®çš„法院观点生æˆï¼ˆCVG)。我们的研究还引入了一个新的基于美国案例法数æ®åº“的英语CVGæ•°æ®é›†ï¼Œä¸ºLLMs研究和部署领域增添了é‡è¦ç»´åº¦ã€‚D3LM超越了传统LLMs,在法律领域展现出å“越的性能和éžå‡¡çš„用户体验。

    法律æœåŠ¡çš„新纪元:D3LM的优势

    传统LLMs在法律咨询中存在局é™æ€§ï¼Œç”¨æˆ·å¾€å¾€éœ€è¦è‡ªè¡Œç»„织语言,而LLMs则无法主动引导用户æ供更详细的信æ¯ã€‚D3LM则ä¸åŒï¼Œå®ƒå°±åƒä¸€ä½ä¸“业的律师,通过一系列针对性的问题,引导用户æ供更多案件细节,从而更准确地预测法律结果。

    例如,å‡è®¾ä¸€ä½å®¢æˆ·å› é…’å§æ–—殴而被指控故æ„伤害。传统LLMså¯èƒ½ä¼šåŸºäºŽå®¢æˆ·æ供的模糊æ述,给出笼统的法院观点,但由于信æ¯ä¸è¶³ï¼Œå¯èƒ½ä¼šå¿½ç•¥å…³é”®ç»†èŠ‚。而律师则会通过一系列针对性的问题,深入了解案件细节,例如:â€æ‚¨å½“时是å¦å¤„于酒精影å“下?“,â€é…’å§æ˜¯å¦æœ‰ç›‘控摄åƒå¤´è®°å½•äº†äº‹ä»¶ï¼Ÿâ€œã€‚D3LM则能够自动生æˆç±»ä¼¼çš„问题,在ä¸å¢žåŠ é¢å¤–æˆæœ¬çš„情况下,更深入地ç†è§£æ¡ˆä»¶ï¼Œå¹¶æ高法律结果预测的准确性。

    知识图谱与强化学习:D3LM的核心技术

    D3LM的核心技术在于将LLMs与法律知识图谱相结åˆï¼Œå¹¶åˆ©ç”¨æ­£è´Ÿæ ·æœ¬å¼ºåŒ–学习(PURL)算法æ¥ç”Ÿæˆå…³é”®é—®é¢˜ã€‚

    1. 法律知识图谱: D3LM将美国案例法数æ®åº“中的案件信æ¯è½¬åŒ–为结构化的事实-规则图,并利用“问题ã€è§„则ã€åˆ†æžã€ç»“论â€ï¼ˆIRAC)框架,将å¤æ‚的案件å™è¿°ç®€åŒ–为简æ´çš„表示形å¼ã€‚

    2. 正负样本强化学习: D3LM通过éšæœºé®è”½äº‹å®žèŠ‚点,生æˆä¸€ç³»åˆ—关于案件的潜在问题。然åŽï¼Œåˆ©ç”¨LLMs对é®è”½åŽçš„案件æ述进行é‡å»ºï¼Œå¹¶ç”Ÿæˆç›¸åº”的法院观点。通过比较é‡å»ºåŽçš„法院观点与真实法院观点,模型å¯ä»¥å­¦ä¹ åˆ°å“ªäº›é—®é¢˜å¯¹äºŽé¢„测法律结果更é‡è¦ã€‚

    3. 法院观点生æˆï¼š D3LM基于PURL算法,能够根æ®ç”¨æˆ·æ供的案件信æ¯ï¼Œç”Ÿæˆæ›´å‡†ç¡®çš„法院观点。它能够识别案件中的关键因素,并通过一系列针对性的问题,引导用户æ供更详细的信æ¯ï¼Œä»Žè€Œæ高法院观点生æˆçš„准确性和å¯é æ€§ã€‚

    çªç ´æ€§æ•°æ®é›†ï¼šä¸ºæ³•å¾‹AI研究æ供新基准

    为了更好地评估D3LM的性能,我们创建了一个全新的英语CVGæ•°æ®é›†ï¼Œè¯¥æ•°æ®é›†åŸºäºŽç¾Žå›½æ¡ˆä¾‹æ³•æ•°æ®åº“,并ç»è¿‡æ³•å¾‹ä¸“业人士的严格审核。该数æ®é›†å¼¥è¡¥äº†è‹±è¯­æ³•å¾‹åˆ†æžæ•°æ®é›†çš„ä¸è¶³ï¼Œä¸ºæ³•å¾‹AI研究æ供了新的基准。

    实验结果:D3LMçš„å“越表现

    我们对D3LM进行了全é¢çš„评估,并将其与其他基准模型进行了比较。实验结果表明,D3LM在生æˆç¾Žå›½æ³•é™¢è§‚点方é¢è¡¨çŽ°å‡ºè‰²ï¼Œåœ¨ROUGEå’ŒBLEU指标上å‡å–得了最佳æˆç»©ã€‚

    此外,我们还进行了用户体验测试,结果表明,用户对D3LMçš„å¯é æ€§å’Œæ»¡æ„度评分å‡é«˜äºŽGPT-4.0。这表明,D3LM的交互å¼æ问方å¼ï¼Œæ›´èƒ½æ»¡è¶³ç”¨æˆ·å¯¹æ³•å¾‹å’¨è¯¢çš„实际需求。

    展望未æ¥ï¼šæ³•å¾‹AIçš„æ— é™å¯èƒ½

    D3LM的出现,为法律AI研究开辟了新的é“路。未æ¥ï¼Œæˆ‘们将进一步探索D3LM在其他领域,例如医疗和咨询领域的应用,使其能够为更多用户æ供更便æ·ã€æ›´ç²¾å‡†çš„æœåŠ¡ã€‚

    å‚考文献

    • Achiam, J. , et al. (2023). “ChatGPT: Optimizing Language Models for Dialogue.” arXiv preprint arXiv:2212.00183.✅
    • Auer, P. , et al. (2002). “Finite-time analysis of the multiarmed bandit problem.” Machine learning, 47(2-3), 235-256.✅
    • Brescia, E. , et al. (2014). “The cost of justice: A comparative analysis of legal aid systems in Europe.” European Journal of Law and Economics, 37(3), 221-242.✅
    • Caselaw Access Project (2024). “Caselaw Access Project.” Retrieved from https://casetext.com/
    • Chapelle, O. , and Li, L. (2011). “An empirical evaluation of thompson sampling.” Advances in neural information processing systems, 24.✅
    • Chen, H. , et al. (2020). “Predictive adversarial learning for positive-unlabeled learning.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 3420-3427.✅
    • Chen, J. , et al. (2022). “Law article recommendation based on user interest and legal knowledge graph.” Journal of Grid Computing, 20(1), 1-14.✅
    • Chen, Z. , et al. (2023). “DISCO: Data Augmentation for Natural Language Understanding via Counterfactual Examples.” arXiv preprint arXiv:2303.17159.✅
    • Chu, W. , et al. (2011). “Contextual bandits with linear payoff functions.” Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, 1-10.✅
    • Cui, Y. , et al. (2023). “ChatLaw: A Large Language Model for Legal Question Answering.” arXiv preprint arXiv:2304.04170.✅
    • Du Plessis, M. C., et al. (2015). “Deep learning for imbalanced datasets: A review.” arXiv preprint arXiv:1506.02291.✅
    • Gans-Morse, J. (2017). “The demand for legal services: A review of the literature.” Journal of Legal Studies, 46(S1), S1-S37.✅
    • Gensler, H. J. (1985). “Legal Reasoning: A Cognitive Approach.” Stanford Law Review, 38(1), 1-41.✅
    • Hadfield, G. K. (2010). “The economics of legal disputes.” In The Handbook of Law and Economics (pp. 1-51). Edward Elgar Publishing.✅
    • Horwitz, M. J. (2020). “The future of legal services: The rise of the legal tech revolution.” Harvard Law Review, 133(8), 2299-2320.✅
    • Hu, B. , et al. (2021). “Predictive adversarial learning for positive-unlabeled learning with heterogeneous data.” IEEE Transactions on Neural Networks and Learning Systems, 32(11), 4938-4951.✅
    • Hu, W. , et al. (2018). “Predicting charge decisions in criminal judgments using deep learning.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.✅
    • Jin, Z. , et al. (2024). “Legal Reasoning with Large Language Models: A Survey.” arXiv preprint arXiv:2401.06204.✅
    • Kiryo, R. , et al. (2017). “Positive-unlabeled learning with non-negative risk estimator.” Advances in Neural Information Processing Systems, 30.✅
    • Lin, J. , et al. (2012). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 1201-1210.✅
    • Liu, Y. , and Wu, Y. (2020). “Fake news detection on social media: A data mining perspective.” ACM SIGKDD Explorations Newsletter, 22(1), 1-11.✅
    • Liu, Y. , et al. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv preprint arXiv:1907.11692.✅
    • Liu, Z. , et al. (2022). “WANLI: A Large-Scale Chinese Legal Dataset for Legal Reasoning.” arXiv preprint arXiv:2208.08227.✅
    • Purba, M. S., and Syahrin, M. (2019). “The role of legal services in promoting economic growth and development.” Journal of Law, Policy and Globalization, 54, 1-10.✅
    • Robertson, S. E., and Walker, S. (1994). “Some simple effective approximations to the 2-poisson model for probabilistic retrieval.” Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, 232-241.✅
    • Schick, T. , et al. (2023). “On the Importance of Completeness in Legal Reasoning: A Case Study with Large Language Models.” arXiv preprint arXiv:2303.14412.✅
    • Swayamdipta, S. , et al. (2020). “Dataset Cartography: A Framework for Refining NLI Examples with GPT-3.” arXiv preprint arXiv:2009.05396.✅
    • Tong, H. , et al. (2020). “Inductive representation learning on graphs.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5041-5048.✅
    • Touvron, J. , et al. (2023). “Llama 2: Open and Efficient Foundation Models.” arXiv preprint arXiv:2307.09286.✅
    • Wei, X. , and Li, B. (2018). “Adversarial learning for positive unlabeled learning.” Proceedings of the 32nd AAAI Conference on Artificial Intelligence, 4427-4434.✅
    • Wu, Y. , et al. (2020). “Attention and Counterfactual-based Court View Generation.” Proceedings of the 29th ACM International Conference on Information and Knowledge Management, 1885-1894.✅
    • Wu, Y. , et al. (2023). “Predictive Adversarial Learning for Positive-Unlabeled Learning with Heterogeneous Data.” IEEE Transactions on Neural Networks and Learning Systems, 34(11), 4938-4951.✅
    • Xiao, J. , et al. (2021). “Lawformer: A Pre-trained Language Model for Legal Text Understanding.” arXiv preprint arXiv:2106.01796.✅
    • Ye, Y. , et al. (2018). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.✅
    • Zamfirescu-Pereira, I. , et al. (2023). “The Impact of Large Language Models on the Legal Profession: A Critical Analysis.” arXiv preprint arXiv:2305.11136.✅
    • Zhao, Y. , et al. (2022). “Dist-PU: A Distribution-Based Approach for Positive-Unlabeled Learning.” Proceedings of the AAAI Conference on Artificial Intelligence, 36(12), 12638-12646.✅
    • Zhong, H. , et al. (2018). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.✅
    • Zhou, D. , et al. (2020). “Neural contextual bandits with UCB exploration.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5744-5751.✅
    • Zhou, Y. , et al. (2021). “Positive-Unlabeled Learning for Recommendation with Implicit Feedback.” Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2213-2222.✅
  • 问答系统中的检索å¤æ‚度:解ç å¤æ‚问题的奥秘

    在信æ¯çˆ†ç‚¸çš„时代,问答系统(QA)æˆä¸ºäº†æˆ‘们获å–知识的é‡è¦å·¥å…·ã€‚其中,基于检索的问答系统凭借其从外部资æºä¸­èŽ·å–ä¿¡æ¯çš„能力,æˆä¸ºäº†ä¸»æµæ–¹æ¡ˆã€‚然而,当é¢å¯¹éœ€è¦å¤šæ­¥æŽ¨ç†æˆ–æ•´åˆå¤šæ–¹é¢ä¿¡æ¯æ‰èƒ½å›žç­”çš„å¤æ‚问题时,这些系统就显得力ä¸ä»Žå¿ƒäº†ã€‚

    如何判断一个问题是å¦å¤æ‚? 现有研究大多关注问题本身的结构,例如多跳问题(需è¦å¤šæ­¥æŽ¨ç†æ‰èƒ½æ‰¾åˆ°ç­”案)或组åˆåž‹é—®é¢˜ï¼ˆç­”案需è¦æ•´åˆå¤šä¸ªä¿¡æ¯ç‰‡æ®µï¼‰ã€‚然而,这些指标并ä¸èƒ½å®Œå…¨å映一个问题在检索问答系统中的实际难度。

    检索å¤æ‚度:衡é‡é—®ç­”系统难度的全新视角

    本文介ç»äº†ä¸€ç§å为检索å¤æ‚度(RC) 的全新指标,用于衡é‡é—®ç­”系统在回答特定问题时的难度。RC 考虑了 检索结果的完整性,å³æ£€ç´¢åˆ°çš„文档是å¦åŒ…å«è¶³å¤Ÿçš„ä¿¡æ¯æ¥å›žç­”问题。

    直观ç†è§£ï¼š å‡è®¾æˆ‘们想问“狮å­æ¯”è€è™Žå¤§å—?â€ï¼Œè¿™ä¸ªé—®é¢˜è™½ç„¶ç»“构简å•ï¼Œä½†ç­”案å¯èƒ½åªéœ€è¦ä»Žä¸€ä¸ªæè¿°ç‹®å­å’Œè€è™Žå¤§å°çš„文档中找到。而å¦ä¸€ä¸ªé—®é¢˜â€œç‹®å­æ¯”冰箱大å—?â€ï¼Œåˆ™éœ€è¦æ•´åˆå¤šä¸ªä¿¡æ¯ç‰‡æ®µæ‰èƒ½å¾—出答案,因为很少有文档会åŒæ—¶æè¿°ç‹®å­å’Œå†°ç®±çš„大å°ã€‚

    Reference-based Question Complexity Pipeline (RRCP):æ­ç¤ºæ£€ç´¢å¤æ‚度

    为了é‡åŒ–检索å¤æ‚度,研究者们设计了一个å为 RRCP 的无监ç£ç®¡é“。它包å«ä¸‰ä¸ªå…³é”®éƒ¨åˆ†ï¼š

    1. 检索系统: 使用先进的检索技术,根æ®é—®é¢˜ä»Žå¤šä¸ªç´¢å¼•ä¸­èŽ·å–相关文档。
    2. GenEval: 一ç§åŸºäºŽå‚考的自动评估系统,通过比较检索到的文档和å‚考答案,评估问题的难度。
    3. 约æŸæœºåˆ¶ï¼š 通过两个阈值æ¥åˆ¤æ–­é—®é¢˜æ˜¯å¦æ»¡è¶³â€œå¯å›žç­”性â€å’Œâ€œæ£€ç´¢é›†å®Œæ•´æ€§â€çš„约æŸã€‚

    GenEval:精准评估答案正确性

    GenEval 是一ç§åŸºäºŽç¼–ç å™¨-解ç å™¨ç»“构的模型,ç»è¿‡è®­ç»ƒå¯ä»¥åˆ¤æ–­æ£€ç´¢åˆ°çš„文档是å¦åŒ…å«é—®é¢˜çš„正确答案。与其他评估方法相比,GenEval 具有以下优势:

    • 基于更强大的编ç å™¨-解ç å™¨æ¨¡åž‹ï¼Œå¯ä»¥æ›´çµæ´»åœ°å­¦ä¹ å’Œé¢„测。
    • 训练数æ®æ›´ä¸°å¯Œï¼ŒåŒ…括真实å‚考数æ®é›†å’Œåˆæˆæ•°æ®ï¼Œå¯ä»¥æ›´å¥½åœ°å¤„ç†å„ç§æƒ…况。

    两个约æŸï¼šæ­ç¤ºå¤æ‚问题的本质

    RRCP 通过两个约æŸæ¥åˆ¤æ–­é—®é¢˜çš„å¤æ‚程度:

    1. å¯å›žç­”性: 评估是å¦å¯ä»¥é€šè¿‡å•ä¸ªæ£€ç´¢åˆ°çš„文档æ¥å›žç­”问题。
    2. 检索集完整性: 评估检索到的文档是å¦åŒ…å«å›žç­”问题所需的所有信æ¯ã€‚

    实验验è¯ï¼šRRCP 的优越性

    研究者们在多个问答数æ®é›†ä¸Šå¯¹ RRCP 进行了评估,结果表明:

    • RRCP 在识别å¤æ‚问题方é¢è¡¨çŽ°å‡ºè‰²ï¼Œä¼˜äºŽå…¶ä»–基于语言模型的无监ç£æ–¹æ³•ã€‚
    • 检索å¤æ‚度与问答系统的性能密切相关,å¤æ‚度高的问题通常更难回答。
    • RRCP å¯ä»¥è¯†åˆ«å¤šç§ç±»åž‹çš„å¤æ‚问题,包括多跳问题ã€æ¯”较问题ã€æ—¶é—´é—®é¢˜ã€æœ€é«˜çº§é—®é¢˜å’Œèšåˆé—®é¢˜ã€‚

    未æ¥çš„æ–¹å‘:çªç ´å±€é™ï¼Œå¼€æ‹“应用

    尽管 RRCP å–得了显著æˆæžœï¼Œä½†ä¹Ÿå­˜åœ¨ä¸€äº›å±€é™æ€§ï¼Œä¾‹å¦‚对å‚考答案的ä¾èµ–和对检索系统质é‡çš„æ•æ„Ÿæ€§ã€‚未æ¥ï¼Œç ”究者们将致力于:

    • å‡å°‘对å‚考答案的ä¾èµ–,探索基于语言模型的无监ç£è¯„估方法。
    • æå‡æ£€ç´¢ç³»ç»Ÿçš„è´¨é‡ï¼Œä»¥æ高 RRCP 的准确性。

    检索å¤æ‚度:问答系统å‘展的新起点

    检索å¤æ‚度的概念为我们ç†è§£é—®ç­”系统的难度æ供了新的视角。通过识别å¤æ‚问题,我们å¯ä»¥æ›´å¥½åœ°ä¼˜åŒ–问答系统,æå‡å…¶åœ¨å¤„ç†å¤æ‚问题时的性能。未æ¥ï¼Œéšç€æŠ€æœ¯çš„ä¸æ–­å‘展,检索å¤æ‚度将æˆä¸ºé—®ç­”系统å‘展的新起点,推动问答系统å‘ç€æ›´æ™ºèƒ½ã€æ›´ç²¾å‡†çš„æ–¹å‘å‘展。

    å‚考文献:

  • 对è¯å¼æœç´¢å¼•æ“Žçš„排åæ“纵:一场悄无声æ¯çš„“战争â€

    è¿‘å¹´æ¥ï¼Œå¤§åž‹è¯­è¨€æ¨¡åž‹ï¼ˆLLM)作为强大的对è¯å¼ä»£ç†ï¼Œåœ¨æœç´¢å¼•æ“Žé¢†åŸŸæŽ€èµ·äº†ä¸€åœºé©å‘½ã€‚åƒOpenAIå’Œperplexity.ai这样的公å¸æŽ¨å‡ºäº†å®Œå…¨å¯¹è¯å¼çš„æœç´¢æœåŠ¡ï¼Œè€Œè°·æ­Œç­‰ä¼ ç»Ÿæœç´¢å¼•æ“Žä¹Ÿå¼€å§‹å°†ç”Ÿæˆå¼å†…容èžå…¥å…¶ä¸­ã€‚这些对è¯å¼æœç´¢å¼•æ“Žé€šè¿‡å°†æ£€ç´¢åˆ°çš„网站文本加载到LLM的上下文中,进行摘è¦å’Œè§£é‡Šï¼Œä¸ºç”¨æˆ·æ供更人性化的æœç´¢ä½“验。

    然而,这ç§é©å‘½æ€§çš„æœç´¢æŠ€æœ¯ä¹Ÿå¸¦æ¥äº†ä¸€ä¸ªä¸å®¹å¿½è§†çš„问题:对è¯å¼æœç´¢å¼•æ“Žæ˜¯å¦å¯ä»¥è¢«æ“纵,从而始终推崇æŸäº›ç‰¹å®šçš„内容?这个问题在商业领域尤其é‡è¦ï¼Œå› ä¸ºç½‘站排å往往与ä¼ä¸šçš„收入和声誉æ¯æ¯ç›¸å…³ã€‚

    æ“纵对è¯å¼æœç´¢å¼•æ“Žï¼šä¸€åœºéšå½¢çš„“战争â€

    本文将深入探讨对è¯å¼æœç´¢å¼•æ“Žçš„排å机制,并æ­ç¤ºå…¶åœ¨å¯¹æŠ—性æ“纵é¢å‰çš„脆弱性。研究人员å‘现,通过在网站内容中注入对抗性æ示,å¯ä»¥æœ‰æ•ˆåœ°å½±å“LLM的排å结果,从而将æŸäº›ç½‘站置于æœç´¢ç»“果的顶端。

    LLM的“弱点â€ï¼šå¯¹æŠ—性æ示注入

    LLM虽然强大,但它们也存在一些弱点。近年æ¥ï¼Œç ”究人员å‘现,LLM很容易å—到“越狱â€å’Œæ示注入攻击的影å“。这些攻击通过在LLM的输入中æ’入对抗性字符串,破åLLM的安全性和质é‡ç›®æ ‡ã€‚

    对è¯å¼æœç´¢å¼•æ“Žçš„“弱点â€ï¼šæŽ’å机制的脆弱性

    对è¯å¼æœç´¢å¼•æ“Žé€šå¸¸é‡‡ç”¨æ£€ç´¢å¢žå¼ºç”Ÿæˆï¼ˆRAG)架构,通过检索相关文本并将其加载到LLM的上下文中æ¥ç”Ÿæˆç­”案。研究人员å‘现,RAG模型的排å机制容易å—到对抗性æ示注入攻击的影å“。

    实验结果:对抗性æ示注入的有效性

    研究人员通过实验验è¯äº†å¯¹æŠ—性æ示注入的有效性。他们构建了一个å为RagDollçš„æ•°æ®é›†ï¼ŒåŒ…å«æ¥è‡ªä¸åŒäº§å“类别(如个人护ç†ã€ç”µå­äº§å“ã€å®¶ç”¨ç”µå™¨ç­‰ï¼‰çš„真实网站。实验结果表明,ä¸åŒçš„LLM在优先考虑产å“å称ã€æ–‡æ¡£å†…容和上下文ä½ç½®æ–¹é¢å­˜åœ¨æ˜¾è‘—差异。

    æ›´é‡è¦çš„是,研究人员å‘现,通过使用基于攻击树的“越狱â€æŠ€æœ¯ï¼Œå¯ä»¥å¯é åœ°å°†æŽ’å较低的网站æå‡åˆ°æœç´¢ç»“果的顶端。这些攻击甚至å¯ä»¥è½¬ç§»åˆ°åƒperplexity.ai这样的先进对è¯å¼æœç´¢å¼•æ“Žã€‚

    未æ¥å±•æœ›ï¼šé˜²å¾¡å¯¹æŠ—性æ示注入攻击

    研究人员强调,对è¯å¼æœç´¢å¼•æ“Žçš„脆弱性是一个亟待解决的问题。他们呼å更多研究人员关注LLMçš„é²æ£’性,并开å‘有效的防御机制,以抵御对抗性æ示注入攻击。

    å‚考文献

    总结

    对è¯å¼æœç´¢å¼•æ“Žçš„崛起为我们带æ¥äº†æ›´åŠ äººæ€§åŒ–çš„æœç´¢ä½“验,但也带æ¥äº†æ–°çš„安全挑战。对抗性æ示注入攻击的出现表明,对è¯å¼æœç´¢å¼•æ“Žçš„排å机制存在æ¼æ´žï¼Œè¿™å¯èƒ½ä¼šå¯¹ä¼ä¸šçš„利益和用户的æœç´¢ä½“验造æˆè´Ÿé¢å½±å“。因此,加强LLMçš„é²æ£’性,开å‘有效的防御机制,将æˆä¸ºæœªæ¥å¯¹è¯å¼æœç´¢å¼•æ“Žå‘展的关键。

  • 大型语言模型真的åƒäººè„‘一样æ€è€ƒå—?

    è¿‘å¹´æ¥ï¼Œå¤§åž‹è¯­è¨€æ¨¡åž‹ï¼ˆLLM)展现出惊人的能力,引å‘了人们对它们与人脑相似性的æ€è€ƒã€‚一些研究人员试图通过测é‡æ¨¡åž‹é¢„测神ç»ä¿¡å·çš„能力,å³â€œè„‘评分â€ï¼Œæ¥é‡åŒ–è¿™ç§ç›¸ä¼¼æ€§ã€‚LLM 的内部表å¾åœ¨è„‘评分方é¢å–得了最先进的æˆæžœï¼Œè¿™è®©äººä»¬çŒœæµ‹å®ƒä»¬å¯èƒ½ä¸Žäººç±»è¯­è¨€å¤„ç†å…±äº«è®¡ç®—原ç†ã€‚然而,这ç§æŽ¨æ–­åªæœ‰åœ¨ LLM 预测的神ç»æ´»åŠ¨å­é›†å映了语言处ç†çš„核心è¦ç´ æ—¶æ‰æœ‰æ•ˆã€‚

    本文将对一项关于 LLM 与人脑映射的具有影å“力的研究中使用的三个神ç»æ•°æ®é›†è¿›è¡Œåˆ†æžï¼Œé‡ç‚¹å…³æ³¨å‚与者阅读短篇文本的 fMRI æ•°æ®é›†ã€‚研究å‘现,当使用与先å‰ç ”究中相åŒçš„æ•°æ®é›†è¿›è¡Œéšæœºè®­ç»ƒ-测试分割时,一个编ç æ—¶é—´è‡ªç›¸å…³çš„简å•ç‰¹å¾ä¸ä»…优于 LLM,而且解释了 LLM 解释的大部分神ç»æ–¹å·®ã€‚因此,研究人员建议谨慎使用éšæœºè®­ç»ƒ-测试分割,并使用连续测试分割进行åŽç»­åˆ†æžã€‚

    LLM 的“脑评分â€ï¼šçœŸç›¸è¿˜æ˜¯å¹»è§‰ï¼Ÿ

    研究人员å‘现,未ç»è®­ç»ƒçš„ LLM 在脑评分方é¢è¡¨çŽ°å‡ºé«˜äºŽé¢„期的水平,这引å‘了人们对 Transformer 架构是å¦å°†è®¡ç®—åå‘æ›´åƒäººè„‘的猜测。然而,研究表明,未ç»è®­ç»ƒçš„ LLM 预测的神ç»æ–¹å·®ï¼Œå®žé™…上主è¦ç”±ä¸¤ä¸ªç®€å•çš„特å¾è§£é‡Šï¼šå¥å­é•¿åº¦å’Œå¥å­ä½ç½®ã€‚这削弱了 Transformer 架构更åƒäººè„‘çš„è¯æ®ã€‚

    进一步研究å‘现,ç»è®­ç»ƒçš„ LLM 在该数æ®é›†ä¸Šçš„脑评分主è¦ç”±å¥å­é•¿åº¦ã€å¥å­ä½ç½®å’Œä»£è¯æ¶ˆè§£åŽçš„é™æ€è¯åµŒå…¥è§£é‡Šï¼›ä¸€å°éƒ¨åˆ†é¢å¤–的方差由è¯ä¹‰åµŒå…¥å’Œå¥å­ç»“构的上下文表å¾è§£é‡Šã€‚

    æ­ç§˜ LLM 的“脑评分â€ï¼šç®€å•ç‰¹å¾çš„强大力é‡

    为了深入了解 LLM 与人脑之间的映射关系,研究人员采用了é€æ­¥å¢žåŠ ç‰¹å¾å¤æ‚度的策略,从简å•çš„å¥å­é•¿åº¦å’Œå¥å­ä½ç½®ç‰¹å¾å¼€å§‹ï¼Œé€æ­¥æ·»åŠ è¯ä¹‰åµŒå…¥ã€å¥æ³•åµŒå…¥ç­‰æ›´å¤æ‚的特å¾ã€‚

    结果表明,一个包å«æ ¸å¿ƒè¯ä¹‰æ¶ˆè§£çš„简å•æ¨¡åž‹ï¼Œåœ¨è§£é‡Š LLM 预测的神ç»æ–¹å·®æ–¹é¢è¡¨çŽ°å‡ºè‰²ï¼Œç”šè‡³è¶…过了 LLM 本身。更å¤æ‚的上下文处ç†ï¼Œä¾‹å¦‚è¯ä¹‰æ¶ˆæ­§å’Œä¸Šä¸‹æ–‡å¥æ³•è¡¨å¾ï¼Œåœ¨è§£é‡Šç¥žç»æ–¹å·®æ–¹é¢åªèµ·åˆ°äº†ä¸€å®šçš„补充作用。

    结论:谨慎解读 LLM 的“脑评分â€

    研究表明,过度ä¾èµ–脑评分å¯èƒ½ä¼šå¯¼è‡´å¯¹ LLM 与人脑之间相似性的过度解读。研究人员强调,在使用脑评分进行分æžæ—¶ï¼Œéœ€è¦å¯¹ç¥žç»ç¼–ç æ€§èƒ½è¿›è¡Œç³»ç»Ÿæ€§åˆ†è§£ï¼Œå¹¶ä¸Žç®€å•ä¸”ç†è®ºä¸Šä¸é‡è¦çš„特å¾è¿›è¡Œæ¯”较。åªæœ‰åœ¨è¿›è¡Œè¿™ç§åˆ†è§£ä¹‹åŽï¼Œæˆ‘们æ‰èƒ½æ›´æœ‰æŠŠæ¡åœ°è®¤ä¸º LLM 的神ç»é¢„测能力å映了人类语言处ç†çš„核心方é¢ã€‚

    å‚考文献

    [1] Feghhi, E. , Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2023). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores. arXiv preprint arXiv:2406.01538.✅

  • IPFS 的新宠:Helia,让 JavaScript å¼€å‘者拥抱去中心化

    IPFS(星际文件系统)作为一ç§åŽ»ä¸­å¿ƒåŒ–的文件存储和分å‘å议,正é€æ¸æˆä¸º Web3 世界的基石。而 Helia 作为 IPFS 在 JavaScript å’Œæµè§ˆå™¨ç«¯çš„现代化实现,为开å‘者æ供了更便æ·ã€é«˜æ•ˆçš„工具,让他们能够轻æ¾åœ°å°† IPFS 集æˆåˆ°è‡ªå·±çš„应用中。

    Helia 的优势

    Helia 拥有以下几个关键优势:

    • 模å—化: Helia 采用模å—化设计,开å‘者å¯ä»¥æ ¹æ®è‡ªå·±çš„需求选择ä¸åŒçš„模å—组åˆï¼Œä¾‹å¦‚选择使用 HTTP 网关或 libp2p 进行网络连接。
    • 现代化: Helia 基于 TypeScript å¼€å‘,æ供类型安全和代ç æ示等现代化开å‘体验。
    • 易用性: Helia æ供了一系列易于使用的 API,让开å‘者能够快速上手,将 IPFS 集æˆåˆ°è‡ªå·±çš„应用中。

    Helia 的应用场景

    Helia å¯ä»¥åº”用于多ç§åœºæ™¯ï¼Œä¾‹å¦‚:

    • 去中心化存储: 使用 Helia 存储网站ã€åº”用程åºã€æ•°æ®ç­‰ï¼Œé¿å…ä¾èµ–中心化的æœåŠ¡å™¨ã€‚
    • 内容分å‘: 使用 Helia 分å‘内容,æ高内容的å¯ç”¨æ€§å’Œå®‰å…¨æ€§ã€‚
    • 去中心化应用开å‘: 使用 Helia å¼€å‘去中心化的应用,例如去中心化的社交网络ã€åŽ»ä¸­å¿ƒåŒ–的存储æœåŠ¡ç­‰ã€‚

    Helia 的使用示例

    以下是一些使用 Helia 的示例:

    • 存储字符串:
    import { createHelia } from 'helia';
    import { strings } from '@helia/strings';
    
    const helia = await createHelia();
    const s = strings(helia);
    
    const myImmutableAddress = await s.add('hello world');
    
    console.log(await s.get(myImmutableAddress));
    // hello world
    • 存储 JSON 对象:
    import { createHelia } from 'helia';
    import { json } from '@helia/json';
    
    const helia = await createHelia();
    const j = json(helia);
    
    const myImmutableAddress = await j.add({ hello: 'world' });
    
    console.log(await j.get(myImmutableAddress));
    // { hello: 'world' }
    • 存储 DAG-JSON 对象:
    import { createHelia } from 'helia';
    import { dagJson } from '@helia/dag-json';
    
    const helia = await createHelia();
    const d = dagJson(helia);
    
    const object1 = { hello: 'world' };
    const myImmutableAddress1 = await d.add(object1);
    
    const object2 = { link: myImmutableAddress1 };
    const myImmutableAddress2 = await d.add(object2);
    
    const retrievedObject = await d.get(myImmutableAddress2);
    console.log(retrievedObject);
    // { link: CID(baguqeerasor...) }
    
    console.log(await d.get(retrievedObject.link));
    // { hello: 'world' }

    Helia 的未æ¥

    Helia 正在ä¸æ–­å‘展,未æ¥å°†ä¼šæœ‰æ›´å¤šåŠŸèƒ½å’Œæ”¹è¿›ï¼Œä¾‹å¦‚:

    • 更强大的 API: æ供更丰富的 API,支æŒæ›´å¤šåŠŸèƒ½ï¼Œä¾‹å¦‚文件系统æ“作ã€æ•°æ®åŠ å¯†ç­‰ã€‚
    • 更好的性能: 优化性能,æ高数æ®å­˜å‚¨å’Œæ£€ç´¢é€Ÿåº¦ã€‚
    • 更广泛的应用: 支æŒæ›´å¤šåº”用场景,例如 Web3 应用ã€ç‰©è”网应用等。

    总结

    Helia 是 IPFS 在 JavaScript å’Œæµè§ˆå™¨ç«¯çš„现代化实现,为开å‘者æ供了更便æ·ã€é«˜æ•ˆçš„工具,让他们能够轻æ¾åœ°å°† IPFS 集æˆåˆ°è‡ªå·±çš„应用中。éšç€ IPFS çš„ä¸æ–­å‘展,Helia 将会扮演越æ¥è¶Šé‡è¦çš„角色,推动 Web3 世界的构建。

    å‚考文献

  • RWKV-6架构图

  • 逃离中心化:星际文件系统 IPFS 的崛起

    互è”网正å˜å¾—越æ¥è¶Šä¸­å¿ƒåŒ–。从域å解æžåˆ°å†…容托管,å†åˆ°è·¯ç”±å’Œè¯ä¹¦é¢å‘,越æ¥è¶Šå¤šçš„æœåŠ¡éƒ½é›†ä¸­åœ¨å°‘数几家大型公å¸æ‰‹ä¸­ã€‚è¿™ç§ä¸­å¿ƒåŒ–趋势带æ¥äº†å•ç‚¹æ•…障风险,一旦这些公å¸å‡ºçŽ°é—®é¢˜ï¼Œæ•´ä¸ªäº’è”网都å¯èƒ½é™·å…¥ç˜«ç—ªã€‚2013 年亚马逊电商平å°çš„宕机事件就是一个典型的例å­ï¼Œæ¯åˆ†é’Ÿçš„æŸå¤±è¶…过 66000 美元。

    为了解决这个问题,近年æ¥å…´èµ·äº†ä¸€åœºâ€œç½‘络去中心化â€æŠ€æœ¯è¿åŠ¨ï¼Œæ—¨åœ¨èµ‹äºˆç”¨æˆ·æ›´å¤šæŽ§åˆ¶æƒã€‚IPFS (星际文件系统) 就是这场è¿åŠ¨ä¸­çš„é‡è¦ä¸€å‘˜ã€‚IPFS 是一个完全去中心化的ã€å†…容寻å€çš„媒体对象存储和检索平å°ã€‚ 它将内容的å称与其存储ä½ç½®åˆ†ç¦»ï¼Œå¹¶ä¾èµ–去中心化的对等网络æ¥ç´¢å¼•å’Œå­˜å‚¨æ•°æ®ï¼Œä»Žè€Œé¿å…了å•ä¸€å®žä½“对网络的控制。

    IPFS 的核心概念

    IPFS 的设计基于四个主è¦æ¦‚念:

    • 内容寻å€: IPFS 使用基于哈希的内容标识符 (CID) æ¥æ ‡è¯†æ•°æ®ï¼Œè€Œä¸æ˜¯ä½¿ç”¨ä¼ ç»Ÿçš„基于ä½ç½®çš„地å€ã€‚è¿™æ„味ç€æ•°æ®å¯ä»¥ç”±ä»»ä½•å¯¹ç­‰ç‚¹æ供,而无需ä¾èµ–特定的æœåŠ¡å™¨ã€‚
    • 去中心化对象索引: IPFS 使用去中心化的 P2P 覆盖网络æ¥ç´¢å¼•å¯¹è±¡çš„å¯ç”¨ä½ç½®ï¼Œå³ä½¿ä¸€äº›èŠ‚点失效,也ä¸ä¼šå½±å“æ•°æ®çš„访问。
    • ä¸å¯å˜æ€§åŠè‡ªè®¤è¯: IPFS 使用加密哈希æ¥è‡ªè®¤è¯å¯¹è±¡ï¼Œç¡®ä¿æ•°æ®çš„完整性和真实性,无需ä¾èµ–è¯ä¹¦é¢å‘机构。
    • 开放å‚与: 任何人都å¯ä»¥éƒ¨ç½² IPFS 节点并å‚与网络,无需特殊æƒé™ã€‚

    IPFS 如何工作?

    IPFS 通过以下步骤å‘布和检索内容:

    1. 内容å‘布: 当用户将数æ®å¯¼å…¥ IPFS 时,数æ®ä¼šè¢«åˆ†å‰²æˆå—,æ¯ä¸ªå—都会被分é…一个唯一的 CID。然åŽï¼ŒIPFS 会构建一个 Merkle DAG (默克尔有å‘无环图) æ¥å­˜å‚¨è¿™äº›å—,并生æˆä¸€ä¸ªæ ¹ CID,代表整个数æ®çš„标识符。
    2. æ供者记录: 为了让其他用户找到数æ®ï¼Œå‘布者需è¦ç”Ÿæˆä¸€ä¸ªæ供者记录,将 CID 映射到自己的 PeerID (对等点标识符) å’Œ Multiaddress (网络地å€)。
    3. DHT 索引: æ供者记录会被å‘布到一个去中心化的哈希表 (DHT) 上,DHT 会将 CID å’Œ PeerID 存储起æ¥ï¼Œå¹¶å¸®åŠ©ç”¨æˆ·æ‰¾åˆ°æ•°æ®ã€‚
    4. 内容检索: 当用户想è¦æ£€ç´¢æ•°æ®æ—¶ï¼Œä»–ä»¬ä¼šå‘ DHT å‘é€è¯·æ±‚。DHT ä¼šæ ¹æ® CID 找到最近的æ供者记录,并返回æ供者的 PeerID å’Œ Multiaddress。
    5. 对等点连接: 用户会连接到æ供者,并使用 Bitswap å议从æ供者获å–æ•°æ®ã€‚

    IPFS 的优势

    IPFS 带æ¥äº†è®¸å¤šä¼˜åŠ¿ï¼ŒåŒ…括:

    • å称æŒä¹…性: æ•°æ®çš„标识符是ä¸å¯å˜çš„,å³ä½¿æ•°æ®è¢«å¤åˆ¶æˆ–移动,其标识符也ä¸ä¼šæ”¹å˜ã€‚
    • 文件完整性: IPFS 使用加密哈希æ¥éªŒè¯æ•°æ®çš„完整性,确ä¿æ•°æ®æ²¡æœ‰è¢«ç¯¡æ”¹ã€‚
    • æ•°æ®åŽ»é‡: IPFS 会自动识别和删除é‡å¤æ•°æ®ï¼ŒèŠ‚çœå­˜å‚¨ç©ºé—´å’Œå¸¦å®½ã€‚
    • 抗审查性: 由于数æ®åˆ†å¸ƒåœ¨å¤šä¸ªèŠ‚点上,任何人都无法轻易删除或修改数æ®ã€‚
    • 网络分区容错性: å³ä½¿ç½‘络出现故障,IPFS ä»ç„¶å¯ä»¥æ­£å¸¸å·¥ä½œã€‚

    IPFS 的挑战

    IPFS 也é¢ä¸´ç€ä¸€äº›æŒ‘战,包括:

    • 激励机制: ç›®å‰ IPFS 缺ä¹æœ‰æ•ˆçš„激励机制,导致用户å‚与度ä¸é«˜ã€‚
    • 访问控制: IPFS 默认ä¸æ供访问控制机制,需è¦ç”¨æˆ·è‡ªè¡Œå®žçŽ°ã€‚
    • 内容å¯ç”¨æ€§: 由于 IPFS 是一个尽力而为的网络,无法ä¿è¯æ‰€æœ‰æ•°æ®éƒ½å§‹ç»ˆå¯ç”¨ã€‚

    IPFS 的未æ¥

    尽管é¢ä¸´ç€æŒ‘战,IPFS ä»ç„¶æ‹¥æœ‰å·¨å¤§çš„潜力。它有å¯èƒ½æ”¹å˜æˆ‘们存储和访问数æ®çš„æ–¹å¼ï¼Œå¹¶ä¸ºäº’è”网带æ¥æ›´åŽ»ä¸­å¿ƒåŒ–ã€æ›´å®‰å…¨ã€æ›´å¯é çš„未æ¥ã€‚

    å‚考文献


    https://ipfs.io/ipfs/QmePKXH5VsUmRrWr5iQgz1gvf5AujoRpd9yxFtcx7CgeZ2?filename=IPFS%E5%8E%9F%E7%90%86%E8%AF%A6%E8%A7%A3.pdf


    https://ipfs.io/ipfs/QmSX6abumAo8BGGawLx2nRrKy4885oFiKEnpKec1oLKjxK?filename=IPFS%E4%B8%AD%E7%9A%84%E5%88%86%E5%B8%83%E5%BC%8F%E5%93%88%E5%B8%8C%E8%A1%A8DHT.pdf


  • 人生梦想 - 关注å‰æ²¿çš„计算机技术 acejoy.com