分类: ðŸŒ

  • Is Free Self-Alignment Possible?

    This paper investigates the possibility of aligning large language models (LLMs) without the need for human-annotated data or expensive fine-tuning. The authors propose AlignEZ, a novel method that leverages self-generated preference data and representation editing to achieve nearly cost-free alignment.

    Here’s a breakdown of the paper’s key aspects:

    1. Motivation:

    • Traditional LLM alignment methods heavily rely on human preference data and computationally expensive fine-tuning, limiting scalability.
    • Recent research suggests that alignment might simply be revealing knowledge already present in pretrained models.

    2. AlignEZ Approach:

    • Self-Generated Preference Data:
      • The base LLM is prompted to generate its own preference data by describing characteristics of helpful and harmful responses.
      • Using these characteristics, the LLM generates pairs of responses, simulating preference comparisons.
    • Identifying Preference Directions:
      • The self-generated preference pairs are used to identify directions in the LLM’s embedding space that correspond to helpful and harmful attributes.
      • Two methods are explored:
        • SVD-Based Identification: Applies Singular Value Decomposition (SVD) on the embedding matrix of preference data to extract the principal eigenvector as the preference direction.
        • CCS-Based Identification: Utilizes a Contrastive Concept Shap (CCS) probe trained on the self-generated data to identify directions maximizing the difference between helpful and harmful attributes.
    • Representation Editing:
      • During inference, the LLM’s embeddings are modified by:
        • Boosting components aligned with the helpful direction.
        • Neutralizing components aligned with the harmful direction.

    3. Experiments and Results:

    • AlignEZ significantly reduces the performance gap between base and traditionally aligned models by an average of 31.6% across various datasets and model architectures.
    • It effectively expedites more expensive alignment methods like DPO by improving models trained with limited ground-truth data.

    4. Key Findings:

    • Self-alignment is achievable to a significant degree without external data or fine-tuning.
    • AlignEZ offers a cost-effective way to improve LLM alignment, potentially enabling real-time personalization and fine-grained control.

    5. Limitations and Future Work:

    • The quality of self-generated preference data influences AlignEZ’s effectiveness.
    • Further research is needed to explore its applicability to more complex alignment tasks and different data modalities.

    In conclusion, AlignEZ presents a promising step towards free self-alignment, offering a cost-effective and potentially scalable approach to aligning LLMs with human preferences.


    å…费自对é½ï¼šè®©è¯­è¨€æ¨¡åž‹æ›´æ‡‚你?

    大型语言模型(LLM)正在改å˜æˆ‘们的世界,但它们也存在ç€ä¸€äº›é—®é¢˜ã€‚比如,它们有时会生æˆä¸å‡†ç¡®ã€ä¸å‹å–„或带有åè§çš„ä¿¡æ¯ã€‚ä¸ºäº†è§£å†³è¿™äº›é—®é¢˜ï¼Œç ”ç©¶äººå‘˜ä¸€ç›´åœ¨åŠªåŠ›å¯¹é½ LLM,使其更符åˆäººç±»çš„价值观和å好。

    传统的对é½æ–¹æ³•é€šå¸¸éœ€è¦å¤§é‡çš„标注数æ®å’Œå¤§é‡çš„计算资æºï¼Œè¿™å¯¹äºŽè®¸å¤šç ”究人员和开å‘者æ¥è¯´éƒ½æ˜¯ä¸€ä¸ªå·¨å¤§çš„挑战。那么,有没有一ç§æ›´ç»æµŽã€æ›´ä¾¿æ·çš„对é½æ–¹æ³•å‘¢ï¼Ÿ

    AlignEZ:几乎å…费的对é½

    最近,æ¥è‡ªå¨æ–¯åº·æ˜Ÿå¤§å­¦éº¦è¿ªé€Šåˆ†æ ¡çš„研究人员æ出了一ç§å为 AlignEZ 的新方法,它å¯ä»¥å®žçŽ°å‡ ä¹Žå…费的 LLM 自对é½ã€‚AlignEZ 的核心æ€æƒ³æ˜¯åˆ©ç”¨ LLM 自身生æˆçš„å好数æ®æ¥ä¿®æ”¹å…¶å†…部表示,从而引导模型生æˆæ›´ç¬¦åˆäººç±»æœŸæœ›çš„输出。

    如何实现自对é½ï¼Ÿ

    AlignEZ 的工作æµç¨‹ä¸»è¦åˆ†ä¸ºä¸‰ä¸ªæ­¥éª¤ï¼š

    1. 生æˆå好数æ®ï¼š 研究人员首先使用 LLM 自身生æˆå好数æ®ã€‚ä»–ä»¬å‘ LLM æ出一些问题,并è¦æ±‚ LLM æè¿°ç†æƒ³çš„回答和ä¸ç†æƒ³çš„回答应该具备的特å¾ã€‚然åŽï¼Œä»–们å†æ¬¡å‘ LLM æ出相åŒçš„问题,并è¦æ±‚ LLM æ ¹æ®ä¹‹å‰æ述的特å¾ç”Ÿæˆä¸åŒçš„回答。这样,他们就得到了 LLM 自身生æˆçš„å好数æ®å¯¹ã€‚
    2. 识别å好方å‘: 接下æ¥ï¼Œç ”究人员使用这些å好数æ®å¯¹æ¥è¯†åˆ« LLM 内部表示空间中与人类å好相关的方å‘。他们使用两ç§æ–¹æ³•æ¥å®žçŽ°è¿™ä¸€ç›®æ ‡ï¼š
      • 奇异值分解 (SVD): SVD å¯ä»¥å¸®åŠ©è¯†åˆ« LLM 内部表示空间中主è¦çš„æ–¹å‘,这些方å‘通常与人类å好相关。
      • 对比一致性æœç´¢ (CCS): CCS 则å¯ä»¥å¸®åŠ©è¯†åˆ« LLM 内部表示空间中的超平é¢ï¼Œè¿™ä¸ªè¶…å¹³é¢å¯ä»¥å°†ç†æƒ³çš„回答与ä¸ç†æƒ³çš„回答区分开æ¥ã€‚
    3. 编辑内部表示: 最åŽï¼Œç ”究人员使用识别出的å好方å‘æ¥ä¿®æ”¹ LLM 的内部表示。他们通过增强与人类å好相关的方å‘,并抑制与ä¸ç†æƒ³ç‰¹å¾ç›¸å…³çš„æ–¹å‘æ¥å¼•å¯¼ LLM 生æˆæ›´ç¬¦åˆäººç±»æœŸæœ›çš„输出。

    实验结果:显著æ高模型性能

    研究人员在六个ä¸åŒçš„æ•°æ®é›†å’Œä¸‰ç§ä¸åŒçš„ LLM 架构上测试了 AlignEZ 的效果。结果表明,AlignEZ å¯ä»¥æ˜¾è‘—ç¼©å° LLM 与其对é½ç‰ˆæœ¬ä¹‹é—´çš„性能差è·ï¼Œå¹³å‡æ高了 31.6%。

    æ›´é‡è¦çš„是,AlignEZ 还å¯ä»¥åŠ é€Ÿæ›´æ˜‚贵的对é½æ–¹æ³•ï¼Œä¾‹å¦‚ DPO。研究人员å‘现,AlignEZ å¯ä»¥æ高仅使用少é‡æ ‡æ³¨æ•°æ®è®­ç»ƒçš„ DPO 模型的性能。

    未æ¥å±•æœ›ï¼šæ›´ç²¾å‡†ã€æ›´ä¸ªæ€§åŒ–的对é½

    AlignEZ 的出现为 LLM 对é½é¢†åŸŸå¼€è¾Ÿäº†æ–°çš„å¯èƒ½æ€§ã€‚研究人员希望未æ¥èƒ½å¤Ÿè¿›ä¸€æ­¥æ”¹è¿› AlignEZ,使其能够更精准地识别人类å好,并实现更个性化的对é½ã€‚

    总结

    AlignEZ 是一ç§æ–°é¢–çš„ LLM 自对é½æ–¹æ³•ï¼Œå®ƒå¯ä»¥åˆ©ç”¨ LLM 自身生æˆçš„å好数æ®æ¥å®žçŽ°å‡ ä¹Žå…费的对é½ã€‚AlignEZ 的实验结果表明,它å¯ä»¥æ˜¾è‘—æ高 LLM 的性能,并加速更昂贵的对é½æ–¹æ³•ã€‚AlignEZ 的出现为 LLM 对é½é¢†åŸŸå¼€è¾Ÿäº†æ–°çš„å¯èƒ½æ€§ï¼Œä¸ºæœªæ¥æ›´ç²¾å‡†ã€æ›´ä¸ªæ€§åŒ–çš„ LLM 对é½æŠ€æœ¯å¥ å®šäº†åŸºç¡€ã€‚

    å‚考文献

    [1] AI@Meta. Llama 3 model card. 2024. URL https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.

    [2] Chuang et al. Debiasing vision-language models via biased prompts. arXiv preprint 2302.00070, 2023.

    [3] Touvron et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.

    [4] Bender et al. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 610–623, 2021.

    [5] Bommasani et al. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021.

    [6] Burns et al. Discovering latent knowledge in language models without supervision. arXiv preprint arXiv:2212.03827, 2022.

    [7] Christiano et al. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.

    [8] Dalvi et al. Discovering latent concepts learned in bert. arXiv preprint arXiv:2205.07237, 2022.

    [9] Cui et al. Ultrafeedback: Boosting language models with high-quality feedback, 2023.

    [10] Dettmers et al. Qlora: Efficient finetuning of quantized llms, 2023.

    [11] Hoffmann et al. An empirical analysis of compute-optimal large language model training. Advances in Neural Information Processing Systems, 35:30016–30030, 2022.

    [12] Jiang et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.

    [13] Li et al. Self-alignment with instruction backtranslation. arXiv preprint arXiv:2308.06259, 2023a.

    [14] Li et al. Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36, 2024.

    [15] Lee et al. Deduplicating training data makes language models better. arXiv preprint arXiv:2107.06499, 2021.

    [16] Mangrulkar et al. Peft: State-of-the-art parameter-efficient fine-tuning methods. https://github.com/huggingface/peft, 2022.

    [17] McIntosh et al. From google gemini to openai q*(q-star): A survey of reshaping the generative artificial intelligence (ai) research landscape. arXiv preprint arXiv:2312.10868, 2023.

    [18] Ouyang et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.

    [19] Rafailov et al. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.

    [20] Sun et al. Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36, 2024.

    [21] Li et al. Alpacaeval: An automatic evaluator of instruction-following models, 2023b.

    [22] Limisiewicz et al. Debiasing algorithm through model adaptation. arXiv preprint arXiv:2310.18913, 2023.

    [23] Lin et al. The unlocking spell on base llms: Rethinking alignment via in-context learning. arXiv preprint arXiv:2312.01552, 2023.

    [24] Loshchilov and Hutter. Decoupled weight decay regularization, 2019.

    [25] Raschka. Finetuning llms with lora and qlora: Insights from hundreds of experiments, Oct 2023. URL https://lightning.ai/pages/community/lora-insights/?utm_medium=social&utm_source=twitter&utm_campaign=Education_10132023.

    [26] Schulman et al. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.

    [27] Tamkin et al. Understanding the capabilities, limitations, and societal impact of large language models. CoRR, abs/2102.02503, 2021. URL https://arxiv.org/abs/2102.02503.

    [28] Tunstall et al. Zephyr: Direct distillation of lm alignment, 2023.

    [29] Wang et al. Self-instruct: Aligning language models with self-generated instructions. arXiv preprint arXiv:2212.10560, 2022.

    [30] Wu et al. Reft: Representation finetuning for language models. arXiv preprint arXiv:2404.03592, 2024.

    [31] Xie et al. Data selection for language models via importance resampling. Advances in Neural Information Processing Systems, 36:34201–34227, 2023.

    [32] Zheng et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36, 2024.

    [33] Zhou et al. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36, 2024.

    [34] Introducing Meta Llama 3: The most capable openly available LLM to date — ai.meta.com. https://ai.meta.com/blog/meta-llama-3/, 2024.

    [35] Adila et al. Zero-shot robustification of zero-shot models with foundation models. arXiv preprint arXiv:2309.04344, 2023.

    [36] Fränken et al. Self-supervised alignment with mutual information: Learning to follow principles without preference labels. arXiv preprint arXiv:2404.14313, 2024.

    [37] Han et al. Lm-switch: Lightweight language model conditioning in word embedding space. arXiv preprint arXiv:2305.12798, 2023.

    [38] Guo et al. Human-instruction-free llm self-alignment with limited samples. arXiv preprint arXiv:2401.06785, 2024.

    [39] Kenton et al. Alignment of language agents. arXiv preprint arXiv:2103.14659, 2021.

    [40] Sun et al. Principle-driven self-alignment of language models from scratch with minimal human supervision. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems, volume 36, pages 2511–2565. Curran Associates, Inc., 2023. URL https://proceedings.neurips.cc/paper_files/paper/2023/file/0764db1151b936aca59249e2c13886101-Paper-Conference.pdf.✅

    [41] Zou et al. Representation engineering: A top-down approach to ai transparency, october 2023. URL http://arxiv.org/abs/2310.01405.


  • 让语音åˆæˆæ›´å…·è¡¨çŽ°åŠ›ï¼šStyleMoE 的“分而治之â€ç­–ç•¥

    è¿‘å¹´æ¥ï¼Œè¯­éŸ³åˆæˆæŠ€æœ¯å–得了长足进步,åˆæˆè¯­éŸ³ä¸ä»…清晰易懂,还拥有丰富的感情和韵律,更接近于人类的表达方å¼ã€‚然而,如何从å„ç§ä¸åŒçš„å‚考语音中æå–并编ç é£Žæ ¼ä¿¡æ¯ä»ç„¶æ˜¯ä¸€ä¸ªæŒ‘战,尤其是当é‡åˆ°ä»Žæœªè§è¿‡çš„语音风格时。

    StyleMoE:将风格编ç ç©ºé—´â€œåˆ†è€Œæ²»ä¹‹â€

    为了解决这一难题,研究人员æ出了 StyleMoE,一ç§å°†é£Žæ ¼ç¼–ç ç©ºé—´åˆ’分为多个å¯å¤„ç†çš„å­ç©ºé—´ï¼Œå¹¶ç”±ä¸“门的“风格专家â€è´Ÿè´£å¤„ç†çš„模型。StyleMoE å°† TTS 系统中的风格编ç å™¨æ›¿æ¢ä¸ºä¸€ä¸ªâ€œä¸“家混åˆâ€ (MoE) 层。通过使用门控网络将å‚考语音路由到ä¸åŒçš„风格专家,æ¯ä¸ªä¸“家在优化过程中专门负责风格空间的特定方é¢ã€‚

    StyleMoE 的工作原ç†

    StyleMoE 的核心æ€æƒ³æ˜¯å°†é£Žæ ¼ç¼–ç ç©ºé—´åˆ’分为多个å­ç©ºé—´ï¼Œæ¯ä¸ªå­ç©ºé—´ç”±ä¸€ä¸ªä¸“门的风格专家负责处ç†ã€‚这就åƒå°†ä¸€ä¸ªå¤æ‚的难题分解æˆå¤šä¸ªæ›´å®¹æ˜“解决的å°é—®é¢˜ï¼Œæ¯ä¸ªä¸“家都专注于解决其中一个问题。

    具体æ¥è¯´ï¼ŒStyleMoE 使用一个门控网络æ¥å†³å®šå“ªä¸ªä¸“家应该处ç†å½“å‰çš„å‚考语音。门控网络会根æ®å‚考语音的特点,选择最适åˆçš„专家,并为æ¯ä¸ªä¸“家分é…相应的æƒé‡ã€‚æ¯ä¸ªä¸“家都拥有独立的å‚数,在优化过程中åªè´Ÿè´£å¤„ç†åˆ†é…给它的å­ç©ºé—´ï¼Œä»Žè€Œæ高模型的效率和准确性。

    StyleMoE 的优势

    StyleMoE 的优势在于:

    • æ高风格空间覆盖率:通过将风格编ç ç©ºé—´åˆ’分为多个å­ç©ºé—´ï¼ŒStyleMoE å¯ä»¥æ›´å¥½åœ°å¤„ç†å„ç§ä¸åŒçš„风格,包括从未è§è¿‡çš„风格。
    • æ高模型泛化能力:æ¯ä¸ªä¸“家åªè´Ÿè´£å¤„ç†ç‰¹å®šçš„å­ç©ºé—´ï¼Œè¿™æœ‰åŠ©äºŽæ高模型的泛化能力,å‡å°‘模型对训练数æ®çš„ä¾èµ–。
    • é™ä½Žè®¡ç®—æˆæœ¬ï¼šStyleMoE ä½¿ç”¨ç¨€ç– MoE,这æ„味ç€åªæœ‰å°‘数专家会å‚与到模型的计算中,从而é™ä½Žäº†æ¨¡åž‹çš„计算æˆæœ¬ã€‚

    实验结果

    研究人员在 ESD å’Œ VCTK æ•°æ®é›†ä¸Šå¯¹ StyleMoE 进行了测试,结果表明,StyleMoE 在å„ç§æŒ‡æ ‡ä¸Šéƒ½ä¼˜äºŽåŸºçº¿æ¨¡åž‹ï¼ŒåŒ…括:

    • æ高语音质é‡ï¼šStyleMoE åˆæˆçš„语音具有更高的自然度和清晰度。
    • æ高风格相似度:StyleMoE åˆæˆçš„语音更接近于å‚考语音的风格。
    • æ高模型泛化能力:StyleMoE 在处ç†ä»Žæœªè§è¿‡çš„风格时表现出色。

    未æ¥å±•æœ›

    StyleMoE 为语音åˆæˆæŠ€æœ¯çš„进步开辟了新的方å‘。未æ¥ï¼Œç ”究人员将继续探索ä¸åŒçš„门控网络架构,并å°è¯•å°† StyleMoE 应用于更å¤æ‚的语音åˆæˆç³»ç»Ÿã€‚

    å‚考文献

    [1] M. Schr¨oder, “Emotional speech synthesis: A review,†in Seventh European Conference on Speech Communication and Technology, 2001.✅

    [2] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,†ArXiv, vol. abs/1609.03499, 2016. [Online]. Available: https://api.semanticscholar.org/CorpusID:6254678✅

    [3] Y. Wang, R. J. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. V. Le, Y. Agiomyrgiannakis, R. A. J. Clark, and R. A. Saurous, “Tacotron: Towards end-to-end speech synthesis,†in Interspeech, 2017. [Online]. Available: https://api.semanticscholar.org/CorpusID:4689304✅

    [4] N. Li, S. Liu, Y. Liu, S. Zhao, and M. Liu, “Neural speech synthesis with transformer network,†in Proceedings of the AAAI conference on artificial intelligence, vol. 33, no. 01, 2019, pp. 6706–6713.✅

    [5] X. Tan, T. Qin, F. Soong, and T.-Y. Liu, “A survey on neural speech synthesis,†2021.✅

    [6] S. Takamichi, T. Toda, A. W. Black, G. Neubig, S. Sakti, and S. Nakamura, “Postfilters to modify the modulation spectrum for statistical parametric speech synthesis,†IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 4, pp. 755–767, 2016.✅

    [7] H. -T. Luong, S. Takaki, G. E. Henter, and J. Yamagishi, “Adapting and controlling dnn-based speech synthesis using input codes,†in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 4905–4909.✅

    [8] Y. Lee, A. Rabiee, and S.-Y. Lee, “Emotional end-to-end neural speech synthesizer,†arXiv preprint arXiv:1711.05447, 2017.✅

    [9] R. Skerry-Ryan, E. Battenberg, Y. Xiao, Y. Wang, D. Stanton, J. Shor, R. Weiss, R. Clark, and R. A. Saurous, “Towards end-to-end prosody transfer for expressive speech synthesis with tacotron,†in international conference on machine learning.✅
    PMLR, 2018, pp. 4693–4702.

    [10] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan, E. Battenberg, J. Shor, Y. Xiao, Y. Jia, F. Ren, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,†in International conference on machine learning. PMLR, 2018, pp. 5180–5189.✅

    [11] K. Akuzawa, Y. Iwasawa, and Y. Matsuo, “Expressive speech synthesis via modeling expressions with variational autoencoder,†arXiv preprint arXiv:1804.02135, 2018.✅

    [12] Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “Fastspeech 2: Fast and high-quality end-to-end text to speech,†arXiv preprint arXiv:2006.04558, 2020.✅

    [13] A. Åa´ncucki, “Fastpitch: Parallel text-to-speech with pitch prediction,†in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 6588–6592.✅

    [14] G. Sun, Y. Zhang, R. J. Weiss, Y. Cao, H. Zen, and Y. Wu, “Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis,†in ICASSP 2020-2020 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2020, pp. 6264–6268.✅

    [15] R. Huang, Y. Ren, J. Liu, C. Cui, and Z. Zhao, “Generspeech: Towards style transfer for generalizable out-of-domain text-to-speech,†Advances in Neural Information Processing Systems, vol. 35, pp. 10 970–10 983, 2022.✅

    [16] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton, “Adaptive mixtures of local experts,†Neural computation, vol. 3, no. 1, pp. 79–87, 1991.✅

    [17] S. Masoudnia and R. Ebrahimpour, “Mixture of experts: a literature survey,†Artificial Intelligence Review, vol. 42, pp. 275–293, 2014.✅

    [18] N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean, “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,†arXiv preprint arXiv:1701.06538, 2017.✅

    [19] C. Riquelme, J. Puigcerver, B. Mustafa, M. Neumann, R. Jenatton, A. Susano Pinto, D. Keysers, and N. Houlsby, “Scaling vision with sparse mixture of experts,†Advances in Neural Information Processing Systems, vol. 34, pp. 8583–8595, 2021.✅

    [20] D. Eigen, M. Ranzato, and I. Sutskever, “Learning factored representations in a deep mixture of experts,†arXiv preprint arXiv:1312.4314, 2013.✅

    [21] D. Min, D. B. Lee, E. Yang, and S. J. Hwang, “Meta-stylespeech: Multi-speaker adaptive text-to-speech generation,†in International Conference on Machine Learning. PMLR, 2021, pp. 7748–7759.✅

    [22] T. H. Teh, V. Hu, D. S. R. Mohan, Z. Hodari, C. G. Wallis, T. G. Ibarrondo, A. Torresquintero, J. Leoni, M. Gales, and S. King, “Ensemble prosody prediction for expressive speech synthesis,†in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023, pp. 1–5.✅

    [23] Y. Yan, X. Tan, B. Li, G. Zhang, T. Qin, S. Zhao, Y. Shen, W.-Q. Zhang, and T.-Y. Liu, “Adaspeech 3: Adaptive text to speech for spontaneous style,†arXiv preprint arXiv:2107.02530, 2021.✅

    [24] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, “Libritts: A corpus derived from librispeech for text-to-speech,†arXiv preprint arXiv:1904.02882, 2019.✅

    [25] J. Yamagishi, C. Veaux, and K. MacDonald, “Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit (version 0.92),†2019. [Online]. Available: https://api.semanticscholar.org/CorpusID:213060286✅

    [26] K. Zhou, B. Sisman, R. Liu, and H. Li, “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset,†in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 920–924.✅

    [27] X. An, F. K. Soong, and L. Xie, “Disentangling style and speaker attributes for tts style transfer,†IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 646–658, 2022.✅

    https://arxiv.org/pdf/2406.03637 https://arxiv.org/html/2406.03637v1

  • çªç ´ä¼ ç»Ÿï¼šåˆ©ç”¨å¤§åž‹è¯­è¨€æ¨¡åž‹æå‡è´¢åŠ¡æ•°æ®å¼‚常检测

    财务数æ®ï¼Œå°¤å…¶æ˜¯æ¥è‡ªæ€»è´¦çš„æ•°æ®ï¼Œè®°å½•ç€ä¼ä¸šçš„财务交易,包括收入ã€æ”¯å‡ºã€èµ„产和负债,对于确ä¿è´¢åŠ¡è®°å½•çš„真实性和é€æ˜Žåº¦è‡³å…³é‡è¦ [21, 24]。它ä¸ä»…帮助ä¼ä¸šæ»¡è¶³ç›‘管机构ã€æŠ•èµ„者和金èžæœºæž„等利益相关者的è¦æ±‚,还通过分æžæ”¯æŒå†³ç­–,而异常检测则是维护数æ®å®Œæ•´æ€§å’Œå¯é æ€§çš„关键 [37]。

    然而,财务数æ®ä¸­çš„异常,å¯èƒ½æ˜¯ç”±äºŽé”™è¯¯ã€æ¬ºè¯ˆæˆ–æ“纵造æˆçš„,会带æ¥å·¨å¤§çš„财务æŸå¤±ï¼ŒæŸå®³æŠ•èµ„者信心,并需è¦è¿›è¡Œæ¬ºè¯ˆè°ƒæŸ¥ [24]。因此,åŠæ—¶æœ‰æ•ˆåœ°æ£€æµ‹å¼‚常对于éµå®ˆæ³•è§„å’Œä¿æŠ¤è´¢åŠ¡å®‰å…¨è‡³å…³é‡è¦ [8, 22]。传统的财务异常检测方法在处ç†å¤æ‚ã€åºžå¤§çš„æ•°æ®å’Œä¸æ–­å‡çº§çš„欺诈手法方é¢å­˜åœ¨å›°éš¾ã€‚早期的åšæ³•ä¾èµ–于人工检查和基于规则的系统,效率低下,æ¼æŽ‰äº†å¾ˆå¤šå¼‚常,并产生了大é‡è¯¯æŠ¥ï¼Œå¯¼è‡´è´¢åŠ¡æ¬ºè¯ˆéš¾ä»¥å¯Ÿè§‰ [5]。

    机器学习 (ML) 在现代财务审计中å˜å¾—越æ¥è¶Šé‡è¦ï¼Œå®ƒèƒ½å¤Ÿé«˜æ•ˆåœ°å¤„ç†å¤§åž‹æ•°æ®é›†å¹¶è¯†åˆ«å…¶ä¸­çš„模å¼ã€‚然而,éšç€è´¢åŠ¡æ¬ºè¯ˆæ‰‹æ³•å˜å¾—越æ¥è¶Šå¤æ‚,需è¦æ–°çš„方法æ¥å…‹æœæ•°æ®é¢„处ç†å’Œæ¨¡åž‹å±€é™æ€§å¸¦æ¥çš„挑战 [2, 22]。最近的研究表明,自动编ç å™¨åœ¨å¼‚常检测方é¢æœ‰æ½œåŠ›ï¼Œè€Œå¤§åž‹è¯­è¨€æ¨¡åž‹ (LLM) 在å„ç§ä»»åŠ¡ä¸­éƒ½è¡¨çŽ°å‡ºè‰²ï¼Œä½†çŽ°å®žä¸–界数æ®çš„稀ç–性和å¤æ‚性é™åˆ¶äº†å®ƒä»¬çš„有效性 [26, 36]。

    挑战与机é‡ï¼šåˆ©ç”¨å¤§åž‹è¯­è¨€æ¨¡åž‹ç¼–ç éžè¯­ä¹‰è´¢åŠ¡æ•°æ®

    本文ç€çœ¼äºŽé«˜æ•ˆæ£€æµ‹æ€»è´¦æ•°æ®ä¸­çš„异常,é‡ç‚¹å…³æ³¨ç‰¹å¾ç»´åº¦å¼‚质性和特å¾ç¨€ç–性这两个问题,它们阻ç¢äº†è´¢åŠ¡å®¡è®¡ä¸­çš„异常检测。我们的方法是利用 Sentence-BERT LLM 的预训练表示æ¥ç¼–ç æ—¥è®°è´¦åˆ†å½•ä¸­çš„éžè¯­ä¹‰åˆ†ç±»æ•°æ®ï¼Œä»Žè€Œæ高对数æ®å¼‚常的识别能力。

    现有的解决方案使用å„ç§çŸ¢é‡åŒ–方法,éšåŽå¯¹ç¨€ç–特å¾è¿›è¡Œé™ç»´ï¼Œä½†è¿™å¯èƒ½ä¸è¶³ä»¥åº”对现实世界中的日记账分录,因为这些分录在长度和å¤æ‚性上往往差异很大。此外,交易异常的éžæ—¶é—´æ€§ç‰¹å¾é™åˆ¶äº†å¯åº”用的特å¾ç¼–ç æ–¹æ³•èŒƒå›´ã€‚因此,用于检测财务数æ®å¼‚常的机器学习算法在处ç†å¼‚质性和稀ç–æ•°æ®æ—¶ä¼šé‡åˆ°å›°éš¾ï¼Œå¯¼è‡´ç¼–ç å’Œåˆ†ç±»é—®é¢˜ï¼Œæœ€ç»ˆå¯¼è‡´ç»“æžœä¸ç†æƒ³ã€‚这会影å“财务记录审计的å¯é æ€§ã€‚

    我们æ出了一ç§æ–°æ–¹æ³•ï¼Œå¦‚图 1 所示,利用预训练的 Sentence-Transformer 模型æ¥ç¼–ç éžè¯­ä¹‰è´¢åŠ¡æ•°æ®ï¼Œè§£å†³ç‰¹å¾å¼‚质性和稀ç–性问题。这ç§æ–¹æ³•ä¸åŒäºŽä¼ ç»Ÿçš„财务异常检测机器学习技术,它æ出了一ç§æ··åˆæ¨¡åž‹ï¼Œå°† Sentence-Transformer 嵌入与机器学习分类器相结åˆï¼Œä»¥æ高异常检测性能。准确的异常检测是å¯é è´¢åŠ¡å®¡è®¡çš„基石。改进处ç†è´¢åŠ¡æ•°æ®ä¸­çš„异质性和稀ç–性的方法å¯ä»¥æ˜¾è‘—æ高异常检测æµç¨‹ï¼Œæœ‰åŠ©äºŽæ›´å¥½åœ°è¿›è¡Œé£Žé™©ç®¡ç†å’Œéµå®ˆæ³•è§„。该方法在财务异常检测之外具有更广泛的æ„义,为跨领域应用高级编ç æŠ€æœ¯å¤„ç†å¤æ‚æ•°æ®é›†æ供了模æ¿ã€‚

    研究目标与贡献

    在这项工作中,我们æ出了以下两个å‡è®¾ï¼š

    • å‡è®¾ 1: 利用 Sentence-Transformer LLM 对财务记录中的éžè¯­ä¹‰åˆ†ç±»æ•°æ®è¿›è¡Œç¼–ç ï¼Œå¯ä»¥æœ‰æ•ˆåœ°æ ‡å‡†åŒ–特å¾å˜å¼‚性,增强特å¾é›†çš„紧凑性和信æ¯ä¿ç•™èƒ½åŠ›ï¼Œä¸Žä¼ ç»Ÿæ–¹æ³•ç›¸æ¯”,这一点å¯ä»¥é€šè¿‡ PCA ç­‰é™ç»´æŠ€æœ¯æ¥è¡¡é‡ã€‚
    • å‡è®¾ 2: 将基于 Sentence-Transformer çš„ LLM 嵌入与优化的机器学习模型相结åˆï¼Œå¯ä»¥æ高财务日记账分录中的异常检测性能,这一点å¯ä»¥é€šè¿‡ä¸Žä¼ ç»Ÿæœºå™¨å­¦ä¹ æ–¹æ³•ç›¸æ¯”,改进评估指标æ¥è¯æ˜Žã€‚

    在制定我们的å‡è®¾æ—¶ï¼Œæˆ‘们借鉴了最近的研究å‘现,这些å‘现表明 LLM 除了文本任务之外,还å¯ä»¥é€‚应其他任务 [28]。研究表明,最åˆåœ¨æ–‡æœ¬ä¸Šè®­ç»ƒçš„ LLM å¯ä»¥æœ‰æ•ˆåœ°å¤„ç†å’Œç¼–ç éžæ–‡æœ¬ã€è¯­è¨€éžè¯­ä¹‰æ•°æ® [30]。这ç§èƒ½åŠ›æºäºŽå…¶ Transformer å—çš„ç¼–ç åŠŸèƒ½ï¼Œä¿ƒä½¿æˆ‘们æ出了å‡è®¾ 1,建议使用 SBERT LLM å°†éžè¯­ä¹‰è´¢åŠ¡æ•°æ®é›†è½¬æ¢ä¸ºæ ‡å‡†åŒ–çš„å•ä¸€å°ºå¯¸å‘é‡ç‰¹å¾ã€‚éšåŽï¼Œæˆ‘们的å‡è®¾ 2 建立在 LLM 高效的编ç èƒ½åŠ›åŸºç¡€ä¸Šï¼Œè¿™æ„味ç€é›†æˆ LLM 嵌入å¯ä»¥å¢žå¼ºæœºå™¨å­¦ä¹ æ¨¡åž‹ï¼Œç‰¹åˆ«æ˜¯åœ¨æ£€æµ‹è´¢åŠ¡æ•°æ®ä¸­çš„异常方é¢ã€‚验è¯å‡è®¾ 1 å°†è¯æ˜Žä¸€ç§ç®¡ç†è´¢åŠ¡è®°å½•ä¸­ç‰¹å¾å˜å¼‚性的新方法,增强异常检测。确认å‡è®¾ 2 将说明将 LLM 嵌入与优化模型相结åˆåœ¨æ£€æµ‹è´¢åŠ¡å¼‚常方é¢çš„有效性,有å¯èƒ½è¶…越传统方法。

    这些å‘现å¯ä»¥å…±åŒæ”¹å˜å½“å‰è´¢åŠ¡å¼‚常检测的åšæ³•ã€‚LLM 的创新应用å¯ä»¥æžå¤§åœ°æŽ¨åŠ¨è¯¥é¢†åŸŸçš„å‘展,展示其在跨学科应用中的潜力,并改进财务审计和监控系统。

    背景与相关工作

    机器学习方法åŠå…¶åœ¨æ£€æµ‹è´¢åŠ¡å¼‚常方é¢çš„å±€é™æ€§

    财务异常检测至关é‡è¦ï¼Œæ¬ºè¯ˆæ´»åŠ¨å¯¹è¯¥è¡Œä¸šé€ æˆäº†å·¨å¤§å½±å“。数字金èžæœåŠ¡çš„兴起,尤其是在 COVID-19 大æµè¡Œä¹‹åŽï¼Œéœ€è¦å…ˆè¿›çš„欺诈检测方法 [43]。深度学习,包括å˜åˆ†è‡ªåŠ¨ç¼–ç å™¨å’Œ LSTM 架构,在检测日记账分录 [44] 和电å­å•†åŠ¡ [27] 中的异常方é¢å–得了æˆåŠŸï¼ŒLSTM 也éžå¸¸æœ‰æ•ˆ [1]。图神ç»ç½‘络 (GNN) 以其处ç†æ¬ºè¯ˆæ£€æµ‹ä¸­å¤æ‚æ•°æ®å…³ç³»çš„能力而著称 [43]。å„ç§æœºå™¨å­¦ä¹ æŠ€æœ¯ï¼Œå¦‚朴素è´å¶æ–¯ã€é€»è¾‘回归ã€KNNã€éšæœºæ£®æž—å’Œé¡ºåº CNN,已被应用于信用å¡æ¬ºè¯ˆæ£€æµ‹ [29],其中基于 CatBoost 的方法çªå‡ºäº†ç‰¹å¾å·¥ç¨‹å’Œå†…存压缩在æ高效率方é¢çš„作用 [13]。机器学习在金èžé¢†åŸŸå¾—到了广泛的应用,从检测日记账分录异常到识别医疗ä¿å¥å’Œé“¶è¡Œä¸šåŠ¡ä¸­çš„欺诈交易 [29, 38]。虽然案例研究è¯å®žäº†å®ƒä»¬çš„有效性,但也指出了实际应用中的挑战 [7]。

    由于欺诈手法ä¸æ–­å˜åŒ–和财务数æ®çš„å¤æ‚性,在财务欺诈检测中应用机器学习é¢ä¸´ç€æŒ‘战 [11]。准确的建模ä¾èµ–于高质é‡çš„标准化数æ®ï¼Œè¿™ä¸€ç‚¹åœ¨ä¿¡ç”¨å¡è¡Œä¸šä¸­ä¹Ÿæœ‰æ‰€è®¨è®º [31]。财务数æ®çš„éžå¹³ç¨³æ€§ã€éžçº¿æ€§æ€§å’Œä½Žä¿¡å™ªæ¯”使模型训练和性能å¤æ‚化 [40],需è¦å…ˆè¿›çš„方法æ¥é¢„处ç†å¤æ‚æ•°æ®ï¼Œæ高数æ®è´¨é‡å’Œæ¨¡åž‹æ€§èƒ½ã€‚增强数æ®è¡¨ç¤ºå’Œç®€åŒ–特å¾è¿˜å¯ä»¥æ高机器学习模型的å¯è§£é‡Šæ€§ï¼Œæ»¡è¶³é‡‘èžé¢†åŸŸçš„法规和åˆè§„è¦æ±‚ [38]。此外,平衡计算å¤æ‚度和高检测精度至关é‡è¦ [27],这强调了需è¦å¢žå¼ºç‰¹å¾é›†çš„紧凑性和信æ¯ä¿ç•™èƒ½åŠ›ã€‚有希望的研究方å‘需è¦æŽ¢ç´¢å„ç§æœºå™¨å­¦ä¹ æ–¹æ³•å’Œæ··åˆåº”用,强调创新的数æ®é¢„处ç†å’Œé€‚应性强的机器学习方法,以应对数æ®è´¨é‡å’Œæ¨¡åž‹é€‚应性挑战 [4]。

    大型语言模型的应用和能力

    GPT-3ã€PaLM å’Œ LLaMA 等大型语言模型标志ç€è‡ªç„¶è¯­è¨€å¤„ç† (NLP) 和人工智能 (AI) 的范å¼è½¬å˜ï¼Œä»ŽåŸºäºŽè§„则的框架å‘展到å¤æ‚çš„ Transformer 等神ç»ç½‘络架构。这ç§æ¼”å˜ä½¿ LLM 能够将大é‡è¯­è¨€æ•°æ®é›†ç¼–ç ä¸ºå‘é‡è¡¨ç¤ºï¼Œç”¨äºŽå„ç§åº”用 [41, 42]。BERT 等大型语言模型擅长æ•æ‰è¯­è¨€çš„å¤æ‚语义和å¥æ³•ç»†å¾®å·®åˆ«ï¼Œä»Žè€Œäº§ç”Ÿå¯†é›†çš„嵌入。这些嵌入对于节点分类等任务至关é‡è¦ï¼Œä¾‹å¦‚文本图中的节点分类 [14],è¯æ˜Žäº† LLM 能够从大é‡æ–‡æœ¬è¯­æ–™åº“中生æˆæœ‰æ„义的表示 [32]。LLM 最åˆæ˜¯ä¸ºè¯­è¨€ä»»åŠ¡è€Œè®¾è®¡çš„,但它显示出éžå‡¡çš„多功能性,扩展到éžè¯­è¨€é¢†åŸŸï¼Œæœ‰æ•ˆåœ°å°†å„ç§æ•°æ®ç±»åž‹ï¼ˆåŒ…括éžè¯­ä¹‰å…ƒç´ ï¼‰ç¼–ç ä¸ºé¡ºåºæ ¼å¼ã€‚例如,Sentence-Transformers 对éžè¯­è¨€æ•°æ®è¿›è¡ŒçŸ¢é‡åŒ–,将 LLM 的使用扩展到计算机视觉 [30]。LLM 在文本摘è¦å’Œå†…容推è等任务中表现出色,从而è¯æ˜Žäº†å…¶å¹¿æ³›çš„适用性 [25, 41, 42]。LLM 通过有效地管ç†ç‰¹å¾å˜å¼‚性和稀ç–性,为数æ®åˆ†æžæ供了创新方法,从而增强了异常检测。它们å¯ä»¥è¶…越传统的机器学习,处ç†å¤æ‚æ•°æ®ä»¥è¿›è¡Œé«˜çº§åˆ†æž [3, 20]。

    在财务分æžä¸­ï¼ŒLLM æž„æˆäº†ä¸€æ¬¡é‡å¤§çš„方法论飞跃。Sentence-Transformers 强调了 LLM 在处ç†å¼‚常检测中的特å¾å¼‚质性和稀ç–性方é¢çš„能力,因为它å¯ä»¥ç”Ÿæˆæœ‰æ„义的å‘é‡ [34, 39, 40]。Sentence-BERT (SBERT) 是 BERT 的改进版本,它å¯ä»¥ç”Ÿæˆè¯­ä¹‰å¯†é›†çš„å¥å­åµŒå…¥ï¼Œä»Žè€Œæ高èšç±»å’Œè¯­ä¹‰æœç´¢çš„性能 [34]。SBERT 利用暹罗网络和三元组网络æ¥å¢žå¼ºå¥å­è¯­ä¹‰åˆ†æžï¼Œç¡®ä¿ç›¸ä¼¼çš„å¥å­åœ¨åµŒå…¥ç©ºé—´ä¸­å½¼æ­¤é è¿‘。这ç§æ”¹è¿›å°†åµŒå…¥ç”Ÿæˆæ—¶é—´ä»Ž BERT çš„ 65 å°æ—¶ç¼©çŸ­åˆ°å¤§åž‹æ•°æ®é›†çš„几秒钟。SBERT 在å¥å­å¯¹å›žå½’和语义相似性等å„ç§ä»»åŠ¡ä¸­è¡¨çŽ°å‡ºè‰²ï¼Œè¯æ˜Žäº†å®ƒåœ¨ä¼ ç»Ÿæ–‡æœ¬ä»»åŠ¡ä¹‹å¤–,快速ã€é«˜è´¨é‡åœ°åµŒå…¥è¯­è¨€å’Œéžè¯­è¨€æ•°æ®åº”用方é¢çš„潜力 [34]。

    财务异常检测中的研究差è·

    尽管机器学习和深度学习在财务异常检测方é¢å–得了进展,但这些方法往往由于财务数æ®çš„多样性和稀ç–性而失败,特别是在日记账分录中,这会æŸå®³æ•°æ®ç¼–ç å’Œåˆ†ç±»çš„有效性,进而影å“财务审计的精度和å¯é æ€§ [6]。传统的异常检测技术ä¾èµ–于矢é‡åŒ–å’Œé™ç»´ï¼Œä½†è¿™äº›æŠ€æœ¯å¯èƒ½ä¸è¶³ä»¥åº”对现实世界中的日记账分录,因为这些分录在长度和å¤æ‚性上差异很大。此外,财务交易的éžæ—¶é—´æ€§ç‰¹å¾é™åˆ¶äº†ä¸€äº›ç‰¹å¾ç¼–ç ç­–略的使用。

    先进的机器学习技术在éžè¯­ä¹‰ã€åˆ†ç±»è´¢åŠ¡æ•°æ®æ–¹é¢ä»æœªå¾—到充分利用,传统的异常检测方法在解决éžæ—¶é—´æ€§å’Œå¼‚质性数æ®å¤æ‚性方é¢å­˜åœ¨ä¸è¶³ã€‚Sentence-Transformer LLM 在财务数æ®åˆ†æžæ–¹é¢å°šæœªå¼€å‘的潜力,为处ç†ç‰¹å¾å˜å¼‚性和稀ç–性æ供了创新机会。通过将 LLM 嵌入与优化的机器学习模型相结åˆï¼Œå¼¥åˆé‡è¦çš„研究差è·ï¼Œå¯ä»¥æ˜¾è‘—æ高财务异常检测的分类精度和数æ®ç¼–ç ç¨³å¥æ€§ï¼Œè¶…越传统方法。

    æ•°æ®æ述和伦ç†è€ƒé‡

    在我们的工作中,我们使用了æ¥è‡ªå„ç§åŒ¿åå…¬å¸çš„汇总的真实世界总账数æ®é›†ï¼Œå¦‚ Bakumenko 等人所述 [6]。该数æ®é›†åŒ…å«åŒ¿å化的日记账分录,涵盖多个行业和时间段的系统特定账户计划。它最åˆç»è¿‡é¢„处ç†ï¼ŒæŽ’除了包å«è¶…过四个交易的分录,以管ç†å¼‚常值。它包å«ä¸€å°éƒ¨åˆ†å¸¦æ ‡ç­¾çš„异常,其中包å«å…«ç§ç±»åž‹çš„错误,这些错误由财务审计人员创建,以å映财务记录中常è§çš„异常,表明现实世界异常检测中的关键关注领域。该数æ®é›†ä¾§é‡äºŽå¯¹å¼‚常检测至关é‡è¦çš„属性,例如æºç³»ç»Ÿã€è´¦æˆ·ç±»åˆ«å’Œå€Ÿè´·æŒ‡ç¤ºå™¨ï¼Œç®€åŒ–了数æ®ä¸­å¼‚常的识别。

    在这项工作中,我们对总账数æ®é›†åº”用了严格的伦ç†å议,确ä¿å½»åº•çš„匿å化,以消除任何关于公å¸æˆ–个人的å¯è¯†åˆ«ä¿¡æ¯ã€‚该数æ®é›†ä¿æŒæœºå¯†ï¼Œä¸å¯å…±äº«ï¼Œé˜²æ­¢æœªç»æŽˆæƒçš„访问。我们é¿å…使用云存储,以最大é™åº¦åœ°é™ä½Žæ•°æ®æ³„露风险,维护数æ®é›†çš„完整性。数æ®å¤„ç†å’Œåˆ†æžä¸¥æ ¼éµå®ˆæ³•å¾‹å’Œä¼¦ç†å‡†åˆ™ã€‚引入的异常ç»è¿‡ç²¾å¿ƒç®¡ç†ï¼Œä»¥ç»´æŠ¤ç ”究目的的伦ç†æ•°æ®æ“纵实践。

    方法

    æ•°æ®é¢„处ç†

    该数æ®é›†åŒ…å« 32,100 个日记账分录中的交易级数æ®ç‚¹ï¼ŒåŒ…括 148 个旨在å映异常模å¼è€Œæ²¡æœ‰ä¸ªä½“å差的异常。为了在日记账分录中进行异常检测,将交易汇总æˆé›†åˆ ,其中 è¡¨ç¤ºåŒ…å« ä¸ªäº¤æ˜“çš„æ—¥è®°è´¦åˆ†å½•ã€‚æ±‡æ€»é›†åˆ æ˜¯é€šè¿‡å¯¹æ¯ä¸ª 应用汇总函数 å½¢æˆçš„,表示为

    A = {A(J. | J ∈ J}✅

    在 Bakumenko 等人的工作中 [6],填充将交易长度标准化为统一的特å¾å‘é‡ ï¼Œå‡†å¤‡æœºå™¨å­¦ä¹ æ¨¡åž‹è¾“å…¥ã€‚äº¤æ˜“ç”± ERP 属性定义,例如账户编å·å’Œå€Ÿè´·æ ‡å¿—,åˆå¹¶åˆ° 特å¾ä¸­ã€‚此编ç ç‰¹å¾åœ¨ç¨€ç–矩阵中的维度éµå¾ªä»¥ä¸‹å…¬å¼ï¼š

    feature_count = max(transaction_amount) * (|unique_values(feature1)| + |unique_values(feature2)|)

    其中 是所有日记账分录中最大交易金é¢çš„乘积,表示为 ï¼Œä»¥åŠ å’Œ 特å¾å‘é‡ä¸­å”¯ä¸€å…ƒç´ çš„组åˆè®¡æ•°ï¼ˆ å’Œ )。因此,对于存在 577 个唯一 值和 特å¾å‘é‡ä¸­ 4 个唯一值的独热编ç æ–¹æ³•ï¼Œå°†å¯¼è‡´ 2336 个编ç ç‰¹å¾ã€‚此特å¾ç©ºé—´ç»è¿‡ PCA é™ç»´ã€‚

    相å,为了将 SBERT 模型应用于æ¯ä¸ª JE 中的交易数æ®ç¼–ç ï¼Œæˆ‘们首先基于 JE 标识符,通过 group-by æ“作将交易分类特å¾è¿žæŽ¥èµ·æ¥ã€‚å°†æ¯ä¸ªäº¤æ˜“çš„ å’Œ 属性以åŠäº¤æ˜“本身组åˆåœ¨ä¸€èµ·çš„过程如下:

    text_8 = "Source: " + feature1_8 + " Account_DC: " + feature2_8 + " " + transaction_8

    其中 是组 的连接文本, 是组 中的交易数é‡ã€‚ 是连接æ“作,使用逗å·å’Œç©ºæ ¼ä½œä¸ºäº¤æ˜“的分隔符。 是组 中第 个交易的 属性, 是组 中第 个交易的 属性。

    …

    æ¯ä¸ª JE 的连接文本 ( ) 被处ç†ä¸ºå•ä¸ªå¥å­ç»“构。SBERT 模型的 encode 方法首先将æ¯ä¸ªå­—符串标记化为一系列标记。SBERT 然åŽä½¿ç”¨å…¶åŸºäºŽ BERT 的架构为æ¯ä¸ªæ ‡è®°ç”Ÿæˆä¸Šä¸‹æ–‡åµŒå…¥ï¼Œè¿™æ¶‰åŠå¤šä¸ª Transformer 层和自注æ„力机制。平å‡æ± åŒ–步骤将这些标记嵌入èšåˆä¸ºå›ºå®šå¤§å°çš„å¥å­åµŒå…¥ã€‚PCA ç­‰é™ç»´æ²¡æœ‰ç”¨äºŽä¿æŒåµŒå…¥çš„原始维度,确ä¿ç²¾ç¡®çš„评估 [6]。我们将嵌入归一化为零å‡å€¼å’Œå•ä½æ–¹å·®ï¼Œä»¥ä¾¿åœ¨æœºå™¨å­¦ä¹ ä»»åŠ¡ä¸­æ高一致性并加快收敛速度,这对于基于è·ç¦»æˆ–梯度下é™çš„算法至关é‡è¦ï¼Œå¯ä»¥æ高跨模型的性能。SBERT 嵌入为æ¯ä¸ªæ—¥è®°è´¦åˆ†å½•åˆ›å»ºå›ºå®šå¤§å°çš„密集å‘é‡ï¼Œæ•èŽ·äº¤æ˜“详细信æ¯ï¼Œé€šè¿‡æ€»ç»“å¤æ‚çš„æ•°æ®äº¤äº’,帮助进行异常检测和模å¼è¯†åˆ«ã€‚

    æ•°æ®å¹³è¡¡å’Œæ¨¡åž‹æ€§èƒ½éªŒè¯

    在机器学习中,类分布ä¸å¹³è¡¡çš„å斜数æ®é›†ä¼šé˜»ç¢æ¨¡åž‹è®­ç»ƒä¸­çš„分类任务,因为它会åå‘多数类,并影å“异常检测。éµå¾ª [18] 中的指å—,我们使用 80/20 分层分割,以确ä¿è®­ç»ƒé›†å’Œæµ‹è¯•é›†ä¸­åŒ…å«æ¯”例异常表示,从而å‡å°‘å差。我们通过对少数类进行加æƒæ¥è°ƒæ•´ä¸å¹³è¡¡ï¼Œä»¥æ高模型阶段的æ•æ„Ÿæ€§ï¼Œå¹¶ç¡®ä¿ç»“果一致性和与æ’定éšæœºçŠ¶æ€çš„公平比较。在训练和优化中,我们é¿å…了交å‰éªŒè¯ï¼Œè®¤è¯†åˆ°å®ƒåœ¨ä¸å¹³è¡¡æ•°æ®é›†å’Œå¤§åž‹ç‰¹å¾é›†ä¸­å­˜åœ¨çš„缺点,这一点由 Rao 等人指出 [33]。交å‰éªŒè¯ä¼šå¢žåŠ è¿‡æ‹Ÿåˆé£Žé™©ï¼Œå°¤å…¶æ˜¯åœ¨ä½¿ç”¨è®¸å¤šæ¨¡åž‹å’Œå¹¿æ³›çš„超å‚数调整时。éšç€æ•°æ®ç»´åº¦çš„增加,它的有效性会下é™ï¼Œå¯¼è‡´æ¨¡åž‹æ–¹å·®æ›´é«˜ï¼Œéš¾ä»¥ä»Žå¤æ‚的特å¾äº¤äº’中获得å¯é çš„评估。ä¸å¹³è¡¡æ•°æ®é›†ä¼šåŠ å‰§è¿™ä¸€æŒ‘战,导致交å‰éªŒè¯æŠ˜å å差,并导致性能评估å差。

    我们选择一致的 80/20 分层分割,以ä¿æŒè·¨æ¨¡åž‹çš„测试集一致性,这对于准确比较算法性能至关é‡è¦ï¼Œè€Œäº¤å‰éªŒè¯çš„å¯å˜æ•°æ®å­é›†å¯èƒ½ä¼šæŸå®³è¿™ä¸€ç‚¹ã€‚虽然这ç§ç­–ç•¥å¯ä»¥ç¼“解一些挑战,但它å¯èƒ½ä¼šå½±å“模型的泛化能力。为了抵消这一点,我们采用了仔细的指标选择和训练åŽäº¤å‰éªŒè¯è¯„估,尽管由于数æ®é›†çš„å¤æ‚性,直接对少数类进行过采样技术ä¸å¯è¡Œã€‚

    模型选择

    åœ¨è¿™é¡¹å·¥ä½œä¸­ï¼Œæˆ‘ä»¬è¯„ä¼°äº†ä¸‰ç§ Sentence-BERT 模型用于嵌入生æˆï¼šall-mpnet-base-v2ã€all-distilroberta-v1 å’Œ all-MiniLM-L6-v2,这些模型因其æµè¡Œåº¦å’Œæ€§èƒ½è€Œè¢«é€‰ä¸­ï¼Œè¿™ä¸€ç‚¹å¯ä»¥é€šè¿‡å®ƒä»¬åœ¨ HuggingFace 模型中心的高下载率æ¥è¯æ˜Ž [16]。æ¯ä¸ªæ¨¡åž‹éƒ½åœ¨è¶…过 10 亿对数æ®ä¸Šè¿›è¡Œè®­ç»ƒï¼Œå…·æœ‰ä¸åŒçš„优势:all-mpnet-base-v2 在质é‡æ–¹é¢è¡¨çŽ°å‡ºè‰²ï¼Œæ€§èƒ½å¾—分为 63.30 [35],all-distilroberta-v1 在效率和性能之间å–得平衡,大å°ä¸º 290 MB,all-MiniLM-L6-v2 速度快,大å°ä¸º 80 MB,适åˆå®žæ—¶åº”用 [35]。有关模型规格的详细信æ¯ï¼Œè¯·å‚阅表 1。选择这些模型是因为它们在质é‡ã€æ•ˆçŽ‡å’Œé€Ÿåº¦æ–¹é¢çš„互补优势,有助于这项研究中的全é¢è¯„估。

    我们还使用了五ç§æœºå™¨å­¦ä¹ åˆ†ç±»å™¨ï¼šéšæœºæ£®æž— (RF)ã€ä½¿ç”¨ XGBoost (XGB) 的梯度æå‡æœº (GBM)ã€æ”¯æŒå‘é‡æœº (SVM)ã€é€»è¾‘回归 (LR) 和使用 Keras TensorFlow 实现的神ç»ç½‘络 (NN)。RF 以其通过集æˆå†³ç­–æ ‘æ¥å‡å°‘过拟åˆçš„能力而闻å,GBM 以其通过优化弱学习器æ¥è§£å†³æ•°æ®ä¸å¹³è¡¡é—®é¢˜çš„能力而闻å,SVM 以其在高维空间中的有效性而闻å,LR 是一ç§å¿«é€Ÿé«˜æ•ˆçš„基线,而 NN 则用于对å¤æ‚关系进行建模,需è¦ä»”细调整架构 [10, 12, 15, 17, 19, 23]。

    实验设计

    我们的工作使用了一个包å«å®žé™…异常和人工æ’入异常的财务数æ®é›†ï¼Œæ—¨åœ¨æ£€æµ‹åŽè€…,åŒæ—¶æœ€å¤§é™åº¦åœ°å‡å°‘å‰è€…中的误报。该数æ®é›†å映了现实世界æ¡ä»¶ï¼Œå…·æœ‰æ˜¾è‘—çš„ç±»ä¸å¹³è¡¡ï¼Œä¸Ž Bakumenko 等人的工作 [6] 中的数æ®é›†ç›¸åŒï¼Œç»è¿‡åŒ¿å化和细化,åªåŒ…å«å¿…è¦çš„分类特å¾ã€‚我们将 8 ç§ç±»åž‹çš„异常视为å•ä¸ªå¼‚常类,从而将其构建为二元分类挑战,确ä¿æˆ‘们的训练/测试分割中异常类型的å‡åŒ€åˆ†å¸ƒã€‚

    为了有效地识别财务日记账分录中的异常,这些分录构æˆä¸€ä¸ªé«˜ç»´æ•°æ®é›†ï¼Œæˆ‘们通过使用 SBERT LLM 对éžè¯­ä¹‰åˆ†ç±»æ•°æ®è¿›è¡Œç¼–ç æ¥è¿›è¡Œåˆ›æ–°ï¼Œç‰¹åˆ«æ˜¯ä½¿ç”¨ 3 个 Sentence-Transformers 模型将å¯å˜é•¿åº¦çš„分录标准化为一致的特å¾ç©ºé—´ï¼Œè§£å†³åŽŸå§‹å·¥ä½œ [6] 中传统编ç æ–¹æ³•çš„å±€é™æ€§ã€‚

    实验结果

    ç¼–ç ç‰¹å¾é›†åˆ†æž

    我们对æ¥è‡ªä¸‰ä¸ª SBERT 模型嵌入的特å¾é›†è¿›è¡Œäº†ä¸»æˆåˆ†åˆ†æž (PCA)(图 3)。PCA 展示了嵌入在数æ®é›†ä¸­çš„维度和信æ¯ä¿ç•™èƒ½åŠ›ï¼Œå°½ç®¡è¿›è¡Œäº†é™ç»´ï¼Œä½†ä»ç„¶ä¿ç•™äº†æ˜¾è‘—的方差。æ¥è‡ª all-MiniLM-L6-v2 模型 (LLM1) çš„åµŒå…¥éœ€è¦ 63 个æˆåˆ†æ‰èƒ½ä¿ç•™ 99% çš„æ–¹å·®ï¼Œéœ€è¦ 150 个æˆåˆ†æ‰èƒ½ä¿ç•™ 99.9% 的方差,而 all-distilroberta-v1 (LLM2) å’Œ all-mpnet-base-v2 (LLM3) 模型,尽管å‘é‡æ›´å¤§ï¼ˆ770),但对于相åŒçš„方差水平,需è¦çš„æˆåˆ†æ›´å°‘(LLM2 为 57 个,LLM3 为 52 个)。

    进一步分æžè¡¨æ˜Žï¼Œæœ€ç»ˆ 0.9% 的方差信æ¯é‡è¾ƒå°‘,这表明它å¯èƒ½åŒ…å«å™ªå£°æˆ–æ•°æ®é›†ç‰¹å®šçš„特å¾ã€‚一项比较研究(图 4)表明,LLM 嵌入在é™ç»´æ–¹é¢ä¼˜äºŽç‹¬çƒ­ç¼–ç ã€‚LLM 嵌入在维度更少的情况下ä¿æŒäº†é«˜æ–¹å·®ï¼Œè¿™ä¸Žæ¥è‡ªç‹¬çƒ­ç¼–ç çš„稀ç–ã€é«˜ç»´å‘é‡å½¢æˆå¯¹æ¯”。独热编ç æ•°æ®æœ€åˆæœ‰ 2336 个维度,é™ç»´åˆ° 419 个æ‰èƒ½è¾¾åˆ° 99% 的方差,这ä»ç„¶é«˜äºŽ LLM 嵌入。

    é‡è¦çš„是è¦è®¤è¯†åˆ° PCA 的线性性质é™åˆ¶äº†å®ƒæ•æ‰éžçº¿æ€§å¤æ‚性的能力。虽然 PCA 有助于ç†è§£ç»“构属性和é™ç»´çš„潜力,但它ä¸èƒ½é¢„测下游任务中的性能。我们的扩展分æžåŒ…括对这些任务中嵌入的ç»éªŒè¯„估。

    总之,LLM 嵌入比独热编ç æ供更有效的数æ®è¡¨ç¤ºï¼Œå¯¹äºŽç±»ä¼¼çš„方差水平,需è¦æ›´å°‘的维度,这使得 LLM 嵌入更适åˆå¤æ‚任务。

    下游模型训练和优化

    我们使用了å„ç§æœºå™¨å­¦ä¹ åˆ†ç±»å™¨ï¼Œå¦‚第 4.3 节所述,包括 SVMã€RFã€XGBoostã€LRã€ANN å’Œ DNNã€‚å¯¹äºŽéž ANN/DNN 模型,使用 Hyperopt 库和树形 Parzen 估计器 (TPE) 算法进行è´å¶æ–¯ä¼˜åŒ–,在 100 次迭代中进行超å‚数调整。计算样本æƒé‡ä»¥è§£å†³ä¸å¹³è¡¡æ•°æ®é›†é—®é¢˜ï¼Œå¹¶é€šè¿‡è½¬æ¢å¤šç±»åˆ«æ ‡ç­¾æ¥å®žçŽ°äºŒå…ƒåˆ†ç±»ã€‚模型训练使用 Python ä»¥åŠ Scikit-learn å’Œ TensorFlow 库。我们设计了三ç§å…·æœ‰ä¸åŒå¤æ‚度的神ç»ç½‘络架构,并在 50 个 epoch 上进行训练,并使用早期åœæ­¢æ¥è¿›è¡Œæ³›åŒ–,如表 2 所示。

    通过在 NumPy å’Œ TensorFlow 中固定ç§å­æ¥ç¡®ä¿å¯é‡å¤æ€§ï¼Œå¹¶é€šè¿‡è‡ªå®šä¹‰å›žè°ƒæ¥ç›‘控平å‡å¬å›žå®ã€‚ANN 模型包å«å•ä¸ªéšè—层,用于快速训练,DNN1 包å«å¤šä¸ªéšè—层,用于å¤æ‚模å¼è¯†åˆ«ï¼ŒDNN2 åŒ…å« dropout 层,以防止过拟åˆï¼ŒåŒæ—¶ä¿æŒç±»ä¼¼ DNN1 的深度架构。

    评估指标和比较分æž

    在这项工作中,我们之å‰è®¨è®ºäº†å°† LR 作为基线模型的好处。对于三个 SBERT 模型嵌入中的æ¯ä¸€ä¸ªï¼Œæˆ‘们训练了两个下游 LR 模型:一个使用默认å‚数的模型和一个ç»è¿‡ Hyperopt 优化的模型。未ç»ä¼˜åŒ–的模型在平å‡å¬å›žå®æ–¹é¢è¡¨çŽ°å‡ºé«˜æ€§èƒ½ï¼Œåˆ†åˆ«ä¸º all-MiniLM-L6-v2 为 0.9516,all-distilroberta-v1 为 0.9040,all-mpnet-base-v2 为 0.9520。图 5 显示了ç»è¿‡ä¼˜åŒ–çš„ LR 模型的学习曲线,使用 函数进行交å‰éªŒè¯ï¼Œä»¥æ£€æŸ¥æ³›åŒ–和过拟åˆã€‚它在ä¸æ–­å¢žåŠ çš„æ•°æ®å­é›†ä¸Šè®­ç»ƒæ¨¡åž‹ï¼Œå¹¶åœ¨è®­ç»ƒé›†å’ŒéªŒè¯é›†ä¸Šè¿›è¡Œè¯„估,使用 5 折交å‰éªŒè¯ã€‚我们计算了跨折å çš„训练和验è¯åˆ†æ•°çš„å‡å€¼å’Œæ ‡å‡†å·®ï¼Œä»¥è¯„ä¼°å¹³å‡æ€§èƒ½å’Œå˜å¼‚性,åŒæ—¶è€ƒè™‘ç±»ä¸å¹³è¡¡ã€‚训练分数线(红色)表示训练å­é›†çš„性能,交å‰éªŒè¯åˆ†æ•°çº¿ï¼ˆç»¿è‰²ï¼‰è¡¨ç¤ºæœªè§è¿‡çš„验è¯é›†çš„性能,æ供了一个å¯é çš„估计,用于评估跨数æ®å­é›†çš„模型性能以åŠé€šè¿‡æ›´å¤šæ•°æ®è¿›è¡Œæ”¹è¿›çš„å¯èƒ½æ€§ã€‚

    在图 5 中,所有三个模型都展示了积æžçš„学习特å¾ã€‚E3 模型在学习和泛化方é¢è¡¨çŽ°å‡ºè‰²ï¼Œå±•ç¤ºäº†å¼ºå¤§çš„æ•°æ®å­¦ä¹ èƒ½åŠ›ã€‚E1 模型虽然性能尚å¯ï¼Œä½†æ˜¾ç¤ºå‡ºè¾¾åˆ°å­¦ä¹ èƒ½åŠ›æžé™çš„迹象。E2 模型正在改进,但需è¦æ›´å¥½çš„正则化策略。Hyperopt 优化的分æžæ˜¾ç¤ºï¼ŒE1 çš„ C 值为 0.07677,表明正则化程度适中。E2 的正则化更强,C 值为 0.01702,并使用 ‘newton-cg’ 求解器。E3 çš„ C 值最å°ï¼Œä¸º 0.01358,使用 ‘liblinear’ 求解器,显示出最强的正则化。所有模型都使用统一的类æƒé‡æ¥æ高少数类预测精度,并根æ®å…¶å­¦ä¹ éœ€æ±‚调整特定的正则化强度和求解器选择。

    图 6 评估了 LRã€RFã€XGBã€SVM å’Œ NN 分类器的性能,这些分类器ç»è¿‡ä¼˜åŒ–并与æ¥è‡ªä¸‰ä¸ªè¯­è¨€æ¨¡åž‹çš„嵌入相集æˆã€‚性能指标基于平å‡å¬å›žå®ã€‚所有嵌入都显示出ä¸åŒç¨‹åº¦çš„有效性,其中 all-mpnet-base-v2 在å„ç§åˆ†ç±»å™¨ä¸­è¡¨çŽ°å‡ºç¨³å®šæ€§å’Œæ€§èƒ½ã€‚all-MiniLM-L6-v2 也表现良好,尤其是在 LR å’Œ NN 中,而 all-distilroberta-v1 也很稳固,但没有在 NN 中超过 all-MiniLM-L6-v2。这些差异表明,æŸäº›åµŒå…¥åœ¨ä¸‹æ¸¸ä»»åŠ¡ä¸­ä¸Žç‰¹å®šåˆ†ç±»å™¨æ›´å…¼å®¹ï¼Œè¿™æŒ‡å¯¼äº†å®žé™…模型选择。

    使用ä¸åŒåµŒå…¥çš„优化模型的混淆矩阵值如表 3 所示。all-MiniLM-L6-v2 嵌入与 LRï¼Œä»¥åŠ NN(如果 FP å‡å°‘),å¯èƒ½æ供最平衡的性能,而 all-mpnet-base-v2 嵌入在跨模型的 TP 率方é¢è¡¨çŽ°å‡ºæ›´é«˜çš„性能。图 7 对比了 LLM 嵌入与传统填充独热编ç åœ¨ LRã€RFã€SVM å’Œ NN 模型中的å¬å›žå®åˆ†æ•°å·®å¼‚。æ¯ä¸ªæ¡å½¢å›¾æ˜¾ç¤ºäº† LLM 嵌入的å¬å›žåˆ†æ•°å·®å¼‚,方框图总结了æ¯ä¸ªæ¨¡åž‹çš„分布和å‡å€¼ï¼ˆè±å½¢ï¼‰ã€‚

    对于 LR,LLM 嵌入将å¬å›žåˆ†æ•°æ高了 +0.056ã€+0.030 å’Œ +0.032,分布紧凑,表明在跨嵌入方é¢çš„一致增强。相å,RF 模型在使用 LLM 嵌入时表现出下é™ï¼Œå·®å¼‚分别为 -0.066ã€-0.044 å’Œ -0.021,å˜å¼‚范围适中。SVM 模型在使用 LLM 嵌入时性能下é™ï¼Œå·®å¼‚分别为 -0.085ã€-0.108 å’Œ -0.015,显示出å‘更低性能的显著å˜å¼‚。NN 模型å—益于 LLM 嵌入,分别增加了 +0.064ã€+0.050 å’Œ +0.062,å˜å¼‚性最å°ï¼Œè¡¨æ˜Žå¯é çš„积æžå½±å“。LLM 嵌入改进的 LR å’Œ NN 模型性能优于传统的填充独热编ç ï¼Œä½†é€šå¸¸ä¼šé™ä½Ž RF å’Œ SVM 模型的有效性。虽然æŸäº›æ¨¡åž‹å¯èƒ½å§‹ç»ˆå—益于 LLM 嵌入,但这çªå‡ºäº†åœ¨å°† LLM 嵌入应用于数æ®ç¼–ç æ—¶æ€§èƒ½çš„模型特定å˜å¼‚性。

    图 8 中的 Bland-Altman 图比较了两个分数集,评估了使用嵌入(all-MiniLM-L6-v2 (E1)ã€all-distilroberta-v1 (E2) å’Œ all-mpnet-base-v2 (E3))的机器学习模型性能与传统方法的对比。红线显示了所有模型的平å‡å¬å›žå®åˆ†æ•°å·®å¼‚。è“线设置在平å‡å·®å¼‚ ± 1.96 SD,定义了一致性é™åº¦ï¼Œè¡¨æ˜Žå¤§å¤šæ•°åˆ†æ•°å·®å¼‚的预期范围。è“线周围的点分散表明,æŸäº›æ¨¡åž‹çš„新嵌入与传统方法相比,与预期性能范围一致。性能在跨机器学习模型和嵌入方é¢æœ‰æ‰€ä¸åŒã€‚例如,NN 模型通常表现出改进的结果,这一点由红线上方的正å差所示,而 SVM 模型显示出有效性é™ä½Žï¼Œè¿™ä¸€ç‚¹ç”±è´Ÿå差所示。总体而言,使用 LLM 嵌入的机器学习模型往往与传统方法的预期性能范围相匹é…,表明平å‡ç»“果相当。

    å‡è®¾é‡è¿°

    对 Sentence-Transformer 嵌入进行的 PCA 分æžè¡¨æ˜Žï¼Œä¸Žä¼ ç»Ÿæ–¹æ³•ç›¸æ¯”,财务数æ®ç¼–ç çš„紧凑性和信æ¯ä¿ç•™èƒ½åŠ›æœ‰æ‰€æ高,从而è¯å®žäº†å‡è®¾ 1。这çªå‡ºäº†åµŒå…¥åœ¨æ ‡å‡†åŒ–特å¾å˜å¼‚性和有效压缩信æ¯æ–¹é¢çš„优越能力。

    对于å‡è®¾ 2,将 Sentence-Transformer 嵌入与优化的 LR å’Œ NN 模型相结åˆï¼Œæ˜¾ç¤ºå‡ºæ”¹è¿›çš„异常检测性能,这è¯å®žäº† LLM 嵌入超越传统方法的潜力。虽然观察到一些性能差异,例如在 SVM 模型中,但这些差异都在预期的范围内。结果强调了这ç§åˆ›æ–°æ–¹æ³•çš„有效性,强调了战略性模型选择的é‡è¦æ€§ï¼Œä»¥æœ€å¤§é™åº¦åœ°å‘挥其优势。

    讨论

    这项工作利用 Sentence-Transformer LLM 对财务数æ®è¿›è¡Œç¼–ç ï¼Œå±•ç¤ºäº†ä¸€ç§å¢žå¼ºå¼‚常检测的新方法。

    结果解读

    对æ¥è‡ªä¸‰ä¸ª SBERT 模型(MiniLM-L6-v2ã€all-distilroberta-v1 å’Œ all-mpnet-base-v2)的嵌入进行的 PCA 分æžè¡¨æ˜Žï¼Œä¸Žä¼ ç»Ÿç¼–ç æ–¹æ³•ç›¸æ¯”,财务数æ®é›†çš„é™ç»´å’Œä¿¡æ¯ä¿ç•™èƒ½åŠ›æœ‰äº†æ˜¾è‘—æ高。例如,考虑到下游机器学习性能,all-mpnet-base-v2 模型åªéœ€è¦ 52 个 PCA æˆåˆ†å°±èƒ½ä¿ç•™ 99% 的方差,而填充独热编ç åˆ™éœ€è¦ 419 个。所有 3 个 SBERT 模型的嵌入特å¾ç»´åº¦åœ¨ç›¸åŒæ¯”较中明显更低。这ç§è¿›æ­¥è§£å†³äº†è´¢åŠ¡éžè¯­ä¹‰éžæ—¶é—´æ€§åˆ†ç±»ç‰¹å¾é›†ä¸­ç‰¹å¾å¼‚质性和稀ç–性的关键挑战,这比传统方法有了显著改进。下游机器学习模型的性能è¯å®žäº† LLM 嵌入在异常检测中的有效性。å„ç§æœºå™¨å­¦ä¹ åˆ†ç±»å™¨çš„使用,包括ç»è¿‡è´å¶æ–¯ä¼˜åŒ–çš„ LRã€RFã€XGBã€SVM å’Œ NN,以åŠå¤šç§æž¶æž„和调整的å‚数,çªå‡ºäº†åµŒå…¥çš„多功能性和æ高模型性能的潜力。使用所有 3 个 SBERT 嵌入的 LR å’Œ NN 模型的优越评估指标强调了这些嵌入在增强异常检测方é¢çš„潜力。SVM 的表现ä¸ä½³ï¼Œå³ä½¿åœ¨é¢„期的范围内,也çªå‡ºäº†åœ¨æœªæ¥çš„应用中需è¦è¯„估模型嵌入兼容性。

    对财务异常检测的影å“

    å°† Sentence-Transformer LLM æ•´åˆåˆ°è´¢åŠ¡å¼‚常检测中,代表ç€ä»Žä¼ ç»Ÿæ–¹æ³•çš„飞跃,增强了数æ®è¡¨ç¤ºå’Œç®—法对异常的æ•æ„Ÿæ€§ã€‚è¿™ç§æ–¹æ³•åœ¨å®žé™…应用中承诺通过æ高准确性和最大é™åº¦åœ°å‡å°‘误报æ¥æ高欺诈检测效率,从而简化财务æ“作。这ç§æ–°æ–¹æ³•åœ¨æŸäº›æƒ…况下将æˆåˆ†æ•°é‡å‡å°‘了八å€ï¼ŒåŒæ—¶æ高了下游模型性能,有效地标准化了特å¾å˜å¼‚性。它è¯æ˜Žäº†å…¶æœ‰æ•ˆæ€§ï¼Œå¹¶ä¸ºè´¢åŠ¡æ•°æ®ç¼–ç è®¾å®šäº†æ–°çš„标准。éšç€è¿™ç§æ–¹æ³•è®ºå˜å¾—越æ¥è¶Šæ™®é,它å¯èƒ½ä¼šåœ¨è´¢åŠ¡åˆ†æžä¸­å»ºç«‹æ–°çš„基准,推动该行业机器学习应用的进步。进一步的实è¯ç ”究和现实世界应用å¯ä»¥å·©å›ºå…¶åœ°ä½å¹¶é‡åŒ–其影å“。

    å±€é™æ€§å’Œåå·®

    我们的研究使用了æ¥è‡ªå„ç§ ERP 的真实世界数æ®é›†ï¼Œå¹¶ç”±è´¢åŠ¡å®¡è®¡äººå‘˜æ·»åŠ äº†å…«ç§ä¸åŒçš„有æ„引入和标记的异常。这些异常å映了审计人员对实际异常检测的兴趣,具有åˆæˆæ€§è´¨ï¼Œå¯èƒ½ä¼šé™åˆ¶æ³›åŒ–能力。此外,分æžçŽ°å®žä¸–界财务数æ®çš„挑战在于å¯èƒ½å­˜åœ¨çš„未标记异常,这å¯èƒ½ä¼šä½¿æœºå™¨å­¦ä¹ æ¨¡åž‹éªŒè¯äº§ç”Ÿå差,并增加误报率。此外,PCA 分æžæ˜¯ä¸€ç§çº¿æ€§æ–¹æ³•ï¼Œå…¶èƒ½åŠ›æœ‰é™ï¼Œæ— æ³•è¡¨ç¤ºç‰¹å¾é›†ä¸­çš„éžçº¿æ€§å…³ç³»ã€‚此外,LLM 对æ示工程åšå‡ºå应,这æ„味ç€è¾“入特å¾è¿žæŽ¥çš„å˜åŒ–会改å˜åµŒå…¥ï¼Œè¿™ä¸€ç‚¹åœ¨æœ¬ç ”究中没有涉åŠã€‚最åŽï¼Œæˆ‘们的方法侧é‡äºŽåˆ†ç±»ç‰¹å¾ï¼Œéœ€è¦åœ¨éœ€è¦ç²¾ç¡®æ•°å€¼åˆ†æžçš„情况下进行扩展。

    结论与未æ¥å·¥ä½œ

    贡献总结

    我们的研究通过将 LLM 嵌入与机器学习分类器相结åˆï¼ŒæŽ¨åŠ¨äº†è´¢åŠ¡å¼‚常检测领域的å‘展,这是一ç§æ–°æ–¹æ³•ï¼Œæ˜¾è‘—缓解了特å¾å¼‚质性和稀ç–性问题。利用 Sentence-Transformer 模型对财务数æ®è¿›è¡Œç¼–ç ï¼Œæˆ‘们的方法ä¸ä»…在é™ç»´å’Œä¿¡æ¯ä¿ç•™æ–¹é¢è¶…越了传统的编ç æŠ€æœ¯ï¼Œè€Œä¸”还展示了在选定的机器学习分类器中增强的异常检测效果。这与特å¾è¡¨ç¤ºçš„既定原则相一致 [9],å映了它们在财务数æ®çŽ¯å¢ƒä¸­çš„实际应用。在全é¢çš„实验设置和展示实际适用性的基础上,我们的工作为自然语言处ç†å’Œè´¢åŠ¡åˆ†æžäº¤å‰é¢†åŸŸæœªæ¥çš„研究æ供了å®è´µçš„è§è§£ã€‚

    更广泛的影å“å’Œæ„义

    大型语言模型 (LLM) 在éžè¯­ä¹‰è´¢åŠ¡æ•°æ®ä¸Šçš„创新应用解决了高维性和稀ç–性问题,为 LLM 在其传统应用之外的领域的使用开创了先例。这å映了 LLM æˆåŠŸåœ°å¯¹è§†è§‰æ ‡è®°è¿›è¡Œç¼–ç çš„å‘现 [30]。通过超越传统方法,LLM 嵌入展示了其在语言任务之外的潜力,特别是对于缺ä¹å›ºæœ‰è¯­ä¹‰çš„æ•°æ®ç±»åž‹ã€‚è¿™ç§æ–¹æ³•è®ºçš„进步å¯ä»¥å¸®åŠ©å„ç§å…·æœ‰ç±»ä¼¼æŒ‘战的行业,特别是医疗ä¿å¥å’Œé›¶å”®è¡Œä¸šï¼Œå…¶ä¸­å¤æ‚çš„æ•°æ®é›†å¯ä»¥ä»Ž LLM 增强的数æ®è¡¨ç¤ºèƒ½åŠ›ä¸­èŽ·ç›Šã€‚在医疗ä¿å¥é¢†åŸŸï¼ŒLLM 嵌入å¯ä»¥é€šè¿‡æ£€æµ‹ä¸»è¦ä¸ºæ•°å€¼ã€ç¼ºä¹æ–‡æœ¬æ¸…晰度或包å«ç»“构化数æ®ï¼ˆå¦‚ MRIã€CT 扫æã€ICD 代ç å’Œå®žéªŒå®¤å€¼ï¼‰çš„æ•°æ®é›†ä¸­çš„模å¼æ¥å¢žå¼ºæ‚£è€…æ•°æ®åˆ†æžï¼Œè¿™äº›æ•°æ®éœ€è¦é¢†åŸŸçŸ¥è¯†æ‰èƒ½è¿›è¡Œè§£é‡Šã€‚在零售领域,LLM å¯ä»¥ä»Žé«˜ç»´äº¤æ˜“æ•°æ®ä¸­æ供详细的è§è§£ï¼Œæ­ç¤ºå¤æ‚的产å“-消费者交互。这å¯ä»¥å¢žå¼ºæœºå™¨å­¦ä¹ æ¨¡åž‹é¢„测行为ã€ç»†åˆ†å¸‚场和推è产å“的能力,从而促进市场分æžã€‚

    LLM 在éžè¯­ä¹‰æ•°æ®ä¸Šçš„使用扩展了它们的应用范围,并促使人们é‡æ–°æ€è€ƒæ•°æ®åˆ†æžæ–¹æ³•ï¼Œä»Žè€ŒæŽ¨åŠ¨è·¨å­¦ç§‘研究,探索其在å¤æ‚æ•°æ®é›†ä¸­çš„潜力。

    未æ¥ç ”究方å‘

    未æ¥çš„研究应该将 LLM 嵌入方法扩展到更广泛的财务数æ®é›†ï¼Œè¯„ä¼°å…¶å¯æ‰©å±•æ€§ã€å¯¹å¼‚常检测精度的影å“以åŠå“应ä¸æ–­å˜åŒ–的财务欺诈模å¼çš„计算效率。将这ç§æ–¹æ³•æ‰©å±•åˆ°è·¨å¤šä¸ªé¢†åŸŸçš„å„ç§éžè¯­ä¹‰æ•°æ®ç±»åž‹ï¼Œè¿™äº›æ•°æ®ç±»åž‹å…·æœ‰é«˜ç»´å’Œç¨€ç–æ•°æ®é›†ï¼Œå¹¶ä¸Žå…¶ä»–先进的机器学习和深度学习模型相集æˆï¼Œå°†æµ‹è¯• LLM 嵌入的适应性和有效性。应该探索无监ç£ç­–ç•¥æ¥è§£å†³é›¶æ—¥å¼‚常问题,改进我们的方法,以更好地检测新模å¼ã€‚未æ¥çš„研究应该调查å„ç§æ•°æ®é¢„处ç†ç­–略(包括èšåˆæ–¹æ³•å’Œæ示工程)如何æ高 LLM ç¼–ç æ•ˆçŽ‡ã€‚对éžçº¿æ€§é™ç»´æŠ€æœ¯çš„é‡ç‚¹æŽ¢ç´¢å¯ä»¥è¡¥å…… PCA,旨在更有效地æ•æ‰ LLM 嵌入中的å¤æ‚关系。调查åˆæˆå¼‚常与现实世界异常对模型性能的影å“,将æ供对å‘现的实际适用性的è§è§£ã€‚最åŽï¼Œé€šè¿‡æµ‹è¯•å„ç§æœ€å…ˆè¿›çš„ LLM 架构æ¥æŽ¢ç´¢æ¨¡åž‹åµŒå…¥å…¼å®¹æ€§ï¼Œå¯èƒ½ä¼šäº§ç”Ÿæ›´é‡èº«å®šåˆ¶çš„异常检测解决方案。

    å‚考文献

    [1] Yara Alghofaili, Albatul Albattah, and Murad A Rassam. 2020. A. ¿¿nancial fraud✅
    detection model based on LSTM deep learning technique. Journal of Applied
    Security Research 15, 4 (2020), 498–516.

    [2] A. Alhashedi. 2021. Financial Fraud Detection Applying Data Mining Techniques:✅
    A Comprehensive Review from 2009 to 2019. Computer Science Review 40 (2021),

    1. https://doi.org/10.1016/j.cosrev.2021.100402

    [3] Abhijit Anand, Jurek Leonhardt, Jaspreet Singh, Koustav Rudra, and Avishek
    Anand. 2023. Data augmentation for sample eï¿¿cient and robust document
    ranking. ACM Transactions on Information Systems (2023).

    [4] Matin N Ashtiani and Bijan Raahemi. 2021. Intelligent fraud detection in ï¿¿nancial
    statements using machine learning and data mining: a systematic literature
    review. IEEE Access 10 (2021), 72504–72525.

    [5] V. Vlasselaer B. Baesens and W. Verbeke. 2015. Fraud analytics using descriptive,✅
    predictive, and social network techniques : a guide to data science for fraud detection.
    Wiley, New York.

    [6] Alexander Bakumenko and Ahmed Elragal. 2022. Detecting anomalies in ï¿¿nancial

    data using machine learning algorithms. Systems 10, 5 (2022), 130.

    [7] Seila Becirovic, Emir Zunic, and Dzenana Donko. 2020. A Case Study of Cluster-
    based and Histogram-based Multivariate Anomaly Detection Approach in Gen-
    eral Ledgers. In 2020 19th International Symposium Infoteh-Jahorina (INFOTEH).
    IEEE, 1–6.

    [8] F Belfo and A Trigo. 2013. Accounting Information Systems: Tradition and Future

    Directions. Procedia Technology 9 (2013), 536–546.

    [9] Yoshua Bengio, Aaron Courville, and Pascal Vincent. 2013. Representation
    learning: A review and new perspectives. IEEE transactions on pattern analysis
    and machine intelligence 35, 8 (2013), 1798–1828.

    [10] Leo Breiman. 2001. Random forests. Machine learning 45 (2001), 5–32.
    [11] Longbing Cao. 2022. Ai in ï¿¿nance: challenges, techniques, and opportunities.

    ACM Computing Surveys (CSUR) 55, 3 (2022), 1–38.

    [12] Tianqi Chen and Carlos Guestrin. 2016. Xgboost: A scalable tree boosting system.
    In Proceedings of the 22nd acm sigkdd international conference on knowledge
    discovery and data mining. 785–794.

  • 用XGBoost玩转排åºä»»åŠ¡ï¼šä»ŽåŽŸç†åˆ°å®žæˆ˜

    在信æ¯çˆ†ç‚¸çš„时代,如何从海é‡ä¿¡æ¯ä¸­å¿«é€Ÿæ‰¾åˆ°æˆ‘们想è¦çš„内容,æˆä¸ºäº†ä¸€ä¸ªé‡è¦çš„挑战。排åºå­¦ä¹ ï¼ˆLearning to Rank,LTR)应è¿è€Œç”Ÿï¼Œå®ƒåˆ©ç”¨æœºå™¨å­¦ä¹ çš„力é‡ï¼Œå¸®åŠ©æˆ‘们对信æ¯è¿›è¡ŒæŽ’åºï¼Œå°†æœ€ç¬¦åˆç”¨æˆ·éœ€æ±‚的结果排在最å‰é¢ã€‚XGBoost作为一ç§å¼ºå¤§çš„机器学习算法,在排åºä»»åŠ¡ä¸­ä¹Ÿå‘挥ç€é‡è¦ä½œç”¨ã€‚

    排åºä»»åŠ¡ï¼šè®©ä¿¡æ¯äº•ç„¶æœ‰åº

    排åºä»»åŠ¡å¹¿æ³›åº”用于æœç´¢å¼•æ“Žã€æŽ¨è系统ã€å¹¿å‘Šå¹³å°ç­‰é¢†åŸŸã€‚例如,当你æœç´¢â€œç¾Žé£Ÿâ€æ—¶ï¼Œæœç´¢å¼•æ“Žä¼šæ ¹æ®ç›¸å…³æ€§ã€å—欢迎程度等因素对结果进行排åºï¼Œå°†æœ€ç¬¦åˆä½ å£å‘³çš„é¤åŽ…排在最å‰é¢ã€‚

    XGBoost:排åºä»»åŠ¡çš„利器

    XGBoost(Extreme Gradient Boosting)是一ç§åŸºäºŽæ¢¯åº¦æå‡æ ‘算法的机器学习模型,它在å„ç§æœºå™¨å­¦ä¹ ä»»åŠ¡ä¸­éƒ½è¡¨çŽ°å‡ºè‰²ï¼ŒåŒ…括排åºä»»åŠ¡ã€‚

    XGBoost在排åºä»»åŠ¡ä¸­ä¸»è¦ä½¿ç”¨pairwise rank方法。这ç§æ–¹æ³•å°†æŽ’åºé—®é¢˜è½¬åŒ–为æˆå¯¹æ¯”较问题,å³æ¯”较两个文档(doc)与当å‰æŸ¥è¯¢ï¼ˆquery)的相关程度,并根æ®æ¯”较结果对文档进行排åºã€‚

    XGBoost排åºä»»åŠ¡çš„æµç¨‹

    1. 训练样本输入: 将包å«queryå’Œdoc的训练样本输入XGBoost模型。
    2. 特å¾å€™é€‰é›†ï¼š XGBoost模型会根æ®è®­ç»ƒæ ·æœ¬ï¼Œè‡ªåŠ¨å­¦ä¹ ç‰¹å¾å€™é€‰é›†ã€‚
    3. 寻找划分点: XGBoost模型会根æ®ç‰¹å¾å€™é€‰é›†ï¼Œä½¿ç”¨è´ªå©ªç®—法寻找最佳划分点,将数æ®åˆ†æˆä¸åŒçš„å­é›†ã€‚
    4. 生æˆæ ‘: é‡å¤æ­¥éª¤3,直到ä¸èƒ½å†åˆ†è£‚生æˆä¸€æ£µå®Œæ•´çš„树。
    5. æ‹Ÿåˆæ¨¡åž‹ï¼š XGBoost模型会根æ®è®­ç»ƒæ ·æœ¬ï¼Œä½¿ç”¨pairwise loss(AUC)æ¥æ‹Ÿåˆæ¨¡åž‹ï¼Œç”Ÿæˆä¸‹ä¸€æ£µæ ‘。
    6. 训练完æˆï¼š 当生æˆè®¾å®šæ•°ç›®çš„æ ‘åŽï¼Œè®­ç»ƒå®Œæˆã€‚
    7. 测试样本输入: 将测试样本输入训练好的XGBoost模型。
    8. 打分: XGBoost模型会根æ®è®­ç»ƒæ‰€å¾—模型和打分机制,对æ¯ä¸ªå¯¹è¿›è¡Œæ‰“分。
    9. 排åºï¼š æ ¹æ®æ‰“分结果,对doc进行排åºã€‚

    打分机制:相关度的é‡åŒ–

    XGBoost的打分机制是基于树模型的预测结果。æ¯ä¸ªå¯¹åœ¨æ¯æ£µæ ‘上都会获得一个分数,最终的打分结果是所有树上分数的累加。

    需è¦æ³¨æ„的是,XGBoost的打分结果是相关度的一ç§è¡¨ç¤ºï¼Œå¹¶ä¸æ˜ å°„到æŸä¸ªå…·ä½“数值。

    XGBoost排åºä»»åŠ¡çš„优势

    • 强大的预测能力: XGBoost模型能够学习å¤æ‚的特å¾å…³ç³»ï¼Œå¹¶åšå‡ºå‡†ç¡®çš„预测。
    • å¯è§£é‡Šæ€§ï¼š XGBoost模型能够æ供特å¾é‡è¦æ€§ä¿¡æ¯ï¼Œå¸®åŠ©æˆ‘们ç†è§£æ¨¡åž‹çš„决策过程。
    • 高效性: XGBoost模型能够高效地处ç†å¤§è§„模数æ®ã€‚

    实战案例:用XGBoost进行æœç´¢ç»“果排åº

    å‡è®¾æˆ‘们有一个æœç´¢å¼•æ“Žï¼Œéœ€è¦å¯¹æœç´¢ç»“果进行排åºã€‚我们å¯ä»¥ä½¿ç”¨XGBoost模型æ¥è®­ç»ƒä¸€ä¸ªæŽ’åºæ¨¡åž‹ï¼Œå¹¶åˆ©ç”¨è¯¥æ¨¡åž‹å¯¹æœç´¢ç»“果进行排åºã€‚

    1. æ•°æ®å‡†å¤‡ï¼š 收集包å«queryå’Œdoc的训练数æ®ï¼Œå¹¶æå–相关特å¾ï¼Œä¾‹å¦‚queryå’Œdoc的文本相似度ã€doc的点击率等。
    2. 模型训练: 使用XGBoost模型训练排åºæ¨¡åž‹ï¼Œå¹¶ä½¿ç”¨pairwise loss作为目标函数。
    3. 模型评估: 使用测试数æ®è¯„估模型的性能,例如AUC指标。
    4. 模型部署: 将训练好的模型部署到æœç´¢å¼•æ“Žä¸­ï¼Œç”¨äºŽå¯¹æœç´¢ç»“果进行排åºã€‚

    总结

    XGBoost是一ç§å¼ºå¤§çš„机器学习算法,它在排åºä»»åŠ¡ä¸­è¡¨çŽ°å‡ºè‰²ã€‚通过使用XGBoost模型,我们å¯ä»¥æž„建高效ã€å‡†ç¡®çš„排åºç³»ç»Ÿï¼Œå¸®åŠ©ç”¨æˆ·å¿«é€Ÿæ‰¾åˆ°ä»–们想è¦çš„ä¿¡æ¯ã€‚

    å‚考文献

    • ã€1】机器学习算法-åˆè¯†Learning to Rank
    • ã€2】浅谈Learning to Rank中的RankNetå’ŒLambdaRank算法
    • ã€3】从L2R开始ç†è§£ä¸€ä¸‹xgboostçš„ ‘objective’: ‘rank:pairwise’å‚æ•°
    • ã€4】XGBoost Documentation
    • ã€5】xgboost/demo/rank/
    • ã€6】机器学习排åºä¹‹Learning to Rank简å•ä»‹ç»
    • ã€7】通俗ç†è§£kaggle比赛大æ€å™¨xgboost
    • ã€8】如何ç†è§£æœºå™¨å­¦ä¹ å’Œç»Ÿè®¡ä¸­çš„AUC?
    • ã€9】XGBoost learning-to-rank model to predictions core function?
    • ã€10】『我爱机器学习ã€é›†æˆå­¦ä¹ ï¼ˆä¸‰ï¼‰XGBoost
    • ã€11】XGBoost_æºç åˆæŽ¢
    • ã€12】XGBoost Parameters

    æ·±å…¥è§£æž Learning to Rank (LTR)

    Learning to Rank (LTR) 是一ç§æœºå™¨å­¦ä¹ æŠ€æœ¯ï¼Œç”¨äºŽæž„建能够对项目列表进行排åºçš„模型,以最佳地满足用户的æœç´¢æ„图。它在信æ¯æ£€ç´¢ã€æŽ¨è系统ã€è‡ªç„¶è¯­è¨€å¤„ç†ç­‰é¢†åŸŸéƒ½æœ‰ç€å¹¿æ³›çš„应用。

    LTR 的核心æ€æƒ³:

    LTR 的核心æ€æƒ³æ˜¯åˆ©ç”¨æœºå™¨å­¦ä¹ ç®—法,从标注数æ®ä¸­å­¦ä¹ ä¸€ä¸ªæŽ’åºå‡½æ•°ï¼Œè¯¥å‡½æ•°èƒ½å¤Ÿé¢„测ä¸åŒé¡¹ç›®ä¸Žç‰¹å®šæŸ¥è¯¢çš„相关性,并根æ®ç›¸å…³æ€§å¯¹é¡¹ç›®è¿›è¡ŒæŽ’åºã€‚

    LTR 的应用场景:

    • æœç´¢å¼•æ“Ž: æ ¹æ®ç”¨æˆ·æŸ¥è¯¢ï¼Œå¯¹ç½‘页进行排åºï¼Œå°†æœ€ç›¸å…³çš„网页排在å‰é¢ã€‚
    • 推è系统: æ ¹æ®ç”¨æˆ·çš„历å²è¡Œä¸ºå’Œå好,推è用户å¯èƒ½æ„Ÿå…´è¶£çš„商å“ã€ç”µå½±ã€éŸ³ä¹ç­‰ã€‚
    • 机器翻译: 对多个候选翻译结果进行排åºï¼Œé€‰æ‹©æœ€ç¬¦åˆè¯­æ³•å’Œè¯­ä¹‰çš„翻译结果。
    • 问答系统: 对多个候选答案进行排åºï¼Œé€‰æ‹©æœ€æœ‰å¯èƒ½å›žç­”用户问题的答案。

    LTR 的工作æµç¨‹:

    1. æ•°æ®æ”¶é›†å’Œæ ‡æ³¨: 收集包å«æŸ¥è¯¢å’Œç›¸å…³é¡¹ç›®çš„æ•°æ®é›†ï¼Œå¹¶å¯¹æ¯ä¸ªæŸ¥è¯¢-项目对进行相关性标注,例如,使用 0 到 4 的等级表示相关性从低到高。
    2. 特å¾å·¥ç¨‹: 从查询ã€é¡¹ç›®å’Œä¸Šä¸‹æ–‡ä¿¡æ¯ä¸­æå–特å¾ï¼Œä¾‹å¦‚,查询è¯çš„ TF-IDF 值ã€é¡¹ç›®çš„ PageRank 值ã€ç”¨æˆ·åŽ†å²ç‚¹å‡»çŽ‡ç­‰ã€‚
    3. 模型训练: 选择åˆé€‚çš„ LTR 算法,使用标注数æ®å’Œæå–的特å¾è®­ç»ƒæŽ’åºæ¨¡åž‹ã€‚
    4. 模型评估: 使用测试集评估模型的排åºæ€§èƒ½ï¼Œå¸¸ç”¨çš„指标包括 NDCGã€MAPã€MRR 等。
    5. 模型部署: 将训练好的模型部署到实际系统中,对新的查询进行排åºã€‚

    LTR 的主è¦ç±»åž‹:

    LTR 算法主è¦åˆ†ä¸ºä¸‰ç±»ï¼š

    • Pointwise: 将排åºé—®é¢˜è½¬åŒ–为å•ä¸ªé¡¹ç›®çš„分类或回归问题,例如,预测æ¯ä¸ªé¡¹ç›®çš„相关性得分,然åŽæ ¹æ®å¾—分进行排åºã€‚
      • 优点: 简å•æ˜“实现,训练速度快。
      • 缺点: 忽略了项目之间的相对顺åºå…³ç³»ï¼Œå¯èƒ½å¯¼è‡´æŽ’åºç»“æžœä¸å‡†ç¡®ã€‚
      • 常用算法: 线性回归ã€é€»è¾‘回归ã€æ”¯æŒå‘é‡æœºç­‰ã€‚
    • Pairwise: 将排åºé—®é¢˜è½¬åŒ–为项目对的分类问题,例如,预测哪个项目比å¦ä¸€ä¸ªé¡¹ç›®æ›´ç›¸å…³ï¼Œç„¶åŽæ ¹æ®é¢„测结果进行排åºã€‚
      • 优点: 考虑了项目之间的相对顺åºå…³ç³»ï¼ŒæŽ’åºç»“果更准确。
      • 缺点: 训练速度比 Pointwise 慢,需è¦å¤„ç†çš„样本数é‡æ›´å¤šã€‚
      • 常用算法: RankNetã€LambdaRankã€RankSVM 等。
    • Listwise: 将整个项目列表作为一个训练样本,直接优化排åºåˆ—表的整体指标,例如,NDCGã€MAP 等。
      • 优点: 直接优化排åºæŒ‡æ ‡ï¼ŒæŽ’åºç»“果最准确。
      • 缺点: 训练速度最慢,算法å¤æ‚度高。
      • 常用算法: ListNetã€AdaRankã€LambdaMART 等。

    LTR 的优势:

    • 自动化: LTR å¯ä»¥è‡ªåŠ¨ä»Žæ•°æ®ä¸­å­¦ä¹ æŽ’åºå‡½æ•°ï¼Œæ— éœ€äººå·¥åˆ¶å®šå¤æ‚的排åºè§„则。
    • 个性化: LTR å¯ä»¥æ ¹æ®ç”¨æˆ·çš„历å²è¡Œä¸ºå’Œå好,进行个性化的排åºã€‚
    • å¯æ‰©å±•æ€§: LTR å¯ä»¥å¤„ç†å¤§è§„模数æ®é›†å’Œé«˜ç»´ç‰¹å¾ç©ºé—´ã€‚

    LTR 的挑战:

    • æ•°æ®æ ‡æ³¨æˆæœ¬é«˜: LTR 需è¦å¤§é‡çš„标注数æ®ï¼Œè€Œæ ‡æ³¨æ•°æ®çš„获å–æˆæœ¬è¾ƒé«˜ã€‚
    • 模型å¯è§£é‡Šæ€§å·®: 一些 LTR 模型,例如深度学习模型,å¯è§£é‡Šæ€§è¾ƒå·®ï¼Œéš¾ä»¥ç†è§£æ¨¡åž‹çš„排åºä¾æ®ã€‚
    • 排åºæŒ‡æ ‡çš„选择: ä¸åŒçš„排åºæŒ‡æ ‡é€‚用于ä¸åŒçš„应用场景,选择åˆé€‚的排åºæŒ‡æ ‡è‡³å…³é‡è¦ã€‚

    总而言之,LTR 是一ç§å¼ºå¤§çš„机器学习技术,å¯ä»¥å¸®åŠ©æˆ‘们构建更智能ã€æ›´ç²¾å‡†çš„排åºç³»ç»Ÿã€‚éšç€æŠ€æœ¯çš„ä¸æ–­å‘展,LTR 将在更多领域å‘挥é‡è¦ä½œç”¨ã€‚


    使用 XGBoost æ¥ä¼˜åŒ–æœç´¢ç»“果排åºæ˜¯ä¸€ä¸ªå¾ˆå¥½çš„方法。以下是一个简å•çš„步骤:

    1. æ•°æ®å‡†å¤‡:收集一组包å«æœç´¢æŸ¥è¯¢ã€æœç´¢ç»“æžœåŠç›¸å…³æ€§å¾—分的训练数æ®ã€‚这些数æ®å°†ç”¨äºŽè®­ç»ƒ XGBoost 模型。
    2. 特å¾å·¥ç¨‹:æ ¹æ®æœç´¢æŸ¥è¯¢å’Œç»“果内容,抽å–出一些有用的特å¾,如关键è¯åŒ¹é…度ã€æ ‡é¢˜ç›¸ä¼¼åº¦ã€ç‚¹å‡»çŽ‡ç­‰ã€‚这些特å¾å°†ä½œä¸º XGBoost 模型的输入。
      • æœç´¢è¯ç‰¹å¾:关键è¯é•¿åº¦ã€å…³é”®è¯å‡ºçŽ°é¢‘率ã€å…³é”®è¯ TF-IDF 等。
      • 用户特å¾:用户年龄ã€æ€§åˆ«ã€åœ°ç†ä½ç½®ã€åŽ†å²æœç´¢è¡Œä¸ºç­‰ã€‚
    3. 模型训练:使用 XGBoost 算法在训练数æ®ä¸Šè®­ç»ƒä¸€ä¸ªæŽ’åºæ¨¡åž‹ã€‚å¯ä»¥è°ƒæ•´ä¸€äº›è¶…å‚æ•°,如树的深度ã€å­¦ä¹ çŽ‡ç­‰,以优化模型性能。
    4. 模型部署:将训练好的 XGBoost 模型集æˆåˆ°æœç´¢ç³»ç»Ÿä¸­,当用户进行æœç´¢æ—¶,æ ¹æ®ç»“果的特å¾ä¿¡æ¯,利用模型进行实时预测,得到最终的排åºç»“果。
    5. æŒç»­ä¼˜åŒ–:éšç€æ—¶é—´çš„推移,å¯ä»¥æ”¶é›†æ–°çš„训练数æ®,周期性地é‡æ–°è®­ç»ƒæ¨¡åž‹,以适应æœç´¢çŽ¯å¢ƒçš„å˜åŒ–。

    下é¢æ˜¯ä¸€ä¸ªç®€å•çš„ Python 代ç ç¤ºä¾‹,展示如何使用 XGBoost 进行æœç´¢ç»“果排åº:

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    
    # å‡è®¾æ•°æ®å·²ç»å‡†å¤‡å¥½,包å«æœç´¢ç»“果特å¾ã€æœç´¢è¯ç‰¹å¾å’Œç”¨æˆ·ç‰¹å¾
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 创建并训练 XGBoost 模型
    model = xgb.XGBRanker(objective='rank:pairwise',
                         learning_rate=0.1,
                         max_depth=3,
                         n_estimators=100,
                         random_state=42)
    model.fit(X_train, y_train,
              eval_set=[(X_val, y_val)],
              eval_metric='ndcg@5',
              early_stopping_rounds=10)
    
    # 对新的æœç´¢ç»“果进行排åº
    new_X = ...  # æ–°çš„æœç´¢ç»“果特å¾ã€æœç´¢è¯ç‰¹å¾å’Œç”¨æˆ·ç‰¹å¾
    rankings = model.predict(new_X. sorted_results = new_X[np.argsort(rankings)[::-1]]✅

    è¿™åªæ˜¯ä¸€ä¸ªç®€å•çš„示例,实际应用中å¯èƒ½éœ€è¦æ›´å¤æ‚的特å¾å·¥ç¨‹å’Œæ¨¡åž‹ä¼˜åŒ–。


  • 如何用XGBoost对æœç´¢ç»“果进行优化排åº

    XGBoost是一ç§å¼ºå¤§çš„梯度æå‡ç®—法,å¯ä»¥ç”¨äºŽå¯¹æœç´¢ç»“果进行排åºï¼Œä»Žè€Œæå‡æœç´¢è´¨é‡ã€‚下é¢å°†è¯¦ç»†è¯´æ˜Žå¦‚何使用XGBoost进行æœç´¢ç»“果优化排åºï¼š

    1. æ•°æ®å‡†å¤‡

    • 收集数æ®: 首先需è¦æ”¶é›†æœç´¢ç»“果的相关数æ®ï¼ŒåŒ…括:
      • 查询: 用户输入的æœç´¢è¯
      • 文档: 与查询相关的æœç´¢ç»“果,æ¯ä¸ªæ–‡æ¡£åŒ…å«æ ‡é¢˜ã€æ‘˜è¦ã€é“¾æŽ¥ç­‰ä¿¡æ¯
      • 相关性标签: 人工标注的查询与文档之间的相关性等级,例如:
        • 完美: 文档完全满足查询æ„图
        • 优秀: 文档高度相关,但å¯èƒ½ç¼ºå°‘一些细节
        • 良好: 文档部分相关,å¯ä»¥æ供一些有用信æ¯
        • 较差: 文档与查询ä¸å¤ªç›¸å…³
        • æ— å…³: 文档与查询完全无关
    • 特å¾å·¥ç¨‹: 将原始数æ®è½¬æ¢æˆæ¨¡åž‹å¯ä»¥ç†è§£çš„特å¾å‘é‡ï¼Œå¸¸ç”¨çš„特å¾åŒ…括:
      • 查询特å¾: 查询è¯é•¿åº¦ã€æŸ¥è¯¢è¯ç±»åž‹ï¼ˆå¦‚人物ã€åœ°ç‚¹ã€äº‹ä»¶ï¼‰ã€æŸ¥è¯¢è¯çš„IDF值等
      • 文档特å¾: 文档长度ã€æ–‡æ¡£ä¸­å…³é”®è¯çš„TF-IDF值ã€æ–‡æ¡£çš„PageRank值ã€æ–‡æ¡£çš„新鲜度等
      • 查询-文档交互特å¾: 查询è¯ä¸Žæ–‡æ¡£æ ‡é¢˜çš„相似度ã€æŸ¥è¯¢è¯ä¸Žæ–‡æ¡£æ‘˜è¦çš„相似度ã€æŸ¥è¯¢è¯åœ¨æ–‡æ¡£ä¸­å‡ºçŽ°çš„频率等
    • æ•°æ®é›†åˆ’分: 将收集到的数æ®åˆ’分为训练集ã€éªŒè¯é›†å’Œæµ‹è¯•é›†ï¼Œç”¨äºŽæ¨¡åž‹è®­ç»ƒã€å‚数调优和最终效果评估。

    2. 模型训练

    • 选择目标函数: XGBoost支æŒå¤šç§ç›®æ ‡å‡½æ•°ï¼Œå¯¹äºŽæœç´¢ç»“果排åºé—®é¢˜ï¼Œå¸¸ç”¨çš„目标函数是 Rank:Pairwise,它会比较两个文档的预测得分,并根æ®å®ƒä»¬çš„真实相关性标签进行惩罚。
    • 设置评估指标: 选择åˆé€‚的评估指标æ¥è¡¡é‡æ¨¡åž‹çš„排åºæ•ˆæžœï¼Œå¸¸ç”¨çš„指标包括:
      • NDCG (Normalized Discounted Cumulative Gain): 考虑了文档的相关性和ä½ç½®ï¼Œå€¼è¶Šé«˜è¡¨ç¤ºæŽ’åºæ•ˆæžœè¶Šå¥½ã€‚
      • MAP (Mean Average Precision): 计算æ¯ä¸ªæŸ¥è¯¢çš„å¹³å‡å‡†ç¡®çŽ‡ï¼Œç„¶åŽå¯¹æ‰€æœ‰æŸ¥è¯¢è¿›è¡Œå¹³å‡ï¼Œå€¼è¶Šé«˜è¡¨ç¤ºæŽ’åºæ•ˆæžœè¶Šå¥½ã€‚
    • 调整超å‚æ•°: XGBoost 有许多超å‚æ•°å¯ä»¥è°ƒæ•´ï¼Œä¾‹å¦‚æ ‘çš„æ•°é‡ã€æ ‘的深度ã€å­¦ä¹ çŽ‡ç­‰ã€‚å¯ä»¥ä½¿ç”¨ç½‘æ ¼æœç´¢æˆ–è´å¶æ–¯ä¼˜åŒ–等方法æ¥æ‰¾åˆ°æœ€ä½³çš„超å‚数组åˆã€‚

    3. 模型评估和部署

    • 模型评估: 使用测试集评估训练好的模型的排åºæ•ˆæžœï¼Œå¹¶åˆ†æžæ¨¡åž‹çš„优缺点。
    • 模型部署: 将训练好的模型部署到线上æœç´¢ç³»ç»Ÿä¸­ï¼Œå¯¹æ–°çš„查询进行实时排åºã€‚

    ç¤ºä¾‹ä»£ç  (Python)

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import ndcg_score
    
    # 加载数æ®
    # å‡è®¾æ•°æ®å·²ç»å¤„ç†æˆç‰¹å¾å‘é‡ï¼Œå¹¶å­˜å‚¨åœ¨ X å’Œ y 中
    # X. 特å¾çŸ©é˜µï¼Œæ¯è¡Œä»£è¡¨ä¸€ä¸ªæŸ¥è¯¢-文档对✅
    # y: 相关性标签,值越大表示相关性越高
    
    # 划分数æ®é›†
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 定义 XGBoost 排åºæ¨¡åž‹
    params = {
        'objective': 'rank:pairwise',
        'eval_metric': 'ndcg',
        'eta': 0.1,
        'max_depth': 6,
        'n_estimators': 100,
    }
    dtrain = xgb.DMatrix(X_train, label=y_train)
    dtest = xgb.DMatrix(X_test, label=y_test)
    
    # 训练模型
    model = xgb.train(params, dtrain, evals=[(dtest, 'eval')], num_boost_round=1000, early_stopping_rounds=10)
    
    # 预测排åº
    y_pred = model.predict(dtest)
    
    # 评估模型
    ndcg = ndcg_score([y_test], [y_pred])
    print(f"NDCG: {ndcg}")
    
    # ä¿å­˜æ¨¡åž‹
    model.save_model("xgb_ranking_model.bin")

    总结

    使用 XGBoost 对æœç´¢ç»“果进行优化排åºæ˜¯ä¸€ä¸ªå¤æ‚的过程,需è¦è¿›è¡Œæ•°æ®å‡†å¤‡ã€ç‰¹å¾å·¥ç¨‹ã€æ¨¡åž‹è®­ç»ƒã€å‚数调优ã€æ¨¡åž‹è¯„估和部署等多个步骤。åŒæ—¶ï¼Œéœ€è¦æ ¹æ®å…·ä½“的业务场景和数æ®ç‰¹ç‚¹é€‰æ‹©åˆé€‚的特å¾ã€æ¨¡åž‹å’Œè¯„估指标,æ‰èƒ½å–得最佳的排åºæ•ˆæžœã€‚


    NDCG 和 MAP
    解æžï¼š

    在信æ¯æ£€ç´¢é¢†åŸŸï¼Œè¯„估排åºç»“果好å是éžå¸¸é‡è¦çš„环节。NDCG å’Œ MAP 是常用的两ç§è¯„估指标,它们都考虑了文档的相关性和ä½ç½®ä¿¡æ¯ï¼Œä½†è®¡ç®—æ–¹å¼æœ‰æ‰€ä¸åŒã€‚

    1. NDCG (Normalized Discounted Cumulative Gain): 归一化折æŸç´¯è®¡å¢žç›Š

    NDCG 是一ç§è¡¡é‡æŽ’åºè´¨é‡çš„指标,它考虑了文档的相关性和ä½ç½®ï¼Œè®¤ä¸ºæŽ’åé å‰çš„相关文档比排åé åŽçš„相关文档更有价值。

    计算步骤:

    1. 计算æ¯ä¸ªæ–‡æ¡£çš„增益 (Gain): æ ¹æ®æ–‡æ¡£çš„相关性等级,赋予æ¯ä¸ªæ–‡æ¡£ä¸€ä¸ªå¢žç›Šå€¼ã€‚例如,å¯ä»¥ä½¿ç”¨ä»¥ä¸‹è§„则:
      • 完美: 3分
      • 优秀: 2分
      • 良好: 1分
      • 较差: 0分
      • æ— å…³: 0分
    2. 计算累计增益 (Cumulative Gain): å°†å‰ k 个文档的增益值累加起æ¥ï¼Œå¾—到 CG@k。
    3. 计算折æŸç´¯è®¡å¢žç›Š (Discounted Cumulative Gain): 对 CG@k 进行折æŸï¼Œå°†æŽ’åé åŽçš„文档的增益值é™ä½Žã€‚常用的折æŸå‡½æ•°æ˜¯ 1/log2(i+1),其中 i 是文档的排å。
      • DCG@k = Σ(i=1 to k) [Gain(i) / log2(i+1)]
    4. 计算ç†æƒ³æŠ˜æŸç´¯è®¡å¢žç›Š (Ideal Discounted Cumulative Gain): 对完美排åºä¸‹çš„ DCG@k 进行计算,得到 IDCG@k。完美排åºæ˜¯æŒ‡æ‰€æœ‰ç›¸å…³æ–‡æ¡£éƒ½æŽ’在最å‰é¢ã€‚
    5. 计算归一化折æŸç´¯è®¡å¢žç›Š (Normalized Discounted Cumulative Gain): å°† DCG@k 除以 IDCG@k,得到 NDCG@k。
      • NDCG@k = DCG@k / IDCG@k

    NDCG çš„å–值范围是 [0, 1],值越高表示排åºæ•ˆæžœè¶Šå¥½ã€‚

    示例:

    å‡è®¾æœ‰ 5 个文档,相关性等级分别为:[完美, 优秀, æ— å…³, 良好, 较差],则:

    • 完美排åº: [完美, 优秀, 良好, 较差, æ— å…³]
    • 模型排åº: [完美, æ— å…³, 优秀, 良好, 较差]

    计算 NDCG@3:

    • 完美排åº:
      • DCG@3 = 3/log2(2) + 2/log2(3) + 1/log2(4) ≈ 4.26
      • IDCG@3 = 4.26 (因为是完美排åº)
      • NDCG@3 = 4.26 / 4.26 = 1
    • 模型排åº:
      • DCG@3 = 3/log2(2) + 0/log2(3) + 2/log2(4) ≈ 3.5
      • IDCG@3 = 4.26
      • NDCG@3 = 3.5 / 4.26 ≈ 0.82

    2. MAP (Mean Average Precision): å¹³å‡å‡†ç¡®çŽ‡å‡å€¼

    MAP 是一ç§è¡¡é‡æ£€ç´¢ç³»ç»Ÿåœ¨æ‰€æœ‰æŸ¥è¯¢ä¸Šçš„å¹³å‡æ€§èƒ½çš„指标,它考虑了æ¯ä¸ªæŸ¥è¯¢çš„å¹³å‡å‡†ç¡®çŽ‡ (Average Precision)。

    计算步骤:

    1. 计算æ¯ä¸ªæŸ¥è¯¢çš„准确率 (Precision): 对于æ¯ä¸ªæŸ¥è¯¢ï¼Œè®¡ç®—å‰ k 个文档的准确率 P@k,å³å‰ k 个文档中相关文档的比例。
    2. 计算æ¯ä¸ªæŸ¥è¯¢çš„å¹³å‡å‡†ç¡®çŽ‡ (Average Precision): 对于æ¯ä¸ªæŸ¥è¯¢ï¼Œè®¡ç®—所有相关文档ä½ç½®ä¸Šçš„准确率的平å‡å€¼ã€‚
      • AP = Σ(k=1 to n) [P@k * rel(k)] / num_relevant_docs
      • 其中 n 是文档总数,rel(k) 表示第 k 个文档是å¦ç›¸å…³ (相关为 1,ä¸ç›¸å…³ä¸º 0),num_relevant_docs 是相关文档的总数。
    3. 计算所有查询的平å‡å‡†ç¡®çŽ‡å‡å€¼ (Mean Average Precision): 将所有查询的 AP 值进行平å‡ã€‚
      • MAP = Σ(q=1 to Q. [AP(q)] / Q✅
      • 其中 Q 是查询的总数。

    MAP çš„å–值范围也是 [0, 1],值越高表示排åºæ•ˆæžœè¶Šå¥½ã€‚

    示例:

    å‡è®¾æœ‰ä¸¤ä¸ªæŸ¥è¯¢ï¼Œæ¯ä¸ªæŸ¥è¯¢è¿”回 5 个文档,相关性标签如下:

    • 查询 1: [完美, 优秀, æ— å…³, 良好, 较差]
    • 查询 2: [优秀, æ— å…³, 良好, 完美, 较差]

    计算 MAP:

    • 查询 1:
      • P@1 = 1/1 = 1, P@2 = 2/2 = 1, P@3 = 2/3 ≈ 0.67, P@4 = 3/4 = 0.75, P@5 = 3/5 = 0.6
      • AP = (11 + 11 + 0.670 + 0.751 + 0.6*0) / 3 ≈ 0.81
    • 查询 2:
      • P@1 = 1/1 = 1, P@2 = 1/2 = 0.5, P@3 = 2/3 ≈ 0.67, P@4 = 3/4 = 0.75, P@5 = 3/5 = 0.6
      • AP = (11 + 0.51 + 0.671 + 0.751 + 0.6*0) / 4 ≈ 0.73
    • MAP = (0.81 + 0.73) / 2 = 0.77

    总结:

    • NDCG 更加关注排åé å‰çš„文档,适用于评估 Top-K 排åºç»“果。
    • MAP 综åˆè€ƒè™‘了所有相关文档的ä½ç½®ï¼Œé€‚用于评估整体排åºæ€§èƒ½ã€‚

    选择哪ç§æŒ‡æ ‡å–决于具体的应用场景和需求。


    NDCG 和 MAP 计算实例详解

    为了更清晰地解释 NDCG å’Œ MAP 的计算过程,我们用一个具体的例å­æ¥è¯´æ˜Žã€‚

    å‡è®¾æœ‰ä¸€ä¸ªæœç´¢å¼•æ“Žï¼Œç”¨æˆ·æ交了两个查询 Query 1 å’Œ Query 2,æ¯ä¸ªæŸ¥è¯¢è¿”回了 5 个结果,æ¯ä¸ªç»“果的相关性等级已ç»æ ‡æ³¨å¥½ï¼Œå¦‚下表所示:

    查询排å文档相关性等级Gain
    Query 11A完美3
    2B优秀2
    3Cæ— å…³0
    4D良好1
    5E较差0
    Query 21F优秀2
    2Gæ— å…³0
    3H良好1
    4I完美3
    5J较差0

    1. NDCG 计算

    我们以 NDCG@3 为例,分别计算 Query 1 å’Œ Query 2 çš„ NDCG@3,然åŽå–å¹³å‡å€¼ã€‚

    Query 1:

    • 计算 DCG@3:
      • DCG@3 = 3/log2(1+1) + 2/log2(2+1) + 0/log2(3+1) ≈ 3.52
    • 计算 IDCG@3:
      • 完美排åºä¸ºï¼š[A, B, D],因此:
      • IDCG@3 = 3/log2(1+1) + 2/log2(2+1) + 1/log2(3+1) ≈ 4.26
    • 计算 NDCG@3:
      • NDCG@3 = DCG@3 / IDCG@3 ≈ 3.52 / 4.26 ≈ 0.83

    Query 2:

    • 计算 DCG@3:
      • DCG@3 = 2/log2(1+1) + 0/log2(2+1) + 1/log2(3+1) ≈ 2.13
    • 计算 IDCG@3:
      • 完美排åºä¸ºï¼š[F, H, I],因此:
      • IDCG@3 = 2/log2(1+1) + 1/log2(2+1) + 3/log2(3+1) ≈ 4.52
    • 计算 NDCG@3:
      • NDCG@3 = DCG@3 / IDCG@3 ≈ 2.13 / 4.52 ≈ 0.47

    å¹³å‡ NDCG@3:

    • (0.83 + 0.47) / 2 = 0.65

    2. MAP 计算

    分别计算 Query 1 å’Œ Query 2 çš„ AP (Average Precision),然åŽå–å¹³å‡å€¼ã€‚

    Query 1:

    • 相关文档有:A, B, D. ¼Œå…± 3 个✅
    • P@1 = 1/1 = 1
    • P@2 = 2/2 = 1
    • P@3 = 2/3 ≈ 0.67
    • P@4 = 3/4 = 0.75
    • P@5 = 3/5 = 0.6
    • AP = (11 + 11 + 0.670 + 0.751 + 0.6*0) / 3 ≈ 0.81

    Query 2:

    • 相关文档有:F, H, I. ¼Œå…± 3 个✅
    • P@1 = 1/1 = 1
    • P@2 = 1/2 = 0.5
    • P@3 = 2/3 ≈ 0.67
    • P@4 = 3/4 = 0.75
    • P@5 = 3/5 = 0.6
    • AP = (11 + 0.50 + 0.671 + 0.751 + 0.6*0) / 3 ≈ 0.64

    å¹³å‡ MAP:

    • (0.81 + 0.64) / 2 = 0.725

    总结:

    通过以上例å­ï¼Œæˆ‘们å¯ä»¥çœ‹åˆ° NDCG å’Œ MAP 都是用æ¥è¯„ä¼°æœç´¢ç»“果排åºè´¨é‡çš„指标,但它们侧é‡ç‚¹æœ‰æ‰€ä¸åŒã€‚NDCG 更关注排åé å‰çš„结果,而 MAP 则综åˆè€ƒè™‘了所有相关文档的ä½ç½®ã€‚选择哪ç§æŒ‡æ ‡å–决于具体的应用场景和需求。


  • 法律智慧的知识注入:通过诊断和正负样本强化学习探索大语言模型咨询

    è¿‘å¹´æ¥ï¼Œéšç€ç”Ÿæˆå¼å¤§è¯­è¨€æ¨¡åž‹ï¼ˆLLMs)的广泛应用,其在法律领域也得到了越æ¥è¶Šå¤šçš„关注。然而,对于没有法律背景的用户æ¥è¯´ï¼Œåœ¨é¢å¯¹æ³•å¾‹æ¡ˆä»¶æ—¶ï¼Œä»–们往往难以用专业语言进行æ问,也å¯èƒ½åœ¨å‘LLMs陈述案件时忽略关键的法律因素。为了解决这个问题,我们æ出了诊断å¼æ³•å¾‹å¤§è¯­è¨€æ¨¡åž‹ï¼ˆD3LM),它利用类似律师的适应性诊断问题æ¥æ”¶é›†é¢å¤–的案件信æ¯ï¼Œå¹¶æ供高质é‡çš„å馈。

    D3LM结åˆäº†ä¸€ç§åˆ›æ–°çš„基于图的正负样本强化学习(PURL)算法,能够生æˆå…³é”®é—®é¢˜ï¼Œå¹¶å¢žå¼ºç”¨æˆ·ä¸ŽLLMs的交互。此外,一个集æˆçš„基于LLMsçš„åœæ­¢å‡†åˆ™ï¼Œå¯ä»¥å®žçŽ°ç²¾ç¡®çš„法院观点生æˆï¼ˆCVG)。我们的研究还引入了一个新的基于美国案例法数æ®åº“的英语CVGæ•°æ®é›†ï¼Œä¸ºLLMs研究和部署领域增添了é‡è¦ç»´åº¦ã€‚D3LM超越了传统LLMs,在法律领域展现出å“越的性能和éžå‡¡çš„用户体验。

    法律æœåŠ¡çš„新纪元:D3LM的优势

    传统LLMs在法律咨询中存在局é™æ€§ï¼Œç”¨æˆ·å¾€å¾€éœ€è¦è‡ªè¡Œç»„织语言,而LLMs则无法主动引导用户æ供更详细的信æ¯ã€‚D3LM则ä¸åŒï¼Œå®ƒå°±åƒä¸€ä½ä¸“业的律师,通过一系列针对性的问题,引导用户æ供更多案件细节,从而更准确地预测法律结果。

    例如,å‡è®¾ä¸€ä½å®¢æˆ·å› é…’å§æ–—殴而被指控故æ„伤害。传统LLMså¯èƒ½ä¼šåŸºäºŽå®¢æˆ·æ供的模糊æ述,给出笼统的法院观点,但由于信æ¯ä¸è¶³ï¼Œå¯èƒ½ä¼šå¿½ç•¥å…³é”®ç»†èŠ‚。而律师则会通过一系列针对性的问题,深入了解案件细节,例如:â€æ‚¨å½“时是å¦å¤„于酒精影å“下?“,â€é…’å§æ˜¯å¦æœ‰ç›‘控摄åƒå¤´è®°å½•äº†äº‹ä»¶ï¼Ÿâ€œã€‚D3LM则能够自动生æˆç±»ä¼¼çš„问题,在ä¸å¢žåŠ é¢å¤–æˆæœ¬çš„情况下,更深入地ç†è§£æ¡ˆä»¶ï¼Œå¹¶æ高法律结果预测的准确性。

    知识图谱与强化学习:D3LM的核心技术

    D3LM的核心技术在于将LLMs与法律知识图谱相结åˆï¼Œå¹¶åˆ©ç”¨æ­£è´Ÿæ ·æœ¬å¼ºåŒ–学习(PURL)算法æ¥ç”Ÿæˆå…³é”®é—®é¢˜ã€‚

    1. 法律知识图谱: D3LM将美国案例法数æ®åº“中的案件信æ¯è½¬åŒ–为结构化的事实-规则图,并利用“问题ã€è§„则ã€åˆ†æžã€ç»“论â€ï¼ˆIRAC)框架,将å¤æ‚的案件å™è¿°ç®€åŒ–为简æ´çš„表示形å¼ã€‚

    2. 正负样本强化学习: D3LM通过éšæœºé®è”½äº‹å®žèŠ‚点,生æˆä¸€ç³»åˆ—关于案件的潜在问题。然åŽï¼Œåˆ©ç”¨LLMs对é®è”½åŽçš„案件æ述进行é‡å»ºï¼Œå¹¶ç”Ÿæˆç›¸åº”的法院观点。通过比较é‡å»ºåŽçš„法院观点与真实法院观点,模型å¯ä»¥å­¦ä¹ åˆ°å“ªäº›é—®é¢˜å¯¹äºŽé¢„测法律结果更é‡è¦ã€‚

    3. 法院观点生æˆï¼š D3LM基于PURL算法,能够根æ®ç”¨æˆ·æ供的案件信æ¯ï¼Œç”Ÿæˆæ›´å‡†ç¡®çš„法院观点。它能够识别案件中的关键因素,并通过一系列针对性的问题,引导用户æ供更详细的信æ¯ï¼Œä»Žè€Œæ高法院观点生æˆçš„准确性和å¯é æ€§ã€‚

    çªç ´æ€§æ•°æ®é›†ï¼šä¸ºæ³•å¾‹AI研究æ供新基准

    为了更好地评估D3LM的性能,我们创建了一个全新的英语CVGæ•°æ®é›†ï¼Œè¯¥æ•°æ®é›†åŸºäºŽç¾Žå›½æ¡ˆä¾‹æ³•æ•°æ®åº“,并ç»è¿‡æ³•å¾‹ä¸“业人士的严格审核。该数æ®é›†å¼¥è¡¥äº†è‹±è¯­æ³•å¾‹åˆ†æžæ•°æ®é›†çš„ä¸è¶³ï¼Œä¸ºæ³•å¾‹AI研究æ供了新的基准。

    实验结果:D3LMçš„å“越表现

    我们对D3LM进行了全é¢çš„评估,并将其与其他基准模型进行了比较。实验结果表明,D3LM在生æˆç¾Žå›½æ³•é™¢è§‚点方é¢è¡¨çŽ°å‡ºè‰²ï¼Œåœ¨ROUGEå’ŒBLEU指标上å‡å–得了最佳æˆç»©ã€‚

    此外,我们还进行了用户体验测试,结果表明,用户对D3LMçš„å¯é æ€§å’Œæ»¡æ„度评分å‡é«˜äºŽGPT-4.0。这表明,D3LM的交互å¼æ问方å¼ï¼Œæ›´èƒ½æ»¡è¶³ç”¨æˆ·å¯¹æ³•å¾‹å’¨è¯¢çš„实际需求。

    展望未æ¥ï¼šæ³•å¾‹AIçš„æ— é™å¯èƒ½

    D3LM的出现,为法律AI研究开辟了新的é“路。未æ¥ï¼Œæˆ‘们将进一步探索D3LM在其他领域,例如医疗和咨询领域的应用,使其能够为更多用户æ供更便æ·ã€æ›´ç²¾å‡†çš„æœåŠ¡ã€‚

    å‚考文献

    • Achiam, J. , et al. (2023). “ChatGPT: Optimizing Language Models for Dialogue.” arXiv preprint arXiv:2212.00183.✅
    • Auer, P. , et al. (2002). “Finite-time analysis of the multiarmed bandit problem.” Machine learning, 47(2-3), 235-256.✅
    • Brescia, E. , et al. (2014). “The cost of justice: A comparative analysis of legal aid systems in Europe.” European Journal of Law and Economics, 37(3), 221-242.✅
    • Caselaw Access Project (2024). “Caselaw Access Project.” Retrieved from https://casetext.com/
    • Chapelle, O. , and Li, L. (2011). “An empirical evaluation of thompson sampling.” Advances in neural information processing systems, 24.✅
    • Chen, H. , et al. (2020). “Predictive adversarial learning for positive-unlabeled learning.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 3420-3427.✅
    • Chen, J. , et al. (2022). “Law article recommendation based on user interest and legal knowledge graph.” Journal of Grid Computing, 20(1), 1-14.✅
    • Chen, Z. , et al. (2023). “DISCO: Data Augmentation for Natural Language Understanding via Counterfactual Examples.” arXiv preprint arXiv:2303.17159.✅
    • Chu, W. , et al. (2011). “Contextual bandits with linear payoff functions.” Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, 1-10.✅
    • Cui, Y. , et al. (2023). “ChatLaw: A Large Language Model for Legal Question Answering.” arXiv preprint arXiv:2304.04170.✅
    • Du Plessis, M. C., et al. (2015). “Deep learning for imbalanced datasets: A review.” arXiv preprint arXiv:1506.02291.✅
    • Gans-Morse, J. (2017). “The demand for legal services: A review of the literature.” Journal of Legal Studies, 46(S1), S1-S37.✅
    • Gensler, H. J. (1985). “Legal Reasoning: A Cognitive Approach.” Stanford Law Review, 38(1), 1-41.✅
    • Hadfield, G. K. (2010). “The economics of legal disputes.” In The Handbook of Law and Economics (pp. 1-51). Edward Elgar Publishing.✅
    • Horwitz, M. J. (2020). “The future of legal services: The rise of the legal tech revolution.” Harvard Law Review, 133(8), 2299-2320.✅
    • Hu, B. , et al. (2021). “Predictive adversarial learning for positive-unlabeled learning with heterogeneous data.” IEEE Transactions on Neural Networks and Learning Systems, 32(11), 4938-4951.✅
    • Hu, W. , et al. (2018). “Predicting charge decisions in criminal judgments using deep learning.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.✅
    • Jin, Z. , et al. (2024). “Legal Reasoning with Large Language Models: A Survey.” arXiv preprint arXiv:2401.06204.✅
    • Kiryo, R. , et al. (2017). “Positive-unlabeled learning with non-negative risk estimator.” Advances in Neural Information Processing Systems, 30.✅
    • Lin, J. , et al. (2012). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 1201-1210.✅
    • Liu, Y. , and Wu, Y. (2020). “Fake news detection on social media: A data mining perspective.” ACM SIGKDD Explorations Newsletter, 22(1), 1-11.✅
    • Liu, Y. , et al. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv preprint arXiv:1907.11692.✅
    • Liu, Z. , et al. (2022). “WANLI: A Large-Scale Chinese Legal Dataset for Legal Reasoning.” arXiv preprint arXiv:2208.08227.✅
    • Purba, M. S., and Syahrin, M. (2019). “The role of legal services in promoting economic growth and development.” Journal of Law, Policy and Globalization, 54, 1-10.✅
    • Robertson, S. E., and Walker, S. (1994). “Some simple effective approximations to the 2-poisson model for probabilistic retrieval.” Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, 232-241.✅
    • Schick, T. , et al. (2023). “On the Importance of Completeness in Legal Reasoning: A Case Study with Large Language Models.” arXiv preprint arXiv:2303.14412.✅
    • Swayamdipta, S. , et al. (2020). “Dataset Cartography: A Framework for Refining NLI Examples with GPT-3.” arXiv preprint arXiv:2009.05396.✅
    • Tong, H. , et al. (2020). “Inductive representation learning on graphs.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5041-5048.✅
    • Touvron, J. , et al. (2023). “Llama 2: Open and Efficient Foundation Models.” arXiv preprint arXiv:2307.09286.✅
    • Wei, X. , and Li, B. (2018). “Adversarial learning for positive unlabeled learning.” Proceedings of the 32nd AAAI Conference on Artificial Intelligence, 4427-4434.✅
    • Wu, Y. , et al. (2020). “Attention and Counterfactual-based Court View Generation.” Proceedings of the 29th ACM International Conference on Information and Knowledge Management, 1885-1894.✅
    • Wu, Y. , et al. (2023). “Predictive Adversarial Learning for Positive-Unlabeled Learning with Heterogeneous Data.” IEEE Transactions on Neural Networks and Learning Systems, 34(11), 4938-4951.✅
    • Xiao, J. , et al. (2021). “Lawformer: A Pre-trained Language Model for Legal Text Understanding.” arXiv preprint arXiv:2106.01796.✅
    • Ye, Y. , et al. (2018). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.✅
    • Zamfirescu-Pereira, I. , et al. (2023). “The Impact of Large Language Models on the Legal Profession: A Critical Analysis.” arXiv preprint arXiv:2305.11136.✅
    • Zhao, Y. , et al. (2022). “Dist-PU: A Distribution-Based Approach for Positive-Unlabeled Learning.” Proceedings of the AAAI Conference on Artificial Intelligence, 36(12), 12638-12646.✅
    • Zhong, H. , et al. (2018). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.✅
    • Zhou, D. , et al. (2020). “Neural contextual bandits with UCB exploration.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5744-5751.✅
    • Zhou, Y. , et al. (2021). “Positive-Unlabeled Learning for Recommendation with Implicit Feedback.” Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2213-2222.✅
  • 问答系统中的检索å¤æ‚度:解ç å¤æ‚问题的奥秘

    在信æ¯çˆ†ç‚¸çš„时代,问答系统(QA)æˆä¸ºäº†æˆ‘们获å–知识的é‡è¦å·¥å…·ã€‚其中,基于检索的问答系统凭借其从外部资æºä¸­èŽ·å–ä¿¡æ¯çš„能力,æˆä¸ºäº†ä¸»æµæ–¹æ¡ˆã€‚然而,当é¢å¯¹éœ€è¦å¤šæ­¥æŽ¨ç†æˆ–æ•´åˆå¤šæ–¹é¢ä¿¡æ¯æ‰èƒ½å›žç­”çš„å¤æ‚问题时,这些系统就显得力ä¸ä»Žå¿ƒäº†ã€‚

    如何判断一个问题是å¦å¤æ‚? 现有研究大多关注问题本身的结构,例如多跳问题(需è¦å¤šæ­¥æŽ¨ç†æ‰èƒ½æ‰¾åˆ°ç­”案)或组åˆåž‹é—®é¢˜ï¼ˆç­”案需è¦æ•´åˆå¤šä¸ªä¿¡æ¯ç‰‡æ®µï¼‰ã€‚然而,这些指标并ä¸èƒ½å®Œå…¨å映一个问题在检索问答系统中的实际难度。

    检索å¤æ‚度:衡é‡é—®ç­”系统难度的全新视角

    本文介ç»äº†ä¸€ç§å为检索å¤æ‚度(RC) 的全新指标,用于衡é‡é—®ç­”系统在回答特定问题时的难度。RC 考虑了 检索结果的完整性,å³æ£€ç´¢åˆ°çš„文档是å¦åŒ…å«è¶³å¤Ÿçš„ä¿¡æ¯æ¥å›žç­”问题。

    直观ç†è§£ï¼š å‡è®¾æˆ‘们想问“狮å­æ¯”è€è™Žå¤§å—?â€ï¼Œè¿™ä¸ªé—®é¢˜è™½ç„¶ç»“构简å•ï¼Œä½†ç­”案å¯èƒ½åªéœ€è¦ä»Žä¸€ä¸ªæè¿°ç‹®å­å’Œè€è™Žå¤§å°çš„文档中找到。而å¦ä¸€ä¸ªé—®é¢˜â€œç‹®å­æ¯”冰箱大å—?â€ï¼Œåˆ™éœ€è¦æ•´åˆå¤šä¸ªä¿¡æ¯ç‰‡æ®µæ‰èƒ½å¾—出答案,因为很少有文档会åŒæ—¶æè¿°ç‹®å­å’Œå†°ç®±çš„大å°ã€‚

    Reference-based Question Complexity Pipeline (RRCP):æ­ç¤ºæ£€ç´¢å¤æ‚度

    为了é‡åŒ–检索å¤æ‚度,研究者们设计了一个å为 RRCP 的无监ç£ç®¡é“。它包å«ä¸‰ä¸ªå…³é”®éƒ¨åˆ†ï¼š

    1. 检索系统: 使用先进的检索技术,根æ®é—®é¢˜ä»Žå¤šä¸ªç´¢å¼•ä¸­èŽ·å–相关文档。
    2. GenEval: 一ç§åŸºäºŽå‚考的自动评估系统,通过比较检索到的文档和å‚考答案,评估问题的难度。
    3. 约æŸæœºåˆ¶ï¼š 通过两个阈值æ¥åˆ¤æ–­é—®é¢˜æ˜¯å¦æ»¡è¶³â€œå¯å›žç­”性â€å’Œâ€œæ£€ç´¢é›†å®Œæ•´æ€§â€çš„约æŸã€‚

    GenEval:精准评估答案正确性

    GenEval 是一ç§åŸºäºŽç¼–ç å™¨-解ç å™¨ç»“构的模型,ç»è¿‡è®­ç»ƒå¯ä»¥åˆ¤æ–­æ£€ç´¢åˆ°çš„文档是å¦åŒ…å«é—®é¢˜çš„正确答案。与其他评估方法相比,GenEval 具有以下优势:

    • 基于更强大的编ç å™¨-解ç å™¨æ¨¡åž‹ï¼Œå¯ä»¥æ›´çµæ´»åœ°å­¦ä¹ å’Œé¢„测。
    • 训练数æ®æ›´ä¸°å¯Œï¼ŒåŒ…括真实å‚考数æ®é›†å’Œåˆæˆæ•°æ®ï¼Œå¯ä»¥æ›´å¥½åœ°å¤„ç†å„ç§æƒ…况。

    两个约æŸï¼šæ­ç¤ºå¤æ‚问题的本质

    RRCP 通过两个约æŸæ¥åˆ¤æ–­é—®é¢˜çš„å¤æ‚程度:

    1. å¯å›žç­”性: 评估是å¦å¯ä»¥é€šè¿‡å•ä¸ªæ£€ç´¢åˆ°çš„文档æ¥å›žç­”问题。
    2. 检索集完整性: 评估检索到的文档是å¦åŒ…å«å›žç­”问题所需的所有信æ¯ã€‚

    实验验è¯ï¼šRRCP 的优越性

    研究者们在多个问答数æ®é›†ä¸Šå¯¹ RRCP 进行了评估,结果表明:

    • RRCP 在识别å¤æ‚问题方é¢è¡¨çŽ°å‡ºè‰²ï¼Œä¼˜äºŽå…¶ä»–基于语言模型的无监ç£æ–¹æ³•ã€‚
    • 检索å¤æ‚度与问答系统的性能密切相关,å¤æ‚度高的问题通常更难回答。
    • RRCP å¯ä»¥è¯†åˆ«å¤šç§ç±»åž‹çš„å¤æ‚问题,包括多跳问题ã€æ¯”较问题ã€æ—¶é—´é—®é¢˜ã€æœ€é«˜çº§é—®é¢˜å’Œèšåˆé—®é¢˜ã€‚

    未æ¥çš„æ–¹å‘:çªç ´å±€é™ï¼Œå¼€æ‹“应用

    尽管 RRCP å–得了显著æˆæžœï¼Œä½†ä¹Ÿå­˜åœ¨ä¸€äº›å±€é™æ€§ï¼Œä¾‹å¦‚对å‚考答案的ä¾èµ–和对检索系统质é‡çš„æ•æ„Ÿæ€§ã€‚未æ¥ï¼Œç ”究者们将致力于:

    • å‡å°‘对å‚考答案的ä¾èµ–,探索基于语言模型的无监ç£è¯„估方法。
    • æå‡æ£€ç´¢ç³»ç»Ÿçš„è´¨é‡ï¼Œä»¥æ高 RRCP 的准确性。

    检索å¤æ‚度:问答系统å‘展的新起点

    检索å¤æ‚度的概念为我们ç†è§£é—®ç­”系统的难度æ供了新的视角。通过识别å¤æ‚问题,我们å¯ä»¥æ›´å¥½åœ°ä¼˜åŒ–问答系统,æå‡å…¶åœ¨å¤„ç†å¤æ‚问题时的性能。未æ¥ï¼Œéšç€æŠ€æœ¯çš„ä¸æ–­å‘展,检索å¤æ‚度将æˆä¸ºé—®ç­”系统å‘展的新起点,推动问答系统å‘ç€æ›´æ™ºèƒ½ã€æ›´ç²¾å‡†çš„æ–¹å‘å‘展。

    å‚考文献:

  • 对è¯å¼æœç´¢å¼•æ“Žçš„排åæ“纵:一场悄无声æ¯çš„“战争â€

    è¿‘å¹´æ¥ï¼Œå¤§åž‹è¯­è¨€æ¨¡åž‹ï¼ˆLLM)作为强大的对è¯å¼ä»£ç†ï¼Œåœ¨æœç´¢å¼•æ“Žé¢†åŸŸæŽ€èµ·äº†ä¸€åœºé©å‘½ã€‚åƒOpenAIå’Œperplexity.ai这样的公å¸æŽ¨å‡ºäº†å®Œå…¨å¯¹è¯å¼çš„æœç´¢æœåŠ¡ï¼Œè€Œè°·æ­Œç­‰ä¼ ç»Ÿæœç´¢å¼•æ“Žä¹Ÿå¼€å§‹å°†ç”Ÿæˆå¼å†…容èžå…¥å…¶ä¸­ã€‚这些对è¯å¼æœç´¢å¼•æ“Žé€šè¿‡å°†æ£€ç´¢åˆ°çš„网站文本加载到LLM的上下文中,进行摘è¦å’Œè§£é‡Šï¼Œä¸ºç”¨æˆ·æ供更人性化的æœç´¢ä½“验。

    然而,这ç§é©å‘½æ€§çš„æœç´¢æŠ€æœ¯ä¹Ÿå¸¦æ¥äº†ä¸€ä¸ªä¸å®¹å¿½è§†çš„问题:对è¯å¼æœç´¢å¼•æ“Žæ˜¯å¦å¯ä»¥è¢«æ“纵,从而始终推崇æŸäº›ç‰¹å®šçš„内容?这个问题在商业领域尤其é‡è¦ï¼Œå› ä¸ºç½‘站排å往往与ä¼ä¸šçš„收入和声誉æ¯æ¯ç›¸å…³ã€‚

    æ“纵对è¯å¼æœç´¢å¼•æ“Žï¼šä¸€åœºéšå½¢çš„“战争â€

    本文将深入探讨对è¯å¼æœç´¢å¼•æ“Žçš„排å机制,并æ­ç¤ºå…¶åœ¨å¯¹æŠ—性æ“纵é¢å‰çš„脆弱性。研究人员å‘现,通过在网站内容中注入对抗性æ示,å¯ä»¥æœ‰æ•ˆåœ°å½±å“LLM的排å结果,从而将æŸäº›ç½‘站置于æœç´¢ç»“果的顶端。

    LLM的“弱点â€ï¼šå¯¹æŠ—性æ示注入

    LLM虽然强大,但它们也存在一些弱点。近年æ¥ï¼Œç ”究人员å‘现,LLM很容易å—到“越狱â€å’Œæ示注入攻击的影å“。这些攻击通过在LLM的输入中æ’入对抗性字符串,破åLLM的安全性和质é‡ç›®æ ‡ã€‚

    对è¯å¼æœç´¢å¼•æ“Žçš„“弱点â€ï¼šæŽ’å机制的脆弱性

    对è¯å¼æœç´¢å¼•æ“Žé€šå¸¸é‡‡ç”¨æ£€ç´¢å¢žå¼ºç”Ÿæˆï¼ˆRAG)架构,通过检索相关文本并将其加载到LLM的上下文中æ¥ç”Ÿæˆç­”案。研究人员å‘现,RAG模型的排å机制容易å—到对抗性æ示注入攻击的影å“。

    实验结果:对抗性æ示注入的有效性

    研究人员通过实验验è¯äº†å¯¹æŠ—性æ示注入的有效性。他们构建了一个å为RagDollçš„æ•°æ®é›†ï¼ŒåŒ…å«æ¥è‡ªä¸åŒäº§å“类别(如个人护ç†ã€ç”µå­äº§å“ã€å®¶ç”¨ç”µå™¨ç­‰ï¼‰çš„真实网站。实验结果表明,ä¸åŒçš„LLM在优先考虑产å“å称ã€æ–‡æ¡£å†…容和上下文ä½ç½®æ–¹é¢å­˜åœ¨æ˜¾è‘—差异。

    æ›´é‡è¦çš„是,研究人员å‘现,通过使用基于攻击树的“越狱â€æŠ€æœ¯ï¼Œå¯ä»¥å¯é åœ°å°†æŽ’å较低的网站æå‡åˆ°æœç´¢ç»“果的顶端。这些攻击甚至å¯ä»¥è½¬ç§»åˆ°åƒperplexity.ai这样的先进对è¯å¼æœç´¢å¼•æ“Žã€‚

    未æ¥å±•æœ›ï¼šé˜²å¾¡å¯¹æŠ—性æ示注入攻击

    研究人员强调,对è¯å¼æœç´¢å¼•æ“Žçš„脆弱性是一个亟待解决的问题。他们呼å更多研究人员关注LLMçš„é²æ£’性,并开å‘有效的防御机制,以抵御对抗性æ示注入攻击。

    å‚考文献

    总结

    对è¯å¼æœç´¢å¼•æ“Žçš„崛起为我们带æ¥äº†æ›´åŠ äººæ€§åŒ–çš„æœç´¢ä½“验,但也带æ¥äº†æ–°çš„安全挑战。对抗性æ示注入攻击的出现表明,对è¯å¼æœç´¢å¼•æ“Žçš„排å机制存在æ¼æ´žï¼Œè¿™å¯èƒ½ä¼šå¯¹ä¼ä¸šçš„利益和用户的æœç´¢ä½“验造æˆè´Ÿé¢å½±å“。因此,加强LLMçš„é²æ£’性,开å‘有效的防御机制,将æˆä¸ºæœªæ¥å¯¹è¯å¼æœç´¢å¼•æ“Žå‘展的关键。

  • 大型语言模型真的åƒäººè„‘一样æ€è€ƒå—?

    è¿‘å¹´æ¥ï¼Œå¤§åž‹è¯­è¨€æ¨¡åž‹ï¼ˆLLM)展现出惊人的能力,引å‘了人们对它们与人脑相似性的æ€è€ƒã€‚一些研究人员试图通过测é‡æ¨¡åž‹é¢„测神ç»ä¿¡å·çš„能力,å³â€œè„‘评分â€ï¼Œæ¥é‡åŒ–è¿™ç§ç›¸ä¼¼æ€§ã€‚LLM 的内部表å¾åœ¨è„‘评分方é¢å–得了最先进的æˆæžœï¼Œè¿™è®©äººä»¬çŒœæµ‹å®ƒä»¬å¯èƒ½ä¸Žäººç±»è¯­è¨€å¤„ç†å…±äº«è®¡ç®—原ç†ã€‚然而,这ç§æŽ¨æ–­åªæœ‰åœ¨ LLM 预测的神ç»æ´»åŠ¨å­é›†å映了语言处ç†çš„核心è¦ç´ æ—¶æ‰æœ‰æ•ˆã€‚

    本文将对一项关于 LLM 与人脑映射的具有影å“力的研究中使用的三个神ç»æ•°æ®é›†è¿›è¡Œåˆ†æžï¼Œé‡ç‚¹å…³æ³¨å‚与者阅读短篇文本的 fMRI æ•°æ®é›†ã€‚研究å‘现,当使用与先å‰ç ”究中相åŒçš„æ•°æ®é›†è¿›è¡Œéšæœºè®­ç»ƒ-测试分割时,一个编ç æ—¶é—´è‡ªç›¸å…³çš„简å•ç‰¹å¾ä¸ä»…优于 LLM,而且解释了 LLM 解释的大部分神ç»æ–¹å·®ã€‚因此,研究人员建议谨慎使用éšæœºè®­ç»ƒ-测试分割,并使用连续测试分割进行åŽç»­åˆ†æžã€‚

    LLM 的“脑评分â€ï¼šçœŸç›¸è¿˜æ˜¯å¹»è§‰ï¼Ÿ

    研究人员å‘现,未ç»è®­ç»ƒçš„ LLM 在脑评分方é¢è¡¨çŽ°å‡ºé«˜äºŽé¢„期的水平,这引å‘了人们对 Transformer 架构是å¦å°†è®¡ç®—åå‘æ›´åƒäººè„‘的猜测。然而,研究表明,未ç»è®­ç»ƒçš„ LLM 预测的神ç»æ–¹å·®ï¼Œå®žé™…上主è¦ç”±ä¸¤ä¸ªç®€å•çš„特å¾è§£é‡Šï¼šå¥å­é•¿åº¦å’Œå¥å­ä½ç½®ã€‚这削弱了 Transformer 架构更åƒäººè„‘çš„è¯æ®ã€‚

    进一步研究å‘现,ç»è®­ç»ƒçš„ LLM 在该数æ®é›†ä¸Šçš„脑评分主è¦ç”±å¥å­é•¿åº¦ã€å¥å­ä½ç½®å’Œä»£è¯æ¶ˆè§£åŽçš„é™æ€è¯åµŒå…¥è§£é‡Šï¼›ä¸€å°éƒ¨åˆ†é¢å¤–的方差由è¯ä¹‰åµŒå…¥å’Œå¥å­ç»“构的上下文表å¾è§£é‡Šã€‚

    æ­ç§˜ LLM 的“脑评分â€ï¼šç®€å•ç‰¹å¾çš„强大力é‡

    为了深入了解 LLM 与人脑之间的映射关系,研究人员采用了é€æ­¥å¢žåŠ ç‰¹å¾å¤æ‚度的策略,从简å•çš„å¥å­é•¿åº¦å’Œå¥å­ä½ç½®ç‰¹å¾å¼€å§‹ï¼Œé€æ­¥æ·»åŠ è¯ä¹‰åµŒå…¥ã€å¥æ³•åµŒå…¥ç­‰æ›´å¤æ‚的特å¾ã€‚

    结果表明,一个包å«æ ¸å¿ƒè¯ä¹‰æ¶ˆè§£çš„简å•æ¨¡åž‹ï¼Œåœ¨è§£é‡Š LLM 预测的神ç»æ–¹å·®æ–¹é¢è¡¨çŽ°å‡ºè‰²ï¼Œç”šè‡³è¶…过了 LLM 本身。更å¤æ‚的上下文处ç†ï¼Œä¾‹å¦‚è¯ä¹‰æ¶ˆæ­§å’Œä¸Šä¸‹æ–‡å¥æ³•è¡¨å¾ï¼Œåœ¨è§£é‡Šç¥žç»æ–¹å·®æ–¹é¢åªèµ·åˆ°äº†ä¸€å®šçš„补充作用。

    结论:谨慎解读 LLM 的“脑评分â€

    研究表明,过度ä¾èµ–脑评分å¯èƒ½ä¼šå¯¼è‡´å¯¹ LLM 与人脑之间相似性的过度解读。研究人员强调,在使用脑评分进行分æžæ—¶ï¼Œéœ€è¦å¯¹ç¥žç»ç¼–ç æ€§èƒ½è¿›è¡Œç³»ç»Ÿæ€§åˆ†è§£ï¼Œå¹¶ä¸Žç®€å•ä¸”ç†è®ºä¸Šä¸é‡è¦çš„特å¾è¿›è¡Œæ¯”较。åªæœ‰åœ¨è¿›è¡Œè¿™ç§åˆ†è§£ä¹‹åŽï¼Œæˆ‘们æ‰èƒ½æ›´æœ‰æŠŠæ¡åœ°è®¤ä¸º LLM 的神ç»é¢„测能力å映了人类语言处ç†çš„核心方é¢ã€‚

    å‚考文献

    [1] Feghhi, E. , Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2023). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores. arXiv preprint arXiv:2406.01538.✅

  • IPFS 的新宠:Helia,让 JavaScript å¼€å‘者拥抱去中心化

    IPFS(星际文件系统)作为一ç§åŽ»ä¸­å¿ƒåŒ–的文件存储和分å‘å议,正é€æ¸æˆä¸º Web3 世界的基石。而 Helia 作为 IPFS 在 JavaScript å’Œæµè§ˆå™¨ç«¯çš„现代化实现,为开å‘者æ供了更便æ·ã€é«˜æ•ˆçš„工具,让他们能够轻æ¾åœ°å°† IPFS 集æˆåˆ°è‡ªå·±çš„应用中。

    Helia 的优势

    Helia 拥有以下几个关键优势:

    • 模å—化: Helia 采用模å—化设计,开å‘者å¯ä»¥æ ¹æ®è‡ªå·±çš„需求选择ä¸åŒçš„模å—组åˆï¼Œä¾‹å¦‚选择使用 HTTP 网关或 libp2p 进行网络连接。
    • 现代化: Helia 基于 TypeScript å¼€å‘,æ供类型安全和代ç æ示等现代化开å‘体验。
    • 易用性: Helia æ供了一系列易于使用的 API,让开å‘者能够快速上手,将 IPFS 集æˆåˆ°è‡ªå·±çš„应用中。

    Helia 的应用场景

    Helia å¯ä»¥åº”用于多ç§åœºæ™¯ï¼Œä¾‹å¦‚:

    • 去中心化存储: 使用 Helia 存储网站ã€åº”用程åºã€æ•°æ®ç­‰ï¼Œé¿å…ä¾èµ–中心化的æœåŠ¡å™¨ã€‚
    • 内容分å‘: 使用 Helia 分å‘内容,æ高内容的å¯ç”¨æ€§å’Œå®‰å…¨æ€§ã€‚
    • 去中心化应用开å‘: 使用 Helia å¼€å‘去中心化的应用,例如去中心化的社交网络ã€åŽ»ä¸­å¿ƒåŒ–的存储æœåŠ¡ç­‰ã€‚

    Helia 的使用示例

    以下是一些使用 Helia 的示例:

    • 存储字符串:
    import { createHelia } from 'helia';
    import { strings } from '@helia/strings';
    
    const helia = await createHelia();
    const s = strings(helia);
    
    const myImmutableAddress = await s.add('hello world');
    
    console.log(await s.get(myImmutableAddress));
    // hello world
    • 存储 JSON 对象:
    import { createHelia } from 'helia';
    import { json } from '@helia/json';
    
    const helia = await createHelia();
    const j = json(helia);
    
    const myImmutableAddress = await j.add({ hello: 'world' });
    
    console.log(await j.get(myImmutableAddress));
    // { hello: 'world' }
    • 存储 DAG-JSON 对象:
    import { createHelia } from 'helia';
    import { dagJson } from '@helia/dag-json';
    
    const helia = await createHelia();
    const d = dagJson(helia);
    
    const object1 = { hello: 'world' };
    const myImmutableAddress1 = await d.add(object1);
    
    const object2 = { link: myImmutableAddress1 };
    const myImmutableAddress2 = await d.add(object2);
    
    const retrievedObject = await d.get(myImmutableAddress2);
    console.log(retrievedObject);
    // { link: CID(baguqeerasor...) }
    
    console.log(await d.get(retrievedObject.link));
    // { hello: 'world' }

    Helia 的未æ¥

    Helia 正在ä¸æ–­å‘展,未æ¥å°†ä¼šæœ‰æ›´å¤šåŠŸèƒ½å’Œæ”¹è¿›ï¼Œä¾‹å¦‚:

    • 更强大的 API: æ供更丰富的 API,支æŒæ›´å¤šåŠŸèƒ½ï¼Œä¾‹å¦‚文件系统æ“作ã€æ•°æ®åŠ å¯†ç­‰ã€‚
    • 更好的性能: 优化性能,æ高数æ®å­˜å‚¨å’Œæ£€ç´¢é€Ÿåº¦ã€‚
    • 更广泛的应用: 支æŒæ›´å¤šåº”用场景,例如 Web3 应用ã€ç‰©è”网应用等。

    总结

    Helia 是 IPFS 在 JavaScript å’Œæµè§ˆå™¨ç«¯çš„现代化实现,为开å‘者æ供了更便æ·ã€é«˜æ•ˆçš„工具,让他们能够轻æ¾åœ°å°† IPFS 集æˆåˆ°è‡ªå·±çš„应用中。éšç€ IPFS çš„ä¸æ–­å‘展,Helia 将会扮演越æ¥è¶Šé‡è¦çš„角色,推动 Web3 世界的构建。

    å‚考文献

  • 人生梦想 - 关注å‰æ²¿çš„计算机技术 acejoy.com