标签: AI

  • MMLU:我们真的完成了它吗?

    大型语言模型(LLM)的出现,标志着自然语言处理领域取得了重大进展,使我们能够通过自然语言与计算机进行交互。然而,这些模型的评估需要可靠的基准测试,而现有的基准测试却存在着不少问题。

    MMLU:一个广受欢迎但存在问题的基准测试

    MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)基准测试,因其涵盖了数学、历史、计算机科学、逻辑、法律等多个领域的知识而备受关注。然而,我们发现,尽管MMLU很受欢迎,但它存在着大量错误,这些错误会误导模型评估和比较。

    MMLU中的错误:一个需要解决的问题

    研究人员发现,MMLU中存在着各种各样的错误,从简单的解析和抓取错误,到更复杂的上下文、解释和数据集质量问题。例如,在病毒学子集中,57% 的问题都存在错误,其中一些错误甚至建议将美军派往西非以阻止埃博拉疫情的爆发。

    MMLU-Redux:一个更可靠的基准测试

    为了解决MMLU中存在的错误问题,研究人员手动分析了MMLU数据集,并创建了MMLU-Redux。MMLU-Redux 包含3000个经过手动重新标注的问题,涵盖了MMLU的30个子集。研究人员发现,MMLU-Redux 的结果与原始MMLU的评估结果存在显著差异,这表明MMLU中存在的错误对模型评估结果产生了重大影响。

    MMLU-Redux:一个更可靠的基准测试

    MMLU-Redux 的创建,为我们提供了重新评估LLM性能的工具。研究人员发现,在MMLU-Redux 上,一些LLM的性能表现与原始MMLU评估结果存在显著差异,这表明MMLU中的错误会影响模型的排名。

    自动修复MMLU:一个挑战

    研究人员还尝试了使用LLM自动修复MMLU中的错误。他们使用了多种方法,包括零样本提示、少样本提示、链式思维提示和检索增强生成。然而,即使是最先进的模型,在自动错误检测方面的表现仍然有限。

    结论:MMLU需要改进

    MMLU是一个重要的基准测试,但它存在着不少问题。MMLU-Redux 的出现,为我们提供了一个更可靠的基准测试。研究人员呼吁社区共同努力,改进MMLU,使其成为评估下一代LLM的可靠工具。

    参考文献

    [1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

    [2] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

    [3] Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).

    [4] Radford, Alec, et al. “Language models are unsupervised multitask learners.” OpenAI blog (2019).

    [5] Raffel, Colin, et al. “Exploring the limits of transfer learning with a unified text-to-text transformer.” Journal of Machine Learning Research 21.140 (2020): 1-67.

    [6] Dai, Hanxiao, et al. “Finetuned language models are zero-shot learners.” arXiv preprint arXiv:2005.14165 (2020).

    [7] Zhang, Sheng, et al. “Learning to prompt for continual pre-training.” Advances in Neural Information Processing Systems 35 (2022): 20398-20410.

    [8] Touvron, Hugo, et al. “Llama: Open and efficient large language models.” arXiv preprint arXiv:2302.09439 (2023).

    [9] Gardner, Matt, et al. “Evaluating large language models trained on code.” arXiv preprint arXiv:2107.03374 (2021).

    [10] Bommasani, Rishi, et al. “On the opportunities and risks of foundation models.” arXiv preprint arXiv:2108.07258 (2021).

    [11] Hendrycks, Dan, et al. “Measuring massive multitask language understanding.” arXiv preprint arXiv:2009.11692 (2020).

    [12] Wei, Jason, et al. “Finetuned language models are zero-shot learners.” arXiv preprint arXiv:2005.14165 (2020).

    [13] Wei, Jason, et al. “Chain of thought prompting elicits reasoning in large language models.” arXiv preprint arXiv:2201.11903 (2022).

    [14] Guu, Kelvin, et al. “Retrieval-augmented generation for knowledge-intensive tasks.” arXiv preprint arXiv:2005.11401 (2020).

    [15] Lin, Jimmy, et al. “Pyserini: A python toolkit for reproducible information retrieval research.” Proceedings of the 45th International ACM SIGIR Conference on Research & Development in Information Retrieval. 2022.

    [16] Beyer, Ludwig, et al. “Are we done with imagenet?” arXiv preprint arXiv:2007.02133 (2020).

    [17] Deng, Jia, et al. “Imagenet: A large-scale hierarchical image database.” 2009 IEEE conference on computer vision and pattern recognition. IEEE, 2009.

    [18] Nallapati, Ramesh, et al. “Summarization evaluation: From human judgments to metrics.” Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016.

    [19] Fabbri, Alessandro, et al. “Semeval-2015 task 11: Automatic short answer grading.” Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). 2015.

    [20] Williams, Adina, et al. “A broad-coverage challenge corpus for sentence understanding through inference.” Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.

    [21] Bowman, Samuel R. , et al. “A large annotated corpus for learning natural language inference.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

    [22] Glockner, Max, et al. “Fine-tuning language models for natural language inference.” Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018.

    [23] Nie, Yixin, et al. “Adversarial examples for natural language inference.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

    [24] Bender, Emily M. , et al. “On the dangers of stochastic parrots: Can language models be too big?” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.

    [25] Belinkov, Yonatan, et al. “Evaluating adversarial robustness of natural language processing systems.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

    [26] Zhou, Peng, et al. “Towards robust and reliable natural language inference.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

    [27] Zhang, Sheng, et al. “Learning to prompt for continual pre-training.” Advances in Neural Information Processing Systems 35 (2022): 20398-20410.

    [28] Gururangan, Suchin, et al. “Don’t stop pretraining: Adapt language models to domains and tasks.” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

    [29] Snow, Rion, et al. “Cheap and fast—but is it good?: Evaluating non-expert annotations for natural language tasks.” Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2008.

    [30] Diao, Qun, et al. “Human errors in annotation: A case study of natural language inference.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

    [31] Ratner, Alexander, et al. “Data programming: Creating large training sets via synthetic data.” Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.

    [32] Sheng, Victor, et al. “Weak supervision for natural language processing.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

    [33] Sap, M. , et al. “The influence of annotator bias on natural language inference data.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

    [34] Pratapa, Adithya, et al. “Annotator bias in natural language inference: A case study of the snli corpus.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2019.

    [35] Rajpurkar, Pranav, et al. “Medqa: A dataset for medical question answering.” Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018.

    [36] Hendrycks,

  • Is Free Self-Alignment Possible?

    This paper investigates the possibility of aligning large language models (LLMs) without the need for human-annotated data or expensive fine-tuning. The authors propose AlignEZ, a novel method that leverages self-generated preference data and representation editing to achieve nearly cost-free alignment.

    Here’s a breakdown of the paper’s key aspects:

    1. Motivation:

    • Traditional LLM alignment methods heavily rely on human preference data and computationally expensive fine-tuning, limiting scalability.
    • Recent research suggests that alignment might simply be revealing knowledge already present in pretrained models.

    2. AlignEZ Approach:

    • Self-Generated Preference Data:
      • The base LLM is prompted to generate its own preference data by describing characteristics of helpful and harmful responses.
      • Using these characteristics, the LLM generates pairs of responses, simulating preference comparisons.
    • Identifying Preference Directions:
      • The self-generated preference pairs are used to identify directions in the LLM’s embedding space that correspond to helpful and harmful attributes.
      • Two methods are explored:
        • SVD-Based Identification: Applies Singular Value Decomposition (SVD) on the embedding matrix of preference data to extract the principal eigenvector as the preference direction.
        • CCS-Based Identification: Utilizes a Contrastive Concept Shap (CCS) probe trained on the self-generated data to identify directions maximizing the difference between helpful and harmful attributes.
    • Representation Editing:
      • During inference, the LLM’s embeddings are modified by:
        • Boosting components aligned with the helpful direction.
        • Neutralizing components aligned with the harmful direction.

    3. Experiments and Results:

    • AlignEZ significantly reduces the performance gap between base and traditionally aligned models by an average of 31.6% across various datasets and model architectures.
    • It effectively expedites more expensive alignment methods like DPO by improving models trained with limited ground-truth data.

    4. Key Findings:

    • Self-alignment is achievable to a significant degree without external data or fine-tuning.
    • AlignEZ offers a cost-effective way to improve LLM alignment, potentially enabling real-time personalization and fine-grained control.

    5. Limitations and Future Work:

    • The quality of self-generated preference data influences AlignEZ’s effectiveness.
    • Further research is needed to explore its applicability to more complex alignment tasks and different data modalities.

    In conclusion, AlignEZ presents a promising step towards free self-alignment, offering a cost-effective and potentially scalable approach to aligning LLMs with human preferences.


    免费自对齐:让语言模型更懂你?

    大型语言模型(LLM)正在改变我们的世界,但它们也存在着一些问题。比如,它们有时会生成不准确、不友善或带有偏见的信息。为了解决这些问题,研究人员一直在努力对齐 LLM,使其更符合人类的价值观和偏好。

    传统的对齐方法通常需要大量的标注数据和大量的计算资源,这对于许多研究人员和开发者来说都是一个巨大的挑战。那么,有没有一种更经济、更便捷的对齐方法呢?

    AlignEZ:几乎免费的对齐

    最近,来自威斯康星大学麦迪逊分校的研究人员提出了一种名为 AlignEZ 的新方法,它可以实现几乎免费的 LLM 自对齐。AlignEZ 的核心思想是利用 LLM 自身生成的偏好数据来修改其内部表示,从而引导模型生成更符合人类期望的输出。

    如何实现自对齐?

    AlignEZ 的工作流程主要分为三个步骤:

    1. 生成偏好数据: 研究人员首先使用 LLM 自身生成偏好数据。他们向 LLM 提出一些问题,并要求 LLM 描述理想的回答和不理想的回答应该具备的特征。然后,他们再次向 LLM 提出相同的问题,并要求 LLM 根据之前描述的特征生成不同的回答。这样,他们就得到了 LLM 自身生成的偏好数据对。
    2. 识别偏好方向: 接下来,研究人员使用这些偏好数据对来识别 LLM 内部表示空间中与人类偏好相关的方向。他们使用两种方法来实现这一目标:
      • 奇异值分解 (SVD): SVD 可以帮助识别 LLM 内部表示空间中主要的方向,这些方向通常与人类偏好相关。
      • 对比一致性搜索 (CCS): CCS 则可以帮助识别 LLM 内部表示空间中的超平面,这个超平面可以将理想的回答与不理想的回答区分开来。
    3. 编辑内部表示: 最后,研究人员使用识别出的偏好方向来修改 LLM 的内部表示。他们通过增强与人类偏好相关的方向,并抑制与不理想特征相关的方向来引导 LLM 生成更符合人类期望的输出。

    实验结果:显著提高模型性能

    研究人员在六个不同的数据集和三种不同的 LLM 架构上测试了 AlignEZ 的效果。结果表明,AlignEZ 可以显著缩小 LLM 与其对齐版本之间的性能差距,平均提高了 31.6%。

    更重要的是,AlignEZ 还可以加速更昂贵的对齐方法,例如 DPO。研究人员发现,AlignEZ 可以提高仅使用少量标注数据训练的 DPO 模型的性能。

    未来展望:更精准、更个性化的对齐

    AlignEZ 的出现为 LLM 对齐领域开辟了新的可能性。研究人员希望未来能够进一步改进 AlignEZ,使其能够更精准地识别人类偏好,并实现更个性化的对齐。

    总结

    AlignEZ 是一种新颖的 LLM 自对齐方法,它可以利用 LLM 自身生成的偏好数据来实现几乎免费的对齐。AlignEZ 的实验结果表明,它可以显著提高 LLM 的性能,并加速更昂贵的对齐方法。AlignEZ 的出现为 LLM 对齐领域开辟了新的可能性,为未来更精准、更个性化的 LLM 对齐技术奠定了基础。

    参考文献

    [1] AI@Meta. Llama 3 model card. 2024. URL https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.

    [2] Chuang et al. Debiasing vision-language models via biased prompts. arXiv preprint 2302.00070, 2023.

    [3] Touvron et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.

    [4] Bender et al. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 610–623, 2021.

    [5] Bommasani et al. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021.

    [6] Burns et al. Discovering latent knowledge in language models without supervision. arXiv preprint arXiv:2212.03827, 2022.

    [7] Christiano et al. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.

    [8] Dalvi et al. Discovering latent concepts learned in bert. arXiv preprint arXiv:2205.07237, 2022.

    [9] Cui et al. Ultrafeedback: Boosting language models with high-quality feedback, 2023.

    [10] Dettmers et al. Qlora: Efficient finetuning of quantized llms, 2023.

    [11] Hoffmann et al. An empirical analysis of compute-optimal large language model training. Advances in Neural Information Processing Systems, 35:30016–30030, 2022.

    [12] Jiang et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.

    [13] Li et al. Self-alignment with instruction backtranslation. arXiv preprint arXiv:2308.06259, 2023a.

    [14] Li et al. Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36, 2024.

    [15] Lee et al. Deduplicating training data makes language models better. arXiv preprint arXiv:2107.06499, 2021.

    [16] Mangrulkar et al. Peft: State-of-the-art parameter-efficient fine-tuning methods. https://github.com/huggingface/peft, 2022.

    [17] McIntosh et al. From google gemini to openai q*(q-star): A survey of reshaping the generative artificial intelligence (ai) research landscape. arXiv preprint arXiv:2312.10868, 2023.

    [18] Ouyang et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.

    [19] Rafailov et al. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.

    [20] Sun et al. Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36, 2024.

    [21] Li et al. Alpacaeval: An automatic evaluator of instruction-following models, 2023b.

    [22] Limisiewicz et al. Debiasing algorithm through model adaptation. arXiv preprint arXiv:2310.18913, 2023.

    [23] Lin et al. The unlocking spell on base llms: Rethinking alignment via in-context learning. arXiv preprint arXiv:2312.01552, 2023.

    [24] Loshchilov and Hutter. Decoupled weight decay regularization, 2019.

    [25] Raschka. Finetuning llms with lora and qlora: Insights from hundreds of experiments, Oct 2023. URL https://lightning.ai/pages/community/lora-insights/?utm_medium=social&utm_source=twitter&utm_campaign=Education_10132023.

    [26] Schulman et al. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.

    [27] Tamkin et al. Understanding the capabilities, limitations, and societal impact of large language models. CoRR, abs/2102.02503, 2021. URL https://arxiv.org/abs/2102.02503.

    [28] Tunstall et al. Zephyr: Direct distillation of lm alignment, 2023.

    [29] Wang et al. Self-instruct: Aligning language models with self-generated instructions. arXiv preprint arXiv:2212.10560, 2022.

    [30] Wu et al. Reft: Representation finetuning for language models. arXiv preprint arXiv:2404.03592, 2024.

    [31] Xie et al. Data selection for language models via importance resampling. Advances in Neural Information Processing Systems, 36:34201–34227, 2023.

    [32] Zheng et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36, 2024.

    [33] Zhou et al. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36, 2024.

    [34] Introducing Meta Llama 3: The most capable openly available LLM to date — ai.meta.com. https://ai.meta.com/blog/meta-llama-3/, 2024.

    [35] Adila et al. Zero-shot robustification of zero-shot models with foundation models. arXiv preprint arXiv:2309.04344, 2023.

    [36] Fränken et al. Self-supervised alignment with mutual information: Learning to follow principles without preference labels. arXiv preprint arXiv:2404.14313, 2024.

    [37] Han et al. Lm-switch: Lightweight language model conditioning in word embedding space. arXiv preprint arXiv:2305.12798, 2023.

    [38] Guo et al. Human-instruction-free llm self-alignment with limited samples. arXiv preprint arXiv:2401.06785, 2024.

    [39] Kenton et al. Alignment of language agents. arXiv preprint arXiv:2103.14659, 2021.

    [40] Sun et al. Principle-driven self-alignment of language models from scratch with minimal human supervision. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine, editors, Advances in Neural Information Processing Systems, volume 36, pages 2511–2565. Curran Associates, Inc., 2023. URL https://proceedings.neurips.cc/paper_files/paper/2023/file/0764db1151b936aca59249e2c13886101-Paper-Conference.pdf.

    [41] Zou et al. Representation engineering: A top-down approach to ai transparency, october 2023. URL http://arxiv.org/abs/2310.01405.


  • 让语音合成更具表现力:StyleMoE 的“分而治之”策略

    近年来,语音合成技术取得了长足进步,合成语音不仅清晰易懂,还拥有丰富的感情和韵律,更接近于人类的表达方式。然而,如何从各种不同的参考语音中提取并编码风格信息仍然是一个挑战,尤其是当遇到从未见过的语音风格时。

    StyleMoE:将风格编码空间“分而治之”

    为了解决这一难题,研究人员提出了 StyleMoE,一种将风格编码空间划分为多个可处理的子空间,并由专门的“风格专家”负责处理的模型。StyleMoE 将 TTS 系统中的风格编码器替换为一个“专家混合” (MoE) 层。通过使用门控网络将参考语音路由到不同的风格专家,每个专家在优化过程中专门负责风格空间的特定方面。

    StyleMoE 的工作原理

    StyleMoE 的核心思想是将风格编码空间划分为多个子空间,每个子空间由一个专门的风格专家负责处理。这就像将一个复杂的难题分解成多个更容易解决的小问题,每个专家都专注于解决其中一个问题。

    具体来说,StyleMoE 使用一个门控网络来决定哪个专家应该处理当前的参考语音。门控网络会根据参考语音的特点,选择最适合的专家,并为每个专家分配相应的权重。每个专家都拥有独立的参数,在优化过程中只负责处理分配给它的子空间,从而提高模型的效率和准确性。

    StyleMoE 的优势

    StyleMoE 的优势在于:

    • 提高风格空间覆盖率:通过将风格编码空间划分为多个子空间,StyleMoE 可以更好地处理各种不同的风格,包括从未见过的风格。
    • 提高模型泛化能力:每个专家只负责处理特定的子空间,这有助于提高模型的泛化能力,减少模型对训练数据的依赖。
    • 降低计算成本:StyleMoE 使用稀疏 MoE,这意味着只有少数专家会参与到模型的计算中,从而降低了模型的计算成本。

    实验结果

    研究人员在 ESD 和 VCTK 数据集上对 StyleMoE 进行了测试,结果表明,StyleMoE 在各种指标上都优于基线模型,包括:

    • 提高语音质量:StyleMoE 合成的语音具有更高的自然度和清晰度。
    • 提高风格相似度:StyleMoE 合成的语音更接近于参考语音的风格。
    • 提高模型泛化能力:StyleMoE 在处理从未见过的风格时表现出色。

    未来展望

    StyleMoE 为语音合成技术的进步开辟了新的方向。未来,研究人员将继续探索不同的门控网络架构,并尝试将 StyleMoE 应用于更复杂的语音合成系统。

    参考文献

    [1] M. Schr¨oder, “Emotional speech synthesis: A review,” in Seventh European Conference on Speech Communication and Technology, 2001.

    [2] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” ArXiv, vol. abs/1609.03499, 2016. [Online]. Available: https://api.semanticscholar.org/CorpusID:6254678

    [3] Y. Wang, R. J. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. V. Le, Y. Agiomyrgiannakis, R. A. J. Clark, and R. A. Saurous, “Tacotron: Towards end-to-end speech synthesis,” in Interspeech, 2017. [Online]. Available: https://api.semanticscholar.org/CorpusID:4689304

    [4] N. Li, S. Liu, Y. Liu, S. Zhao, and M. Liu, “Neural speech synthesis with transformer network,” in Proceedings of the AAAI conference on artificial intelligence, vol. 33, no. 01, 2019, pp. 6706–6713.

    [5] X. Tan, T. Qin, F. Soong, and T.-Y. Liu, “A survey on neural speech synthesis,” 2021.

    [6] S. Takamichi, T. Toda, A. W. Black, G. Neubig, S. Sakti, and S. Nakamura, “Postfilters to modify the modulation spectrum for statistical parametric speech synthesis,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 4, pp. 755–767, 2016.

    [7] H. -T. Luong, S. Takaki, G. E. Henter, and J. Yamagishi, “Adapting and controlling dnn-based speech synthesis using input codes,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 4905–4909.

    [8] Y. Lee, A. Rabiee, and S.-Y. Lee, “Emotional end-to-end neural speech synthesizer,” arXiv preprint arXiv:1711.05447, 2017.

    [9] R. Skerry-Ryan, E. Battenberg, Y. Xiao, Y. Wang, D. Stanton, J. Shor, R. Weiss, R. Clark, and R. A. Saurous, “Towards end-to-end prosody transfer for expressive speech synthesis with tacotron,” in international conference on machine learning.
    PMLR, 2018, pp. 4693–4702.

    [10] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan, E. Battenberg, J. Shor, Y. Xiao, Y. Jia, F. Ren, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in International conference on machine learning. PMLR, 2018, pp. 5180–5189.

    [11] K. Akuzawa, Y. Iwasawa, and Y. Matsuo, “Expressive speech synthesis via modeling expressions with variational autoencoder,” arXiv preprint arXiv:1804.02135, 2018.

    [12] Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “Fastspeech 2: Fast and high-quality end-to-end text to speech,” arXiv preprint arXiv:2006.04558, 2020.

    [13] A. Ła´ncucki, “Fastpitch: Parallel text-to-speech with pitch prediction,” in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 6588–6592.

    [14] G. Sun, Y. Zhang, R. J. Weiss, Y. Cao, H. Zen, and Y. Wu, “Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis,” in ICASSP 2020-2020 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2020, pp. 6264–6268.

    [15] R. Huang, Y. Ren, J. Liu, C. Cui, and Z. Zhao, “Generspeech: Towards style transfer for generalizable out-of-domain text-to-speech,” Advances in Neural Information Processing Systems, vol. 35, pp. 10 970–10 983, 2022.

    [16] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton, “Adaptive mixtures of local experts,” Neural computation, vol. 3, no. 1, pp. 79–87, 1991.

    [17] S. Masoudnia and R. Ebrahimpour, “Mixture of experts: a literature survey,” Artificial Intelligence Review, vol. 42, pp. 275–293, 2014.

    [18] N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean, “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,” arXiv preprint arXiv:1701.06538, 2017.

    [19] C. Riquelme, J. Puigcerver, B. Mustafa, M. Neumann, R. Jenatton, A. Susano Pinto, D. Keysers, and N. Houlsby, “Scaling vision with sparse mixture of experts,” Advances in Neural Information Processing Systems, vol. 34, pp. 8583–8595, 2021.

    [20] D. Eigen, M. Ranzato, and I. Sutskever, “Learning factored representations in a deep mixture of experts,” arXiv preprint arXiv:1312.4314, 2013.

    [21] D. Min, D. B. Lee, E. Yang, and S. J. Hwang, “Meta-stylespeech: Multi-speaker adaptive text-to-speech generation,” in International Conference on Machine Learning. PMLR, 2021, pp. 7748–7759.

    [22] T. H. Teh, V. Hu, D. S. R. Mohan, Z. Hodari, C. G. Wallis, T. G. Ibarrondo, A. Torresquintero, J. Leoni, M. Gales, and S. King, “Ensemble prosody prediction for expressive speech synthesis,” in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023, pp. 1–5.

    [23] Y. Yan, X. Tan, B. Li, G. Zhang, T. Qin, S. Zhao, Y. Shen, W.-Q. Zhang, and T.-Y. Liu, “Adaspeech 3: Adaptive text to speech for spontaneous style,” arXiv preprint arXiv:2107.02530, 2021.

    [24] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, “Libritts: A corpus derived from librispeech for text-to-speech,” arXiv preprint arXiv:1904.02882, 2019.

    [25] J. Yamagishi, C. Veaux, and K. MacDonald, “Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit (version 0.92),” 2019. [Online]. Available: https://api.semanticscholar.org/CorpusID:213060286

    [26] K. Zhou, B. Sisman, R. Liu, and H. Li, “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset,” in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 920–924.

    [27] X. An, F. K. Soong, and L. Xie, “Disentangling style and speaker attributes for tts style transfer,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 646–658, 2022.

    https://arxiv.org/pdf/2406.03637 https://arxiv.org/html/2406.03637v1

  • 突破传统:利用大型语言模型提升财务数据异常检测

    财务数据,尤其是来自总账的数据,记录着企业的财务交易,包括收入、支出、资产和负债,对于确保财务记录的真实性和透明度至关重要 [21, 24]。它不仅帮助企业满足监管机构、投资者和金融机构等利益相关者的要求,还通过分析支持决策,而异常检测则是维护数据完整性和可靠性的关键 [37]。

    然而,财务数据中的异常,可能是由于错误、欺诈或操纵造成的,会带来巨大的财务损失,损害投资者信心,并需要进行欺诈调查 [24]。因此,及时有效地检测异常对于遵守法规和保护财务安全至关重要 [8, 22]。传统的财务异常检测方法在处理复杂、庞大的数据和不断升级的欺诈手法方面存在困难。早期的做法依赖于人工检查和基于规则的系统,效率低下,漏掉了很多异常,并产生了大量误报,导致财务欺诈难以察觉 [5]。

    机器学习 (ML) 在现代财务审计中变得越来越重要,它能够高效地处理大型数据集并识别其中的模式。然而,随着财务欺诈手法变得越来越复杂,需要新的方法来克服数据预处理和模型局限性带来的挑战 [2, 22]。最近的研究表明,自动编码器在异常检测方面有潜力,而大型语言模型 (LLM) 在各种任务中都表现出色,但现实世界数据的稀疏性和复杂性限制了它们的有效性 [26, 36]。

    挑战与机遇:利用大型语言模型编码非语义财务数据

    本文着眼于高效检测总账数据中的异常,重点关注特征维度异质性和特征稀疏性这两个问题,它们阻碍了财务审计中的异常检测。我们的方法是利用 Sentence-BERT LLM 的预训练表示来编码日记账分录中的非语义分类数据,从而提高对数据异常的识别能力。

    现有的解决方案使用各种矢量化方法,随后对稀疏特征进行降维,但这可能不足以应对现实世界中的日记账分录,因为这些分录在长度和复杂性上往往差异很大。此外,交易异常的非时间性特征限制了可应用的特征编码方法范围。因此,用于检测财务数据异常的机器学习算法在处理异质性和稀疏数据时会遇到困难,导致编码和分类问题,最终导致结果不理想。这会影响财务记录审计的可靠性。

    我们提出了一种新方法,如图 1 所示,利用预训练的 Sentence-Transformer 模型来编码非语义财务数据,解决特征异质性和稀疏性问题。这种方法不同于传统的财务异常检测机器学习技术,它提出了一种混合模型,将 Sentence-Transformer 嵌入与机器学习分类器相结合,以提高异常检测性能。准确的异常检测是可靠财务审计的基石。改进处理财务数据中的异质性和稀疏性的方法可以显著提高异常检测流程,有助于更好地进行风险管理和遵守法规。该方法在财务异常检测之外具有更广泛的意义,为跨领域应用高级编码技术处理复杂数据集提供了模板。

    研究目标与贡献

    在这项工作中,我们提出了以下两个假设:

    • 假设 1: 利用 Sentence-Transformer LLM 对财务记录中的非语义分类数据进行编码,可以有效地标准化特征变异性,增强特征集的紧凑性和信息保留能力,与传统方法相比,这一点可以通过 PCA 等降维技术来衡量。
    • 假设 2: 将基于 Sentence-Transformer 的 LLM 嵌入与优化的机器学习模型相结合,可以提高财务日记账分录中的异常检测性能,这一点可以通过与传统机器学习方法相比,改进评估指标来证明。

    在制定我们的假设时,我们借鉴了最近的研究发现,这些发现表明 LLM 除了文本任务之外,还可以适应其他任务 [28]。研究表明,最初在文本上训练的 LLM 可以有效地处理和编码非文本、语言非语义数据 [30]。这种能力源于其 Transformer 块的编码功能,促使我们提出了假设 1,建议使用 SBERT LLM 将非语义财务数据集转换为标准化的单一尺寸向量特征。随后,我们的假设 2 建立在 LLM 高效的编码能力基础上,这意味着集成 LLM 嵌入可以增强机器学习模型,特别是在检测财务数据中的异常方面。验证假设 1 将证明一种管理财务记录中特征变异性的新方法,增强异常检测。确认假设 2 将说明将 LLM 嵌入与优化模型相结合在检测财务异常方面的有效性,有可能超越传统方法。

    这些发现可以共同改变当前财务异常检测的做法。LLM 的创新应用可以极大地推动该领域的发展,展示其在跨学科应用中的潜力,并改进财务审计和监控系统。

    背景与相关工作

    机器学习方法及其在检测财务异常方面的局限性

    财务异常检测至关重要,欺诈活动对该行业造成了巨大影响。数字金融服务的兴起,尤其是在 COVID-19 大流行之后,需要先进的欺诈检测方法 [43]。深度学习,包括变分自动编码器和 LSTM 架构,在检测日记账分录 [44] 和电子商务 [27] 中的异常方面取得了成功,LSTM 也非常有效 [1]。图神经网络 (GNN) 以其处理欺诈检测中复杂数据关系的能力而著称 [43]。各种机器学习技术,如朴素贝叶斯、逻辑回归、KNN、随机森林和顺序 CNN,已被应用于信用卡欺诈检测 [29],其中基于 CatBoost 的方法突出了特征工程和内存压缩在提高效率方面的作用 [13]。机器学习在金融领域得到了广泛的应用,从检测日记账分录异常到识别医疗保健和银行业务中的欺诈交易 [29, 38]。虽然案例研究证实了它们的有效性,但也指出了实际应用中的挑战 [7]。

    由于欺诈手法不断变化和财务数据的复杂性,在财务欺诈检测中应用机器学习面临着挑战 [11]。准确的建模依赖于高质量的标准化数据,这一点在信用卡行业中也有所讨论 [31]。财务数据的非平稳性、非线性性和低信噪比使模型训练和性能复杂化 [40],需要先进的方法来预处理复杂数据,提高数据质量和模型性能。增强数据表示和简化特征还可以提高机器学习模型的可解释性,满足金融领域的法规和合规要求 [38]。此外,平衡计算复杂度和高检测精度至关重要 [27],这强调了需要增强特征集的紧凑性和信息保留能力。有希望的研究方向需要探索各种机器学习方法和混合应用,强调创新的数据预处理和适应性强的机器学习方法,以应对数据质量和模型适应性挑战 [4]。

    大型语言模型的应用和能力

    GPT-3、PaLM 和 LLaMA 等大型语言模型标志着自然语言处理 (NLP) 和人工智能 (AI) 的范式转变,从基于规则的框架发展到复杂的 Transformer 等神经网络架构。这种演变使 LLM 能够将大量语言数据集编码为向量表示,用于各种应用 [41, 42]。BERT 等大型语言模型擅长捕捉语言的复杂语义和句法细微差别,从而产生密集的嵌入。这些嵌入对于节点分类等任务至关重要,例如文本图中的节点分类 [14],证明了 LLM 能够从大量文本语料库中生成有意义的表示 [32]。LLM 最初是为语言任务而设计的,但它显示出非凡的多功能性,扩展到非语言领域,有效地将各种数据类型(包括非语义元素)编码为顺序格式。例如,Sentence-Transformers 对非语言数据进行矢量化,将 LLM 的使用扩展到计算机视觉 [30]。LLM 在文本摘要和内容推荐等任务中表现出色,从而证明了其广泛的适用性 [25, 41, 42]。LLM 通过有效地管理特征变异性和稀疏性,为数据分析提供了创新方法,从而增强了异常检测。它们可以超越传统的机器学习,处理复杂数据以进行高级分析 [3, 20]。

    在财务分析中,LLM 构成了一次重大的方法论飞跃。Sentence-Transformers 强调了 LLM 在处理异常检测中的特征异质性和稀疏性方面的能力,因为它可以生成有意义的向量 [34, 39, 40]。Sentence-BERT (SBERT) 是 BERT 的改进版本,它可以生成语义密集的句子嵌入,从而提高聚类和语义搜索的性能 [34]。SBERT 利用暹罗网络和三元组网络来增强句子语义分析,确保相似的句子在嵌入空间中彼此靠近。这种改进将嵌入生成时间从 BERT 的 65 小时缩短到大型数据集的几秒钟。SBERT 在句子对回归和语义相似性等各种任务中表现出色,证明了它在传统文本任务之外,快速、高质量地嵌入语言和非语言数据应用方面的潜力 [34]。

    财务异常检测中的研究差距

    尽管机器学习和深度学习在财务异常检测方面取得了进展,但这些方法往往由于财务数据的多样性和稀疏性而失败,特别是在日记账分录中,这会损害数据编码和分类的有效性,进而影响财务审计的精度和可靠性 [6]。传统的异常检测技术依赖于矢量化和降维,但这些技术可能不足以应对现实世界中的日记账分录,因为这些分录在长度和复杂性上差异很大。此外,财务交易的非时间性特征限制了一些特征编码策略的使用。

    先进的机器学习技术在非语义、分类财务数据方面仍未得到充分利用,传统的异常检测方法在解决非时间性和异质性数据复杂性方面存在不足。Sentence-Transformer LLM 在财务数据分析方面尚未开发的潜力,为处理特征变异性和稀疏性提供了创新机会。通过将 LLM 嵌入与优化的机器学习模型相结合,弥合重要的研究差距,可以显著提高财务异常检测的分类精度和数据编码稳健性,超越传统方法。

    数据描述和伦理考量

    在我们的工作中,我们使用了来自各种匿名公司的汇总的真实世界总账数据集,如 Bakumenko 等人所述 [6]。该数据集包含匿名化的日记账分录,涵盖多个行业和时间段的系统特定账户计划。它最初经过预处理,排除了包含超过四个交易的分录,以管理异常值。它包含一小部分带标签的异常,其中包含八种类型的错误,这些错误由财务审计人员创建,以反映财务记录中常见的异常,表明现实世界异常检测中的关键关注领域。该数据集侧重于对异常检测至关重要的属性,例如源系统、账户类别和借贷指示器,简化了数据中异常的识别。

    在这项工作中,我们对总账数据集应用了严格的伦理协议,确保彻底的匿名化,以消除任何关于公司或个人的可识别信息。该数据集保持机密,不可共享,防止未经授权的访问。我们避免使用云存储,以最大限度地降低数据泄露风险,维护数据集的完整性。数据处理和分析严格遵守法律和伦理准则。引入的异常经过精心管理,以维护研究目的的伦理数据操纵实践。

    方法

    数据预处理

    该数据集包含 32,100 个日记账分录中的交易级数据点,包括 148 个旨在反映异常模式而没有个体偏差的异常。为了在日记账分录中进行异常检测,将交易汇总成集合 ,其中 表示包含 个交易的日记账分录。汇总集合 是通过对每个 应用汇总函数 形成的,表示为

    A = {A(J. | J ∈ J}

    在 Bakumenko 等人的工作中 [6],填充将交易长度标准化为统一的特征向量 ,准备机器学习模型输入。交易由 ERP 属性定义,例如账户编号和借贷标志,合并到 特征中。此编码特征在稀疏矩阵中的维度遵循以下公式:

    feature_count = max(transaction_amount) * (|unique_values(feature1)| + |unique_values(feature2)|)

    其中 是所有日记账分录中最大交易金额的乘积,表示为 ,以及 和 特征向量中唯一元素的组合计数( 和 )。因此,对于存在 577 个唯一 值和 特征向量中 4 个唯一值的独热编码方法,将导致 2336 个编码特征。此特征空间经过 PCA 降维。

    相反,为了将 SBERT 模型应用于每个 JE 中的交易数据编码,我们首先基于 JE 标识符,通过 group-by 操作将交易分类特征连接起来。将每个交易的 和 属性以及交易本身组合在一起的过程如下:

    text_8 = "Source: " + feature1_8 + " Account_DC: " + feature2_8 + " " + transaction_8

    其中 是组 的连接文本, 是组 中的交易数量。 是连接操作,使用逗号和空格作为交易的分隔符。 是组 中第 个交易的 属性, 是组 中第 个交易的 属性。

    每个 JE 的连接文本 ( ) 被处理为单个句子结构。SBERT 模型的 encode 方法首先将每个字符串标记化为一系列标记。SBERT 然后使用其基于 BERT 的架构为每个标记生成上下文嵌入,这涉及多个 Transformer 层和自注意力机制。平均池化步骤将这些标记嵌入聚合为固定大小的句子嵌入。PCA 等降维没有用于保持嵌入的原始维度,确保精确的评估 [6]。我们将嵌入归一化为零均值和单位方差,以便在机器学习任务中提高一致性并加快收敛速度,这对于基于距离或梯度下降的算法至关重要,可以提高跨模型的性能。SBERT 嵌入为每个日记账分录创建固定大小的密集向量,捕获交易详细信息,通过总结复杂的数据交互,帮助进行异常检测和模式识别。

    数据平衡和模型性能验证

    在机器学习中,类分布不平衡的偏斜数据集会阻碍模型训练中的分类任务,因为它会偏向多数类,并影响异常检测。遵循 [18] 中的指南,我们使用 80/20 分层分割,以确保训练集和测试集中包含比例异常表示,从而减少偏差。我们通过对少数类进行加权来调整不平衡,以提高模型阶段的敏感性,并确保结果一致性和与恒定随机状态的公平比较。在训练和优化中,我们避免了交叉验证,认识到它在不平衡数据集和大型特征集中存在的缺点,这一点由 Rao 等人指出 [33]。交叉验证会增加过拟合风险,尤其是在使用许多模型和广泛的超参数调整时。随着数据维度的增加,它的有效性会下降,导致模型方差更高,难以从复杂的特征交互中获得可靠的评估。不平衡数据集会加剧这一挑战,导致交叉验证折叠偏差,并导致性能评估偏差。

    我们选择一致的 80/20 分层分割,以保持跨模型的测试集一致性,这对于准确比较算法性能至关重要,而交叉验证的可变数据子集可能会损害这一点。虽然这种策略可以缓解一些挑战,但它可能会影响模型的泛化能力。为了抵消这一点,我们采用了仔细的指标选择和训练后交叉验证评估,尽管由于数据集的复杂性,直接对少数类进行过采样技术不可行。

    模型选择

    在这项工作中,我们评估了三种 Sentence-BERT 模型用于嵌入生成:all-mpnet-base-v2、all-distilroberta-v1 和 all-MiniLM-L6-v2,这些模型因其流行度和性能而被选中,这一点可以通过它们在 HuggingFace 模型中心的高下载率来证明 [16]。每个模型都在超过 10 亿对数据上进行训练,具有不同的优势:all-mpnet-base-v2 在质量方面表现出色,性能得分为 63.30 [35],all-distilroberta-v1 在效率和性能之间取得平衡,大小为 290 MB,all-MiniLM-L6-v2 速度快,大小为 80 MB,适合实时应用 [35]。有关模型规格的详细信息,请参阅表 1。选择这些模型是因为它们在质量、效率和速度方面的互补优势,有助于这项研究中的全面评估。

    我们还使用了五种机器学习分类器:随机森林 (RF)、使用 XGBoost (XGB) 的梯度提升机 (GBM)、支持向量机 (SVM)、逻辑回归 (LR) 和使用 Keras TensorFlow 实现的神经网络 (NN)。RF 以其通过集成决策树来减少过拟合的能力而闻名,GBM 以其通过优化弱学习器来解决数据不平衡问题的能力而闻名,SVM 以其在高维空间中的有效性而闻名,LR 是一种快速高效的基线,而 NN 则用于对复杂关系进行建模,需要仔细调整架构 [10, 12, 15, 17, 19, 23]。

    实验设计

    我们的工作使用了一个包含实际异常和人工插入异常的财务数据集,旨在检测后者,同时最大限度地减少前者中的误报。该数据集反映了现实世界条件,具有显著的类不平衡,与 Bakumenko 等人的工作 [6] 中的数据集相同,经过匿名化和细化,只包含必要的分类特征。我们将 8 种类型的异常视为单个异常类,从而将其构建为二元分类挑战,确保我们的训练/测试分割中异常类型的均匀分布。

    为了有效地识别财务日记账分录中的异常,这些分录构成一个高维数据集,我们通过使用 SBERT LLM 对非语义分类数据进行编码来进行创新,特别是使用 3 个 Sentence-Transformers 模型将可变长度的分录标准化为一致的特征空间,解决原始工作 [6] 中传统编码方法的局限性。

    实验结果

    编码特征集分析

    我们对来自三个 SBERT 模型嵌入的特征集进行了主成分分析 (PCA)(图 3)。PCA 展示了嵌入在数据集中的维度和信息保留能力,尽管进行了降维,但仍然保留了显著的方差。来自 all-MiniLM-L6-v2 模型 (LLM1) 的嵌入需要 63 个成分才能保留 99% 的方差,需要 150 个成分才能保留 99.9% 的方差,而 all-distilroberta-v1 (LLM2) 和 all-mpnet-base-v2 (LLM3) 模型,尽管向量更大(770),但对于相同的方差水平,需要的成分更少(LLM2 为 57 个,LLM3 为 52 个)。

    进一步分析表明,最终 0.9% 的方差信息量较少,这表明它可能包含噪声或数据集特定的特征。一项比较研究(图 4)表明,LLM 嵌入在降维方面优于独热编码。LLM 嵌入在维度更少的情况下保持了高方差,这与来自独热编码的稀疏、高维向量形成对比。独热编码数据最初有 2336 个维度,降维到 419 个才能达到 99% 的方差,这仍然高于 LLM 嵌入。

    重要的是要认识到 PCA 的线性性质限制了它捕捉非线性复杂性的能力。虽然 PCA 有助于理解结构属性和降维的潜力,但它不能预测下游任务中的性能。我们的扩展分析包括对这些任务中嵌入的经验评估。

    总之,LLM 嵌入比独热编码提供更有效的数据表示,对于类似的方差水平,需要更少的维度,这使得 LLM 嵌入更适合复杂任务。

    下游模型训练和优化

    我们使用了各种机器学习分类器,如第 4.3 节所述,包括 SVM、RF、XGBoost、LR、ANN 和 DNN。对于非 ANN/DNN 模型,使用 Hyperopt 库和树形 Parzen 估计器 (TPE) 算法进行贝叶斯优化,在 100 次迭代中进行超参数调整。计算样本权重以解决不平衡数据集问题,并通过转换多类别标签来实现二元分类。模型训练使用 Python 以及 Scikit-learn 和 TensorFlow 库。我们设计了三种具有不同复杂度的神经网络架构,并在 50 个 epoch 上进行训练,并使用早期停止来进行泛化,如表 2 所示。

    通过在 NumPy 和 TensorFlow 中固定种子来确保可重复性,并通过自定义回调来监控平均召回宏。ANN 模型包含单个隐藏层,用于快速训练,DNN1 包含多个隐藏层,用于复杂模式识别,DNN2 包含 dropout 层,以防止过拟合,同时保持类似 DNN1 的深度架构。

    评估指标和比较分析

    在这项工作中,我们之前讨论了将 LR 作为基线模型的好处。对于三个 SBERT 模型嵌入中的每一个,我们训练了两个下游 LR 模型:一个使用默认参数的模型和一个经过 Hyperopt 优化的模型。未经优化的模型在平均召回宏方面表现出高性能,分别为 all-MiniLM-L6-v2 为 0.9516,all-distilroberta-v1 为 0.9040,all-mpnet-base-v2 为 0.9520。图 5 显示了经过优化的 LR 模型的学习曲线,使用 函数进行交叉验证,以检查泛化和过拟合。它在不断增加的数据子集上训练模型,并在训练集和验证集上进行评估,使用 5 折交叉验证。我们计算了跨折叠的训练和验证分数的均值和标准差,以评估平均性能和变异性,同时考虑类不平衡。训练分数线(红色)表示训练子集的性能,交叉验证分数线(绿色)表示未见过的验证集的性能,提供了一个可靠的估计,用于评估跨数据子集的模型性能以及通过更多数据进行改进的可能性。

    在图 5 中,所有三个模型都展示了积极的学习特征。E3 模型在学习和泛化方面表现出色,展示了强大的数据学习能力。E1 模型虽然性能尚可,但显示出达到学习能力极限的迹象。E2 模型正在改进,但需要更好的正则化策略。Hyperopt 优化的分析显示,E1 的 C 值为 0.07677,表明正则化程度适中。E2 的正则化更强,C 值为 0.01702,并使用 ‘newton-cg’ 求解器。E3 的 C 值最小,为 0.01358,使用 ‘liblinear’ 求解器,显示出最强的正则化。所有模型都使用统一的类权重来提高少数类预测精度,并根据其学习需求调整特定的正则化强度和求解器选择。

    图 6 评估了 LR、RF、XGB、SVM 和 NN 分类器的性能,这些分类器经过优化并与来自三个语言模型的嵌入相集成。性能指标基于平均召回宏。所有嵌入都显示出不同程度的有效性,其中 all-mpnet-base-v2 在各种分类器中表现出稳定性和性能。all-MiniLM-L6-v2 也表现良好,尤其是在 LR 和 NN 中,而 all-distilroberta-v1 也很稳固,但没有在 NN 中超过 all-MiniLM-L6-v2。这些差异表明,某些嵌入在下游任务中与特定分类器更兼容,这指导了实际模型选择。

    使用不同嵌入的优化模型的混淆矩阵值如表 3 所示。all-MiniLM-L6-v2 嵌入与 LR,以及 NN(如果 FP 减少),可能提供最平衡的性能,而 all-mpnet-base-v2 嵌入在跨模型的 TP 率方面表现出更高的性能。图 7 对比了 LLM 嵌入与传统填充独热编码在 LR、RF、SVM 和 NN 模型中的召回宏分数差异。每个条形图显示了 LLM 嵌入的召回分数差异,方框图总结了每个模型的分布和均值(菱形)。

    对于 LR,LLM 嵌入将召回分数提高了 +0.056、+0.030 和 +0.032,分布紧凑,表明在跨嵌入方面的一致增强。相反,RF 模型在使用 LLM 嵌入时表现出下降,差异分别为 -0.066、-0.044 和 -0.021,变异范围适中。SVM 模型在使用 LLM 嵌入时性能下降,差异分别为 -0.085、-0.108 和 -0.015,显示出向更低性能的显著变异。NN 模型受益于 LLM 嵌入,分别增加了 +0.064、+0.050 和 +0.062,变异性最小,表明可靠的积极影响。LLM 嵌入改进的 LR 和 NN 模型性能优于传统的填充独热编码,但通常会降低 RF 和 SVM 模型的有效性。虽然某些模型可能始终受益于 LLM 嵌入,但这突出了在将 LLM 嵌入应用于数据编码时性能的模型特定变异性。

    图 8 中的 Bland-Altman 图比较了两个分数集,评估了使用嵌入(all-MiniLM-L6-v2 (E1)、all-distilroberta-v1 (E2) 和 all-mpnet-base-v2 (E3))的机器学习模型性能与传统方法的对比。红线显示了所有模型的平均召回宏分数差异。蓝线设置在平均差异 ± 1.96 SD,定义了一致性限度,表明大多数分数差异的预期范围。蓝线周围的点分散表明,某些模型的新嵌入与传统方法相比,与预期性能范围一致。性能在跨机器学习模型和嵌入方面有所不同。例如,NN 模型通常表现出改进的结果,这一点由红线上方的正偏差所示,而 SVM 模型显示出有效性降低,这一点由负偏差所示。总体而言,使用 LLM 嵌入的机器学习模型往往与传统方法的预期性能范围相匹配,表明平均结果相当。

    假设重述

    对 Sentence-Transformer 嵌入进行的 PCA 分析表明,与传统方法相比,财务数据编码的紧凑性和信息保留能力有所提高,从而证实了假设 1。这突出了嵌入在标准化特征变异性和有效压缩信息方面的优越能力。

    对于假设 2,将 Sentence-Transformer 嵌入与优化的 LR 和 NN 模型相结合,显示出改进的异常检测性能,这证实了 LLM 嵌入超越传统方法的潜力。虽然观察到一些性能差异,例如在 SVM 模型中,但这些差异都在预期的范围内。结果强调了这种创新方法的有效性,强调了战略性模型选择的重要性,以最大限度地发挥其优势。

    讨论

    这项工作利用 Sentence-Transformer LLM 对财务数据进行编码,展示了一种增强异常检测的新方法。

    结果解读

    对来自三个 SBERT 模型(MiniLM-L6-v2、all-distilroberta-v1 和 all-mpnet-base-v2)的嵌入进行的 PCA 分析表明,与传统编码方法相比,财务数据集的降维和信息保留能力有了显著提高。例如,考虑到下游机器学习性能,all-mpnet-base-v2 模型只需要 52 个 PCA 成分就能保留 99% 的方差,而填充独热编码则需要 419 个。所有 3 个 SBERT 模型的嵌入特征维度在相同比较中明显更低。这种进步解决了财务非语义非时间性分类特征集中特征异质性和稀疏性的关键挑战,这比传统方法有了显著改进。下游机器学习模型的性能证实了 LLM 嵌入在异常检测中的有效性。各种机器学习分类器的使用,包括经过贝叶斯优化的 LR、RF、XGB、SVM 和 NN,以及多种架构和调整的参数,突出了嵌入的多功能性和提高模型性能的潜力。使用所有 3 个 SBERT 嵌入的 LR 和 NN 模型的优越评估指标强调了这些嵌入在增强异常检测方面的潜力。SVM 的表现不佳,即使在预期的范围内,也突出了在未来的应用中需要评估模型嵌入兼容性。

    对财务异常检测的影响

    将 Sentence-Transformer LLM 整合到财务异常检测中,代表着从传统方法的飞跃,增强了数据表示和算法对异常的敏感性。这种方法在实际应用中承诺通过提高准确性和最大限度地减少误报来提高欺诈检测效率,从而简化财务操作。这种新方法在某些情况下将成分数量减少了八倍,同时提高了下游模型性能,有效地标准化了特征变异性。它证明了其有效性,并为财务数据编码设定了新的标准。随着这种方法论变得越来越普遍,它可能会在财务分析中建立新的基准,推动该行业机器学习应用的进步。进一步的实证研究和现实世界应用可以巩固其地位并量化其影响。

    局限性和偏差

    我们的研究使用了来自各种 ERP 的真实世界数据集,并由财务审计人员添加了八种不同的有意引入和标记的异常。这些异常反映了审计人员对实际异常检测的兴趣,具有合成性质,可能会限制泛化能力。此外,分析现实世界财务数据的挑战在于可能存在的未标记异常,这可能会使机器学习模型验证产生偏差,并增加误报率。此外,PCA 分析是一种线性方法,其能力有限,无法表示特征集中的非线性关系。此外,LLM 对提示工程做出反应,这意味着输入特征连接的变化会改变嵌入,这一点在本研究中没有涉及。最后,我们的方法侧重于分类特征,需要在需要精确数值分析的情况下进行扩展。

    结论与未来工作

    贡献总结

    我们的研究通过将 LLM 嵌入与机器学习分类器相结合,推动了财务异常检测领域的发展,这是一种新方法,显著缓解了特征异质性和稀疏性问题。利用 Sentence-Transformer 模型对财务数据进行编码,我们的方法不仅在降维和信息保留方面超越了传统的编码技术,而且还展示了在选定的机器学习分类器中增强的异常检测效果。这与特征表示的既定原则相一致 [9],反映了它们在财务数据环境中的实际应用。在全面的实验设置和展示实际适用性的基础上,我们的工作为自然语言处理和财务分析交叉领域未来的研究提供了宝贵的见解。

    更广泛的影响和意义

    大型语言模型 (LLM) 在非语义财务数据上的创新应用解决了高维性和稀疏性问题,为 LLM 在其传统应用之外的领域的使用开创了先例。这反映了 LLM 成功地对视觉标记进行编码的发现 [30]。通过超越传统方法,LLM 嵌入展示了其在语言任务之外的潜力,特别是对于缺乏固有语义的数据类型。这种方法论的进步可以帮助各种具有类似挑战的行业,特别是医疗保健和零售行业,其中复杂的数据集可以从 LLM 增强的数据表示能力中获益。在医疗保健领域,LLM 嵌入可以通过检测主要为数值、缺乏文本清晰度或包含结构化数据(如 MRI、CT 扫描、ICD 代码和实验室值)的数据集中的模式来增强患者数据分析,这些数据需要领域知识才能进行解释。在零售领域,LLM 可以从高维交易数据中提供详细的见解,揭示复杂的产品-消费者交互。这可以增强机器学习模型预测行为、细分市场和推荐产品的能力,从而促进市场分析。

    LLM 在非语义数据上的使用扩展了它们的应用范围,并促使人们重新思考数据分析方法,从而推动跨学科研究,探索其在复杂数据集中的潜力。

    未来研究方向

    未来的研究应该将 LLM 嵌入方法扩展到更广泛的财务数据集,评估其可扩展性、对异常检测精度的影响以及响应不断变化的财务欺诈模式的计算效率。将这种方法扩展到跨多个领域的各种非语义数据类型,这些数据类型具有高维和稀疏数据集,并与其他先进的机器学习和深度学习模型相集成,将测试 LLM 嵌入的适应性和有效性。应该探索无监督策略来解决零日异常问题,改进我们的方法,以更好地检测新模式。未来的研究应该调查各种数据预处理策略(包括聚合方法和提示工程)如何提高 LLM 编码效率。对非线性降维技术的重点探索可以补充 PCA,旨在更有效地捕捉 LLM 嵌入中的复杂关系。调查合成异常与现实世界异常对模型性能的影响,将提供对发现的实际适用性的见解。最后,通过测试各种最先进的 LLM 架构来探索模型嵌入兼容性,可能会产生更量身定制的异常检测解决方案。

    参考文献

    [1] Yara Alghofaili, Albatul Albattah, and Murad A Rassam. 2020. A. nancial fraud
    detection model based on LSTM deep learning technique. Journal of Applied
    Security Research 15, 4 (2020), 498–516.

    [2] A. Alhashedi. 2021. Financial Fraud Detection Applying Data Mining Techniques:
    A Comprehensive Review from 2009 to 2019. Computer Science Review 40 (2021),

    1. https://doi.org/10.1016/j.cosrev.2021.100402

    [3] Abhijit Anand, Jurek Leonhardt, Jaspreet Singh, Koustav Rudra, and Avishek
    Anand. 2023. Data augmentation for sample e￿cient and robust document
    ranking. ACM Transactions on Information Systems (2023).

    [4] Matin N Ashtiani and Bijan Raahemi. 2021. Intelligent fraud detection in ￿nancial
    statements using machine learning and data mining: a systematic literature
    review. IEEE Access 10 (2021), 72504–72525.

    [5] V. Vlasselaer B. Baesens and W. Verbeke. 2015. Fraud analytics using descriptive,
    predictive, and social network techniques : a guide to data science for fraud detection.
    Wiley, New York.

    [6] Alexander Bakumenko and Ahmed Elragal. 2022. Detecting anomalies in ￿nancial

    data using machine learning algorithms. Systems 10, 5 (2022), 130.

    [7] Seila Becirovic, Emir Zunic, and Dzenana Donko. 2020. A Case Study of Cluster-
    based and Histogram-based Multivariate Anomaly Detection Approach in Gen-
    eral Ledgers. In 2020 19th International Symposium Infoteh-Jahorina (INFOTEH).
    IEEE, 1–6.

    [8] F Belfo and A Trigo. 2013. Accounting Information Systems: Tradition and Future

    Directions. Procedia Technology 9 (2013), 536–546.

    [9] Yoshua Bengio, Aaron Courville, and Pascal Vincent. 2013. Representation
    learning: A review and new perspectives. IEEE transactions on pattern analysis
    and machine intelligence 35, 8 (2013), 1798–1828.

    [10] Leo Breiman. 2001. Random forests. Machine learning 45 (2001), 5–32.
    [11] Longbing Cao. 2022. Ai in ￿nance: challenges, techniques, and opportunities.

    ACM Computing Surveys (CSUR) 55, 3 (2022), 1–38.

    [12] Tianqi Chen and Carlos Guestrin. 2016. Xgboost: A scalable tree boosting system.
    In Proceedings of the 22nd acm sigkdd international conference on knowledge
    discovery and data mining. 785–794.

  • 用XGBoost玩转排序任务:从原理到实战

    在信息爆炸的时代,如何从海量信息中快速找到我们想要的内容,成为了一个重要的挑战。排序学习(Learning to Rank,LTR)应运而生,它利用机器学习的力量,帮助我们对信息进行排序,将最符合用户需求的结果排在最前面。XGBoost作为一种强大的机器学习算法,在排序任务中也发挥着重要作用。

    排序任务:让信息井然有序

    排序任务广泛应用于搜索引擎、推荐系统、广告平台等领域。例如,当你搜索“美食”时,搜索引擎会根据相关性、受欢迎程度等因素对结果进行排序,将最符合你口味的餐厅排在最前面。

    XGBoost:排序任务的利器

    XGBoost(Extreme Gradient Boosting)是一种基于梯度提升树算法的机器学习模型,它在各种机器学习任务中都表现出色,包括排序任务。

    XGBoost在排序任务中主要使用pairwise rank方法。这种方法将排序问题转化为成对比较问题,即比较两个文档(doc)与当前查询(query)的相关程度,并根据比较结果对文档进行排序。

    XGBoost排序任务的流程

    1. 训练样本输入: 将包含query和doc的训练样本输入XGBoost模型。
    2. 特征候选集: XGBoost模型会根据训练样本,自动学习特征候选集。
    3. 寻找划分点: XGBoost模型会根据特征候选集,使用贪婪算法寻找最佳划分点,将数据分成不同的子集。
    4. 生成树: 重复步骤3,直到不能再分裂生成一棵完整的树。
    5. 拟合模型: XGBoost模型会根据训练样本,使用pairwise loss(AUC)来拟合模型,生成下一棵树。
    6. 训练完成: 当生成设定数目的树后,训练完成。
    7. 测试样本输入: 将测试样本输入训练好的XGBoost模型。
    8. 打分: XGBoost模型会根据训练所得模型和打分机制,对每个对进行打分。
    9. 排序: 根据打分结果,对doc进行排序。

    打分机制:相关度的量化

    XGBoost的打分机制是基于树模型的预测结果。每个对在每棵树上都会获得一个分数,最终的打分结果是所有树上分数的累加。

    需要注意的是,XGBoost的打分结果是相关度的一种表示,并不映射到某个具体数值。

    XGBoost排序任务的优势

    • 强大的预测能力: XGBoost模型能够学习复杂的特征关系,并做出准确的预测。
    • 可解释性: XGBoost模型能够提供特征重要性信息,帮助我们理解模型的决策过程。
    • 高效性: XGBoost模型能够高效地处理大规模数据。

    实战案例:用XGBoost进行搜索结果排序

    假设我们有一个搜索引擎,需要对搜索结果进行排序。我们可以使用XGBoost模型来训练一个排序模型,并利用该模型对搜索结果进行排序。

    1. 数据准备: 收集包含query和doc的训练数据,并提取相关特征,例如query和doc的文本相似度、doc的点击率等。
    2. 模型训练: 使用XGBoost模型训练排序模型,并使用pairwise loss作为目标函数。
    3. 模型评估: 使用测试数据评估模型的性能,例如AUC指标。
    4. 模型部署: 将训练好的模型部署到搜索引擎中,用于对搜索结果进行排序。

    总结

    XGBoost是一种强大的机器学习算法,它在排序任务中表现出色。通过使用XGBoost模型,我们可以构建高效、准确的排序系统,帮助用户快速找到他们想要的信息。

    参考文献

    • 【1】机器学习算法-初识Learning to Rank
    • 【2】浅谈Learning to Rank中的RankNet和LambdaRank算法
    • 【3】从L2R开始理解一下xgboost的 ‘objective’: ‘rank:pairwise’参数
    • 【4】XGBoost Documentation
    • 【5】xgboost/demo/rank/
    • 【6】机器学习排序之Learning to Rank简单介绍
    • 【7】通俗理解kaggle比赛大杀器xgboost
    • 【8】如何理解机器学习和统计中的AUC?
    • 【9】XGBoost learning-to-rank model to predictions core function?
    • 【10】『我爱机器学习』集成学习(三)XGBoost
    • 【11】XGBoost_源码初探
    • 【12】XGBoost Parameters

    深入解析 Learning to Rank (LTR)

    Learning to Rank (LTR) 是一种机器学习技术,用于构建能够对项目列表进行排序的模型,以最佳地满足用户的搜索意图。它在信息检索、推荐系统、自然语言处理等领域都有着广泛的应用。

    LTR 的核心思想:

    LTR 的核心思想是利用机器学习算法,从标注数据中学习一个排序函数,该函数能够预测不同项目与特定查询的相关性,并根据相关性对项目进行排序。

    LTR 的应用场景:

    • 搜索引擎: 根据用户查询,对网页进行排序,将最相关的网页排在前面。
    • 推荐系统: 根据用户的历史行为和偏好,推荐用户可能感兴趣的商品、电影、音乐等。
    • 机器翻译: 对多个候选翻译结果进行排序,选择最符合语法和语义的翻译结果。
    • 问答系统: 对多个候选答案进行排序,选择最有可能回答用户问题的答案。

    LTR 的工作流程:

    1. 数据收集和标注: 收集包含查询和相关项目的数据集,并对每个查询-项目对进行相关性标注,例如,使用 0 到 4 的等级表示相关性从低到高。
    2. 特征工程: 从查询、项目和上下文信息中提取特征,例如,查询词的 TF-IDF 值、项目的 PageRank 值、用户历史点击率等。
    3. 模型训练: 选择合适的 LTR 算法,使用标注数据和提取的特征训练排序模型。
    4. 模型评估: 使用测试集评估模型的排序性能,常用的指标包括 NDCG、MAP、MRR 等。
    5. 模型部署: 将训练好的模型部署到实际系统中,对新的查询进行排序。

    LTR 的主要类型:

    LTR 算法主要分为三类:

    • Pointwise: 将排序问题转化为单个项目的分类或回归问题,例如,预测每个项目的相关性得分,然后根据得分进行排序。
      • 优点: 简单易实现,训练速度快。
      • 缺点: 忽略了项目之间的相对顺序关系,可能导致排序结果不准确。
      • 常用算法: 线性回归、逻辑回归、支持向量机等。
    • Pairwise: 将排序问题转化为项目对的分类问题,例如,预测哪个项目比另一个项目更相关,然后根据预测结果进行排序。
      • 优点: 考虑了项目之间的相对顺序关系,排序结果更准确。
      • 缺点: 训练速度比 Pointwise 慢,需要处理的样本数量更多。
      • 常用算法: RankNet、LambdaRank、RankSVM 等。
    • Listwise: 将整个项目列表作为一个训练样本,直接优化排序列表的整体指标,例如,NDCG、MAP 等。
      • 优点: 直接优化排序指标,排序结果最准确。
      • 缺点: 训练速度最慢,算法复杂度高。
      • 常用算法: ListNet、AdaRank、LambdaMART 等。

    LTR 的优势:

    • 自动化: LTR 可以自动从数据中学习排序函数,无需人工制定复杂的排序规则。
    • 个性化: LTR 可以根据用户的历史行为和偏好,进行个性化的排序。
    • 可扩展性: LTR 可以处理大规模数据集和高维特征空间。

    LTR 的挑战:

    • 数据标注成本高: LTR 需要大量的标注数据,而标注数据的获取成本较高。
    • 模型可解释性差: 一些 LTR 模型,例如深度学习模型,可解释性较差,难以理解模型的排序依据。
    • 排序指标的选择: 不同的排序指标适用于不同的应用场景,选择合适的排序指标至关重要。

    总而言之,LTR 是一种强大的机器学习技术,可以帮助我们构建更智能、更精准的排序系统。随着技术的不断发展,LTR 将在更多领域发挥重要作用。


    使用 XGBoost 来优化搜索结果排序是一个很好的方法。以下是一个简单的步骤:

    1. 数据准备:收集一组包含搜索查询、搜索结果及相关性得分的训练数据。这些数据将用于训练 XGBoost 模型。
    2. 特征工程:根据搜索查询和结果内容,抽取出一些有用的特征,如关键词匹配度、标题相似度、点击率等。这些特征将作为 XGBoost 模型的输入。
      • 搜索词特征:关键词长度、关键词出现频率、关键词 TF-IDF 等。
      • 用户特征:用户年龄、性别、地理位置、历史搜索行为等。
    3. 模型训练:使用 XGBoost 算法在训练数据上训练一个排序模型。可以调整一些超参数,如树的深度、学习率等,以优化模型性能。
    4. 模型部署:将训练好的 XGBoost 模型集成到搜索系统中,当用户进行搜索时,根据结果的特征信息,利用模型进行实时预测,得到最终的排序结果。
    5. 持续优化:随着时间的推移,可以收集新的训练数据,周期性地重新训练模型,以适应搜索环境的变化。

    下面是一个简单的 Python 代码示例,展示如何使用 XGBoost 进行搜索结果排序:

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    
    # 假设数据已经准备好,包含搜索结果特征、搜索词特征和用户特征
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 创建并训练 XGBoost 模型
    model = xgb.XGBRanker(objective='rank:pairwise',
                         learning_rate=0.1,
                         max_depth=3,
                         n_estimators=100,
                         random_state=42)
    model.fit(X_train, y_train,
              eval_set=[(X_val, y_val)],
              eval_metric='ndcg@5',
              early_stopping_rounds=10)
    
    # 对新的搜索结果进行排序
    new_X = ...  # 新的搜索结果特征、搜索词特征和用户特征
    rankings = model.predict(new_X. sorted_results = new_X[np.argsort(rankings)[::-1]]

    这只是一个简单的示例,实际应用中可能需要更复杂的特征工程和模型优化。


  • 如何用XGBoost对搜索结果进行优化排序

    XGBoost是一种强大的梯度提升算法,可以用于对搜索结果进行排序,从而提升搜索质量。下面将详细说明如何使用XGBoost进行搜索结果优化排序:

    1. 数据准备

    • 收集数据: 首先需要收集搜索结果的相关数据,包括:
      • 查询: 用户输入的搜索词
      • 文档: 与查询相关的搜索结果,每个文档包含标题、摘要、链接等信息
      • 相关性标签: 人工标注的查询与文档之间的相关性等级,例如:
        • 完美: 文档完全满足查询意图
        • 优秀: 文档高度相关,但可能缺少一些细节
        • 良好: 文档部分相关,可以提供一些有用信息
        • 较差: 文档与查询不太相关
        • 无关: 文档与查询完全无关
    • 特征工程: 将原始数据转换成模型可以理解的特征向量,常用的特征包括:
      • 查询特征: 查询词长度、查询词类型(如人物、地点、事件)、查询词的IDF值等
      • 文档特征: 文档长度、文档中关键词的TF-IDF值、文档的PageRank值、文档的新鲜度等
      • 查询-文档交互特征: 查询词与文档标题的相似度、查询词与文档摘要的相似度、查询词在文档中出现的频率等
    • 数据集划分: 将收集到的数据划分为训练集、验证集和测试集,用于模型训练、参数调优和最终效果评估。

    2. 模型训练

    • 选择目标函数: XGBoost支持多种目标函数,对于搜索结果排序问题,常用的目标函数是 Rank:Pairwise,它会比较两个文档的预测得分,并根据它们的真实相关性标签进行惩罚。
    • 设置评估指标: 选择合适的评估指标来衡量模型的排序效果,常用的指标包括:
      • NDCG (Normalized Discounted Cumulative Gain): 考虑了文档的相关性和位置,值越高表示排序效果越好。
      • MAP (Mean Average Precision): 计算每个查询的平均准确率,然后对所有查询进行平均,值越高表示排序效果越好。
    • 调整超参数: XGBoost 有许多超参数可以调整,例如树的数量、树的深度、学习率等。可以使用网格搜索或贝叶斯优化等方法来找到最佳的超参数组合。

    3. 模型评估和部署

    • 模型评估: 使用测试集评估训练好的模型的排序效果,并分析模型的优缺点。
    • 模型部署: 将训练好的模型部署到线上搜索系统中,对新的查询进行实时排序。

    示例代码 (Python)

    import xgboost as xgb
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import ndcg_score
    
    # 加载数据
    # 假设数据已经处理成特征向量,并存储在 X 和 y 中
    # X. 特征矩阵,每行代表一个查询-文档对
    # y: 相关性标签,值越大表示相关性越高
    
    # 划分数据集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 定义 XGBoost 排序模型
    params = {
        'objective': 'rank:pairwise',
        'eval_metric': 'ndcg',
        'eta': 0.1,
        'max_depth': 6,
        'n_estimators': 100,
    }
    dtrain = xgb.DMatrix(X_train, label=y_train)
    dtest = xgb.DMatrix(X_test, label=y_test)
    
    # 训练模型
    model = xgb.train(params, dtrain, evals=[(dtest, 'eval')], num_boost_round=1000, early_stopping_rounds=10)
    
    # 预测排序
    y_pred = model.predict(dtest)
    
    # 评估模型
    ndcg = ndcg_score([y_test], [y_pred])
    print(f"NDCG: {ndcg}")
    
    # 保存模型
    model.save_model("xgb_ranking_model.bin")

    总结

    使用 XGBoost 对搜索结果进行优化排序是一个复杂的过程,需要进行数据准备、特征工程、模型训练、参数调优、模型评估和部署等多个步骤。同时,需要根据具体的业务场景和数据特点选择合适的特征、模型和评估指标,才能取得最佳的排序效果。


    NDCG 和 MAP
    解析:

    在信息检索领域,评估排序结果好坏是非常重要的环节。NDCG 和 MAP 是常用的两种评估指标,它们都考虑了文档的相关性和位置信息,但计算方式有所不同。

    1. NDCG (Normalized Discounted Cumulative Gain): 归一化折损累计增益

    NDCG 是一种衡量排序质量的指标,它考虑了文档的相关性和位置,认为排名靠前的相关文档比排名靠后的相关文档更有价值。

    计算步骤:

    1. 计算每个文档的增益 (Gain): 根据文档的相关性等级,赋予每个文档一个增益值。例如,可以使用以下规则:
      • 完美: 3分
      • 优秀: 2分
      • 良好: 1分
      • 较差: 0分
      • 无关: 0分
    2. 计算累计增益 (Cumulative Gain): 将前 k 个文档的增益值累加起来,得到 CG@k。
    3. 计算折损累计增益 (Discounted Cumulative Gain): 对 CG@k 进行折损,将排名靠后的文档的增益值降低。常用的折损函数是 1/log2(i+1),其中 i 是文档的排名。
      • DCG@k = Σ(i=1 to k) [Gain(i) / log2(i+1)]
    4. 计算理想折损累计增益 (Ideal Discounted Cumulative Gain): 对完美排序下的 DCG@k 进行计算,得到 IDCG@k。完美排序是指所有相关文档都排在最前面。
    5. 计算归一化折损累计增益 (Normalized Discounted Cumulative Gain): 将 DCG@k 除以 IDCG@k,得到 NDCG@k。
      • NDCG@k = DCG@k / IDCG@k

    NDCG 的取值范围是 [0, 1],值越高表示排序效果越好。

    示例:

    假设有 5 个文档,相关性等级分别为:[完美, 优秀, 无关, 良好, 较差],则:

    • 完美排序: [完美, 优秀, 良好, 较差, 无关]
    • 模型排序: [完美, 无关, 优秀, 良好, 较差]

    计算 NDCG@3:

    • 完美排序:
      • DCG@3 = 3/log2(2) + 2/log2(3) + 1/log2(4) ≈ 4.26
      • IDCG@3 = 4.26 (因为是完美排序)
      • NDCG@3 = 4.26 / 4.26 = 1
    • 模型排序:
      • DCG@3 = 3/log2(2) + 0/log2(3) + 2/log2(4) ≈ 3.5
      • IDCG@3 = 4.26
      • NDCG@3 = 3.5 / 4.26 ≈ 0.82

    2. MAP (Mean Average Precision): 平均准确率均值

    MAP 是一种衡量检索系统在所有查询上的平均性能的指标,它考虑了每个查询的平均准确率 (Average Precision)。

    计算步骤:

    1. 计算每个查询的准确率 (Precision): 对于每个查询,计算前 k 个文档的准确率 P@k,即前 k 个文档中相关文档的比例。
    2. 计算每个查询的平均准确率 (Average Precision): 对于每个查询,计算所有相关文档位置上的准确率的平均值。
      • AP = Σ(k=1 to n) [P@k * rel(k)] / num_relevant_docs
      • 其中 n 是文档总数,rel(k) 表示第 k 个文档是否相关 (相关为 1,不相关为 0),num_relevant_docs 是相关文档的总数。
    3. 计算所有查询的平均准确率均值 (Mean Average Precision): 将所有查询的 AP 值进行平均。
      • MAP = Σ(q=1 to Q. [AP(q)] / Q
      • 其中 Q 是查询的总数。

    MAP 的取值范围也是 [0, 1],值越高表示排序效果越好。

    示例:

    假设有两个查询,每个查询返回 5 个文档,相关性标签如下:

    • 查询 1: [完美, 优秀, 无关, 良好, 较差]
    • 查询 2: [优秀, 无关, 良好, 完美, 较差]

    计算 MAP:

    • 查询 1:
      • P@1 = 1/1 = 1, P@2 = 2/2 = 1, P@3 = 2/3 ≈ 0.67, P@4 = 3/4 = 0.75, P@5 = 3/5 = 0.6
      • AP = (11 + 11 + 0.670 + 0.751 + 0.6*0) / 3 ≈ 0.81
    • 查询 2:
      • P@1 = 1/1 = 1, P@2 = 1/2 = 0.5, P@3 = 2/3 ≈ 0.67, P@4 = 3/4 = 0.75, P@5 = 3/5 = 0.6
      • AP = (11 + 0.51 + 0.671 + 0.751 + 0.6*0) / 4 ≈ 0.73
    • MAP = (0.81 + 0.73) / 2 = 0.77

    总结:

    • NDCG 更加关注排名靠前的文档,适用于评估 Top-K 排序结果。
    • MAP 综合考虑了所有相关文档的位置,适用于评估整体排序性能。

    选择哪种指标取决于具体的应用场景和需求。


    NDCG 和 MAP 计算实例详解

    为了更清晰地解释 NDCG 和 MAP 的计算过程,我们用一个具体的例子来说明。

    假设有一个搜索引擎,用户提交了两个查询 Query 1 和 Query 2,每个查询返回了 5 个结果,每个结果的相关性等级已经标注好,如下表所示:

    查询排名文档相关性等级Gain
    Query 11A完美3
    2B优秀2
    3C无关0
    4D良好1
    5E较差0
    Query 21F优秀2
    2G无关0
    3H良好1
    4I完美3
    5J较差0

    1. NDCG 计算

    我们以 NDCG@3 为例,分别计算 Query 1 和 Query 2 的 NDCG@3,然后取平均值。

    Query 1:

    • 计算 DCG@3:
      • DCG@3 = 3/log2(1+1) + 2/log2(2+1) + 0/log2(3+1) ≈ 3.52
    • 计算 IDCG@3:
      • 完美排序为:[A, B, D],因此:
      • IDCG@3 = 3/log2(1+1) + 2/log2(2+1) + 1/log2(3+1) ≈ 4.26
    • 计算 NDCG@3:
      • NDCG@3 = DCG@3 / IDCG@3 ≈ 3.52 / 4.26 ≈ 0.83

    Query 2:

    • 计算 DCG@3:
      • DCG@3 = 2/log2(1+1) + 0/log2(2+1) + 1/log2(3+1) ≈ 2.13
    • 计算 IDCG@3:
      • 完美排序为:[F, H, I],因此:
      • IDCG@3 = 2/log2(1+1) + 1/log2(2+1) + 3/log2(3+1) ≈ 4.52
    • 计算 NDCG@3:
      • NDCG@3 = DCG@3 / IDCG@3 ≈ 2.13 / 4.52 ≈ 0.47

    平均 NDCG@3:

    • (0.83 + 0.47) / 2 = 0.65

    2. MAP 计算

    分别计算 Query 1 和 Query 2 的 AP (Average Precision),然后取平均值。

    Query 1:

    • 相关文档有:A, B, D. 共 3 个
    • P@1 = 1/1 = 1
    • P@2 = 2/2 = 1
    • P@3 = 2/3 ≈ 0.67
    • P@4 = 3/4 = 0.75
    • P@5 = 3/5 = 0.6
    • AP = (11 + 11 + 0.670 + 0.751 + 0.6*0) / 3 ≈ 0.81

    Query 2:

    • 相关文档有:F, H, I. 共 3 个
    • P@1 = 1/1 = 1
    • P@2 = 1/2 = 0.5
    • P@3 = 2/3 ≈ 0.67
    • P@4 = 3/4 = 0.75
    • P@5 = 3/5 = 0.6
    • AP = (11 + 0.50 + 0.671 + 0.751 + 0.6*0) / 3 ≈ 0.64

    平均 MAP:

    • (0.81 + 0.64) / 2 = 0.725

    总结:

    通过以上例子,我们可以看到 NDCG 和 MAP 都是用来评估搜索结果排序质量的指标,但它们侧重点有所不同。NDCG 更关注排名靠前的结果,而 MAP 则综合考虑了所有相关文档的位置。选择哪种指标取决于具体的应用场景和需求。


  • 法律智慧的知识注入:通过诊断和正负样本强化学习探索大语言模型咨询

    近年来,随着生成式大语言模型(LLMs)的广泛应用,其在法律领域也得到了越来越多的关注。然而,对于没有法律背景的用户来说,在面对法律案件时,他们往往难以用专业语言进行提问,也可能在向LLMs陈述案件时忽略关键的法律因素。为了解决这个问题,我们提出了诊断式法律大语言模型(D3LM),它利用类似律师的适应性诊断问题来收集额外的案件信息,并提供高质量的反馈。

    D3LM结合了一种创新的基于图的正负样本强化学习(PURL)算法,能够生成关键问题,并增强用户与LLMs的交互。此外,一个集成的基于LLMs的停止准则,可以实现精确的法院观点生成(CVG)。我们的研究还引入了一个新的基于美国案例法数据库的英语CVG数据集,为LLMs研究和部署领域增添了重要维度。D3LM超越了传统LLMs,在法律领域展现出卓越的性能和非凡的用户体验。

    法律服务的新纪元:D3LM的优势

    传统LLMs在法律咨询中存在局限性,用户往往需要自行组织语言,而LLMs则无法主动引导用户提供更详细的信息。D3LM则不同,它就像一位专业的律师,通过一系列针对性的问题,引导用户提供更多案件细节,从而更准确地预测法律结果。

    例如,假设一位客户因酒吧斗殴而被指控故意伤害。传统LLMs可能会基于客户提供的模糊描述,给出笼统的法院观点,但由于信息不足,可能会忽略关键细节。而律师则会通过一系列针对性的问题,深入了解案件细节,例如:”您当时是否处于酒精影响下?“,”酒吧是否有监控摄像头记录了事件?“。D3LM则能够自动生成类似的问题,在不增加额外成本的情况下,更深入地理解案件,并提高法律结果预测的准确性。

    知识图谱与强化学习:D3LM的核心技术

    D3LM的核心技术在于将LLMs与法律知识图谱相结合,并利用正负样本强化学习(PURL)算法来生成关键问题。

    1. 法律知识图谱: D3LM将美国案例法数据库中的案件信息转化为结构化的事实-规则图,并利用“问题、规则、分析、结论”(IRAC)框架,将复杂的案件叙述简化为简洁的表示形式。

    2. 正负样本强化学习: D3LM通过随机遮蔽事实节点,生成一系列关于案件的潜在问题。然后,利用LLMs对遮蔽后的案件描述进行重建,并生成相应的法院观点。通过比较重建后的法院观点与真实法院观点,模型可以学习到哪些问题对于预测法律结果更重要。

    3. 法院观点生成: D3LM基于PURL算法,能够根据用户提供的案件信息,生成更准确的法院观点。它能够识别案件中的关键因素,并通过一系列针对性的问题,引导用户提供更详细的信息,从而提高法院观点生成的准确性和可靠性。

    突破性数据集:为法律AI研究提供新基准

    为了更好地评估D3LM的性能,我们创建了一个全新的英语CVG数据集,该数据集基于美国案例法数据库,并经过法律专业人士的严格审核。该数据集弥补了英语法律分析数据集的不足,为法律AI研究提供了新的基准。

    实验结果:D3LM的卓越表现

    我们对D3LM进行了全面的评估,并将其与其他基准模型进行了比较。实验结果表明,D3LM在生成美国法院观点方面表现出色,在ROUGE和BLEU指标上均取得了最佳成绩。

    此外,我们还进行了用户体验测试,结果表明,用户对D3LM的可靠性和满意度评分均高于GPT-4.0。这表明,D3LM的交互式提问方式,更能满足用户对法律咨询的实际需求。

    展望未来:法律AI的无限可能

    D3LM的出现,为法律AI研究开辟了新的道路。未来,我们将进一步探索D3LM在其他领域,例如医疗和咨询领域的应用,使其能够为更多用户提供更便捷、更精准的服务。

    参考文献

    • Achiam, J. , et al. (2023). “ChatGPT: Optimizing Language Models for Dialogue.” arXiv preprint arXiv:2212.00183.
    • Auer, P. , et al. (2002). “Finite-time analysis of the multiarmed bandit problem.” Machine learning, 47(2-3), 235-256.
    • Brescia, E. , et al. (2014). “The cost of justice: A comparative analysis of legal aid systems in Europe.” European Journal of Law and Economics, 37(3), 221-242.
    • Caselaw Access Project (2024). “Caselaw Access Project.” Retrieved from https://casetext.com/
    • Chapelle, O. , and Li, L. (2011). “An empirical evaluation of thompson sampling.” Advances in neural information processing systems, 24.
    • Chen, H. , et al. (2020). “Predictive adversarial learning for positive-unlabeled learning.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 3420-3427.
    • Chen, J. , et al. (2022). “Law article recommendation based on user interest and legal knowledge graph.” Journal of Grid Computing, 20(1), 1-14.
    • Chen, Z. , et al. (2023). “DISCO: Data Augmentation for Natural Language Understanding via Counterfactual Examples.” arXiv preprint arXiv:2303.17159.
    • Chu, W. , et al. (2011). “Contextual bandits with linear payoff functions.” Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, 1-10.
    • Cui, Y. , et al. (2023). “ChatLaw: A Large Language Model for Legal Question Answering.” arXiv preprint arXiv:2304.04170.
    • Du Plessis, M. C., et al. (2015). “Deep learning for imbalanced datasets: A review.” arXiv preprint arXiv:1506.02291.
    • Gans-Morse, J. (2017). “The demand for legal services: A review of the literature.” Journal of Legal Studies, 46(S1), S1-S37.
    • Gensler, H. J. (1985). “Legal Reasoning: A Cognitive Approach.” Stanford Law Review, 38(1), 1-41.
    • Hadfield, G. K. (2010). “The economics of legal disputes.” In The Handbook of Law and Economics (pp. 1-51). Edward Elgar Publishing.
    • Horwitz, M. J. (2020). “The future of legal services: The rise of the legal tech revolution.” Harvard Law Review, 133(8), 2299-2320.
    • Hu, B. , et al. (2021). “Predictive adversarial learning for positive-unlabeled learning with heterogeneous data.” IEEE Transactions on Neural Networks and Learning Systems, 32(11), 4938-4951.
    • Hu, W. , et al. (2018). “Predicting charge decisions in criminal judgments using deep learning.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.
    • Jin, Z. , et al. (2024). “Legal Reasoning with Large Language Models: A Survey.” arXiv preprint arXiv:2401.06204.
    • Kiryo, R. , et al. (2017). “Positive-unlabeled learning with non-negative risk estimator.” Advances in Neural Information Processing Systems, 30.
    • Lin, J. , et al. (2012). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 1201-1210.
    • Liu, Y. , and Wu, Y. (2020). “Fake news detection on social media: A data mining perspective.” ACM SIGKDD Explorations Newsletter, 22(1), 1-11.
    • Liu, Y. , et al. (2019). “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv preprint arXiv:1907.11692.
    • Liu, Z. , et al. (2022). “WANLI: A Large-Scale Chinese Legal Dataset for Legal Reasoning.” arXiv preprint arXiv:2208.08227.
    • Purba, M. S., and Syahrin, M. (2019). “The role of legal services in promoting economic growth and development.” Journal of Law, Policy and Globalization, 54, 1-10.
    • Robertson, S. E., and Walker, S. (1994). “Some simple effective approximations to the 2-poisson model for probabilistic retrieval.” Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, 232-241.
    • Schick, T. , et al. (2023). “On the Importance of Completeness in Legal Reasoning: A Case Study with Large Language Models.” arXiv preprint arXiv:2303.14412.
    • Swayamdipta, S. , et al. (2020). “Dataset Cartography: A Framework for Refining NLI Examples with GPT-3.” arXiv preprint arXiv:2009.05396.
    • Tong, H. , et al. (2020). “Inductive representation learning on graphs.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5041-5048.
    • Touvron, J. , et al. (2023). “Llama 2: Open and Efficient Foundation Models.” arXiv preprint arXiv:2307.09286.
    • Wei, X. , and Li, B. (2018). “Adversarial learning for positive unlabeled learning.” Proceedings of the 32nd AAAI Conference on Artificial Intelligence, 4427-4434.
    • Wu, Y. , et al. (2020). “Attention and Counterfactual-based Court View Generation.” Proceedings of the 29th ACM International Conference on Information and Knowledge Management, 1885-1894.
    • Wu, Y. , et al. (2023). “Predictive Adversarial Learning for Positive-Unlabeled Learning with Heterogeneous Data.” IEEE Transactions on Neural Networks and Learning Systems, 34(11), 4938-4951.
    • Xiao, J. , et al. (2021). “Lawformer: A Pre-trained Language Model for Legal Text Understanding.” arXiv preprint arXiv:2106.01796.
    • Ye, Y. , et al. (2018). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.
    • Zamfirescu-Pereira, I. , et al. (2023). “The Impact of Large Language Models on the Legal Profession: A Critical Analysis.” arXiv preprint arXiv:2305.11136.
    • Zhao, Y. , et al. (2022). “Dist-PU: A Distribution-Based Approach for Positive-Unlabeled Learning.” Proceedings of the AAAI Conference on Artificial Intelligence, 36(12), 12638-12646.
    • Zhong, H. , et al. (2018). “Predicting charge decisions in criminal judgments using a hybrid approach.” Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 1189-1198.
    • Zhou, D. , et al. (2020). “Neural contextual bandits with UCB exploration.” Proceedings of the AAAI Conference on Artificial Intelligence, 34(04), 5744-5751.
    • Zhou, Y. , et al. (2021). “Positive-Unlabeled Learning for Recommendation with Implicit Feedback.” Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2213-2222.
  • 问答系统中的检索复杂度:解码复杂问题的奥秘

    在信息爆炸的时代,问答系统(QA)成为了我们获取知识的重要工具。其中,基于检索的问答系统凭借其从外部资源中获取信息的能力,成为了主流方案。然而,当面对需要多步推理或整合多方面信息才能回答的复杂问题时,这些系统就显得力不从心了。

    如何判断一个问题是否复杂? 现有研究大多关注问题本身的结构,例如多跳问题(需要多步推理才能找到答案)或组合型问题(答案需要整合多个信息片段)。然而,这些指标并不能完全反映一个问题在检索问答系统中的实际难度。

    检索复杂度:衡量问答系统难度的全新视角

    本文介绍了一种名为检索复杂度(RC) 的全新指标,用于衡量问答系统在回答特定问题时的难度。RC 考虑了 检索结果的完整性,即检索到的文档是否包含足够的信息来回答问题。

    直观理解: 假设我们想问“狮子比老虎大吗?”,这个问题虽然结构简单,但答案可能只需要从一个描述狮子和老虎大小的文档中找到。而另一个问题“狮子比冰箱大吗?”,则需要整合多个信息片段才能得出答案,因为很少有文档会同时描述狮子和冰箱的大小。

    Reference-based Question Complexity Pipeline (RRCP):揭示检索复杂度

    为了量化检索复杂度,研究者们设计了一个名为 RRCP 的无监督管道。它包含三个关键部分:

    1. 检索系统: 使用先进的检索技术,根据问题从多个索引中获取相关文档。
    2. GenEval: 一种基于参考的自动评估系统,通过比较检索到的文档和参考答案,评估问题的难度。
    3. 约束机制: 通过两个阈值来判断问题是否满足“可回答性”和“检索集完整性”的约束。

    GenEval:精准评估答案正确性

    GenEval 是一种基于编码器-解码器结构的模型,经过训练可以判断检索到的文档是否包含问题的正确答案。与其他评估方法相比,GenEval 具有以下优势:

    • 基于更强大的编码器-解码器模型,可以更灵活地学习和预测。
    • 训练数据更丰富,包括真实参考数据集和合成数据,可以更好地处理各种情况。

    两个约束:揭示复杂问题的本质

    RRCP 通过两个约束来判断问题的复杂程度:

    1. 可回答性: 评估是否可以通过单个检索到的文档来回答问题。
    2. 检索集完整性: 评估检索到的文档是否包含回答问题所需的所有信息。

    实验验证:RRCP 的优越性

    研究者们在多个问答数据集上对 RRCP 进行了评估,结果表明:

    • RRCP 在识别复杂问题方面表现出色,优于其他基于语言模型的无监督方法。
    • 检索复杂度与问答系统的性能密切相关,复杂度高的问题通常更难回答。
    • RRCP 可以识别多种类型的复杂问题,包括多跳问题、比较问题、时间问题、最高级问题和聚合问题。

    未来的方向:突破局限,开拓应用

    尽管 RRCP 取得了显著成果,但也存在一些局限性,例如对参考答案的依赖和对检索系统质量的敏感性。未来,研究者们将致力于:

    • 减少对参考答案的依赖,探索基于语言模型的无监督评估方法。
    • 提升检索系统的质量,以提高 RRCP 的准确性。

    检索复杂度:问答系统发展的新起点

    检索复杂度的概念为我们理解问答系统的难度提供了新的视角。通过识别复杂问题,我们可以更好地优化问答系统,提升其在处理复杂问题时的性能。未来,随着技术的不断发展,检索复杂度将成为问答系统发展的新起点,推动问答系统向着更智能、更精准的方向发展。

    参考文献:

  • 对话式搜索引擎的排名操纵:一场悄无声息的“战争”

    近年来,大型语言模型(LLM)作为强大的对话式代理,在搜索引擎领域掀起了一场革命。像OpenAI和perplexity.ai这样的公司推出了完全对话式的搜索服务,而谷歌等传统搜索引擎也开始将生成式内容融入其中。这些对话式搜索引擎通过将检索到的网站文本加载到LLM的上下文中,进行摘要和解释,为用户提供更人性化的搜索体验。

    然而,这种革命性的搜索技术也带来了一个不容忽视的问题:对话式搜索引擎是否可以被操纵,从而始终推崇某些特定的内容?这个问题在商业领域尤其重要,因为网站排名往往与企业的收入和声誉息息相关。

    操纵对话式搜索引擎:一场隐形的“战争”

    本文将深入探讨对话式搜索引擎的排名机制,并揭示其在对抗性操纵面前的脆弱性。研究人员发现,通过在网站内容中注入对抗性提示,可以有效地影响LLM的排名结果,从而将某些网站置于搜索结果的顶端。

    LLM的“弱点”:对抗性提示注入

    LLM虽然强大,但它们也存在一些弱点。近年来,研究人员发现,LLM很容易受到“越狱”和提示注入攻击的影响。这些攻击通过在LLM的输入中插入对抗性字符串,破坏LLM的安全性和质量目标。

    对话式搜索引擎的“弱点”:排名机制的脆弱性

    对话式搜索引擎通常采用检索增强生成(RAG)架构,通过检索相关文本并将其加载到LLM的上下文中来生成答案。研究人员发现,RAG模型的排名机制容易受到对抗性提示注入攻击的影响。

    实验结果:对抗性提示注入的有效性

    研究人员通过实验验证了对抗性提示注入的有效性。他们构建了一个名为RagDoll的数据集,包含来自不同产品类别(如个人护理、电子产品、家用电器等)的真实网站。实验结果表明,不同的LLM在优先考虑产品名称、文档内容和上下文位置方面存在显著差异。

    更重要的是,研究人员发现,通过使用基于攻击树的“越狱”技术,可以可靠地将排名较低的网站提升到搜索结果的顶端。这些攻击甚至可以转移到像perplexity.ai这样的先进对话式搜索引擎。

    未来展望:防御对抗性提示注入攻击

    研究人员强调,对话式搜索引擎的脆弱性是一个亟待解决的问题。他们呼吁更多研究人员关注LLM的鲁棒性,并开发有效的防御机制,以抵御对抗性提示注入攻击。

    参考文献

    总结

    对话式搜索引擎的崛起为我们带来了更加人性化的搜索体验,但也带来了新的安全挑战。对抗性提示注入攻击的出现表明,对话式搜索引擎的排名机制存在漏洞,这可能会对企业的利益和用户的搜索体验造成负面影响。因此,加强LLM的鲁棒性,开发有效的防御机制,将成为未来对话式搜索引擎发展的关键。

  • 大型语言模型真的像人脑一样思考吗?

    近年来,大型语言模型(LLM)展现出惊人的能力,引发了人们对它们与人脑相似性的思考。一些研究人员试图通过测量模型预测神经信号的能力,即“脑评分”,来量化这种相似性。LLM 的内部表征在脑评分方面取得了最先进的成果,这让人们猜测它们可能与人类语言处理共享计算原理。然而,这种推断只有在 LLM 预测的神经活动子集反映了语言处理的核心要素时才有效。

    本文将对一项关于 LLM 与人脑映射的具有影响力的研究中使用的三个神经数据集进行分析,重点关注参与者阅读短篇文本的 fMRI 数据集。研究发现,当使用与先前研究中相同的数据集进行随机训练-测试分割时,一个编码时间自相关的简单特征不仅优于 LLM,而且解释了 LLM 解释的大部分神经方差。因此,研究人员建议谨慎使用随机训练-测试分割,并使用连续测试分割进行后续分析。

    LLM 的“脑评分”:真相还是幻觉?

    研究人员发现,未经训练的 LLM 在脑评分方面表现出高于预期的水平,这引发了人们对 Transformer 架构是否将计算偏向更像人脑的猜测。然而,研究表明,未经训练的 LLM 预测的神经方差,实际上主要由两个简单的特征解释:句子长度和句子位置。这削弱了 Transformer 架构更像人脑的证据。

    进一步研究发现,经训练的 LLM 在该数据集上的脑评分主要由句子长度、句子位置和代词消解后的静态词嵌入解释;一小部分额外的方差由词义嵌入和句子结构的上下文表征解释。

    揭秘 LLM 的“脑评分”:简单特征的强大力量

    为了深入了解 LLM 与人脑之间的映射关系,研究人员采用了逐步增加特征复杂度的策略,从简单的句子长度和句子位置特征开始,逐步添加词义嵌入、句法嵌入等更复杂的特征。

    结果表明,一个包含核心词义消解的简单模型,在解释 LLM 预测的神经方差方面表现出色,甚至超过了 LLM 本身。更复杂的上下文处理,例如词义消歧和上下文句法表征,在解释神经方差方面只起到了一定的补充作用。

    结论:谨慎解读 LLM 的“脑评分”

    研究表明,过度依赖脑评分可能会导致对 LLM 与人脑之间相似性的过度解读。研究人员强调,在使用脑评分进行分析时,需要对神经编码性能进行系统性分解,并与简单且理论上不重要的特征进行比较。只有在进行这种分解之后,我们才能更有把握地认为 LLM 的神经预测能力反映了人类语言处理的核心方面。

    参考文献

    [1] Feghhi, E. , Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2023). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores. arXiv preprint arXiv:2406.01538.

  • 人生梦想 - 关注前沿的计算机技术 acejoy.com