突破传统：利用大型语言模型提升财务数据异常检测

财务数据，尤其是来自总账的数据，记录着企业的财务交易，包括收入、支出、资产和负债，对于确保财务记录的真实性和透明度至关重要 [21, 24]。它不仅帮助企业满足监管机构、投资者和金融机构等利益相关者的要求，还通过分析支持决策，而异常检测则是维护数据完整性和可靠性的关键 [37]。

然而，财务数据中的异常，可能是由于错误、欺诈或操纵造成的，会带来巨大的财务损失，损害投资者信心，并需要进行欺诈调查 [24]。因此，及时有效地检测异常对于遵守法规和保护财务安全至关重要 [8, 22]。传统的财务异常检测方法在处理复杂、庞大的数据和不断升级的欺诈手法方面存在困难。早期的做法依赖于人工检查和基于规则的系统，效率低下，漏掉了很多异常，并产生了大量误报，导致财务欺诈难以察觉 [5]。

机器学习 (ML) 在现代财务审计中变得越来越重要，它能够高效地处理大型数据集并识别其中的模式。然而，随着财务欺诈手法变得越来越复杂，需要新的方法来克服数据预处理和模型局限性带来的挑战 [2, 22]。最近的研究表明，自动编码器在异常检测方面有潜力，而大型语言模型 (LLM) 在各种任务中都表现出色，但现实世界数据的稀疏性和复杂性限制了它们的有效性 [26, 36]。

挑战与机遇：利用大型语言模型编码非语义财务数据

本文着眼于高效检测总账数据中的异常，重点关注特征维度异质性和特征稀疏性这两个问题，它们阻碍了财务审计中的异常检测。我们的方法是利用 Sentence-BERT LLM 的预训练表示来编码日记账分录中的非语义分类数据，从而提高对数据异常的识别能力。

现有的解决方案使用各种矢量化方法，随后对稀疏特征进行降维，但这可能不足以应对现实世界中的日记账分录，因为这些分录在长度和复杂性上往往差异很大。此外，交易异常的非时间性特征限制了可应用的特征编码方法范围。因此，用于检测财务数据异常的机器学习算法在处理异质性和稀疏数据时会遇到困难，导致编码和分类问题，最终导致结果不理想。这会影响财务记录审计的可靠性。

我们提出了一种新方法，如图 1 所示，利用预训练的 Sentence-Transformer 模型来编码非语义财务数据，解决特征异质性和稀疏性问题。这种方法不同于传统的财务异常检测机器学习技术，它提出了一种混合模型，将 Sentence-Transformer 嵌入与机器学习分类器相结合，以提高异常检测性能。准确的异常检测是可靠财务审计的基石。改进处理财务数据中的异质性和稀疏性的方法可以显著提高异常检测流程，有助于更好地进行风险管理和遵守法规。该方法在财务异常检测之外具有更广泛的意义，为跨领域应用高级编码技术处理复杂数据集提供了模板。

研究目标与贡献

在这项工作中，我们提出了以下两个假设：

假设 1： 利用 Sentence-Transformer LLM 对财务记录中的非语义分类数据进行编码，可以有效地标准化特征变异性，增强特征集的紧凑性和信息保留能力，与传统方法相比，这一点可以通过 PCA 等降维技术来衡量。
假设 2： 将基于 Sentence-Transformer 的 LLM 嵌入与优化的机器学习模型相结合，可以提高财务日记账分录中的异常检测性能，这一点可以通过与传统机器学习方法相比，改进评估指标来证明。

在制定我们的假设时，我们借鉴了最近的研究发现，这些发现表明 LLM 除了文本任务之外，还可以适应其他任务 [28]。研究表明，最初在文本上训练的 LLM 可以有效地处理和编码非文本、语言非语义数据 [30]。这种能力源于其 Transformer 块的编码功能，促使我们提出了假设 1，建议使用 SBERT LLM 将非语义财务数据集转换为标准化的单一尺寸向量特征。随后，我们的假设 2 建立在 LLM 高效的编码能力基础上，这意味着集成 LLM 嵌入可以增强机器学习模型，特别是在检测财务数据中的异常方面。验证假设 1 将证明一种管理财务记录中特征变异性的新方法，增强异常检测。确认假设 2 将说明将 LLM 嵌入与优化模型相结合在检测财务异常方面的有效性，有可能超越传统方法。

这些发现可以共同改变当前财务异常检测的做法。LLM 的创新应用可以极大地推动该领域的发展，展示其在跨学科应用中的潜力，并改进财务审计和监控系统。

背景与相关工作

机器学习方法及其在检测财务异常方面的局限性

财务异常检测至关重要，欺诈活动对该行业造成了巨大影响。数字金融服务的兴起，尤其是在 COVID-19 大流行之后，需要先进的欺诈检测方法 [43]。深度学习，包括变分自动编码器和 LSTM 架构，在检测日记账分录 [44] 和电子商务 [27] 中的异常方面取得了成功，LSTM 也非常有效 [1]。图神经网络 (GNN) 以其处理欺诈检测中复杂数据关系的能力而著称 [43]。各种机器学习技术，如朴素贝叶斯、逻辑回归、KNN、随机森林和顺序 CNN，已被应用于信用卡欺诈检测 [29]，其中基于 CatBoost 的方法突出了特征工程和内存压缩在提高效率方面的作用 [13]。机器学习在金融领域得到了广泛的应用，从检测日记账分录异常到识别医疗保健和银行业务中的欺诈交易 [29, 38]。虽然案例研究证实了它们的有效性，但也指出了实际应用中的挑战 [7]。

由于欺诈手法不断变化和财务数据的复杂性，在财务欺诈检测中应用机器学习面临着挑战 [11]。准确的建模依赖于高质量的标准化数据，这一点在信用卡行业中也有所讨论 [31]。财务数据的非平稳性、非线性性和低信噪比使模型训练和性能复杂化 [40]，需要先进的方法来预处理复杂数据，提高数据质量和模型性能。增强数据表示和简化特征还可以提高机器学习模型的可解释性，满足金融领域的法规和合规要求 [38]。此外，平衡计算复杂度和高检测精度至关重要 [27]，这强调了需要增强特征集的紧凑性和信息保留能力。有希望的研究方向需要探索各种机器学习方法和混合应用，强调创新的数据预处理和适应性强的机器学习方法，以应对数据质量和模型适应性挑战 [4]。

大型语言模型的应用和能力

GPT-3、PaLM 和 LLaMA 等大型语言模型标志着自然语言处理 (NLP) 和人工智能 (AI) 的范式转变，从基于规则的框架发展到复杂的 Transformer 等神经网络架构。这种演变使 LLM 能够将大量语言数据集编码为向量表示，用于各种应用 [41, 42]。BERT 等大型语言模型擅长捕捉语言的复杂语义和句法细微差别，从而产生密集的嵌入。这些嵌入对于节点分类等任务至关重要，例如文本图中的节点分类 [14]，证明了 LLM 能够从大量文本语料库中生成有意义的表示 [32]。LLM 最初是为语言任务而设计的，但它显示出非凡的多功能性，扩展到非语言领域，有效地将各种数据类型（包括非语义元素）编码为顺序格式。例如，Sentence-Transformers 对非语言数据进行矢量化，将 LLM 的使用扩展到计算机视觉 [30]。LLM 在文本摘要和内容推荐等任务中表现出色，从而证明了其广泛的适用性 [25, 41, 42]。LLM 通过有效地管理特征变异性和稀疏性，为数据分析提供了创新方法，从而增强了异常检测。它们可以超越传统的机器学习，处理复杂数据以进行高级分析 [3, 20]。

在财务分析中，LLM 构成了一次重大的方法论飞跃。Sentence-Transformers 强调了 LLM 在处理异常检测中的特征异质性和稀疏性方面的能力，因为它可以生成有意义的向量 [34, 39, 40]。Sentence-BERT (SBERT) 是 BERT 的改进版本，它可以生成语义密集的句子嵌入，从而提高聚类和语义搜索的性能 [34]。SBERT 利用暹罗网络和三元组网络来增强句子语义分析，确保相似的句子在嵌入空间中彼此靠近。这种改进将嵌入生成时间从 BERT 的 65 小时缩短到大型数据集的几秒钟。SBERT 在句子对回归和语义相似性等各种任务中表现出色，证明了它在传统文本任务之外，快速、高质量地嵌入语言和非语言数据应用方面的潜力 [34]。

财务异常检测中的研究差距

尽管机器学习和深度学习在财务异常检测方面取得了进展，但这些方法往往由于财务数据的多样性和稀疏性而失败，特别是在日记账分录中，这会损害数据编码和分类的有效性，进而影响财务审计的精度和可靠性 [6]。传统的异常检测技术依赖于矢量化和降维，但这些技术可能不足以应对现实世界中的日记账分录，因为这些分录在长度和复杂性上差异很大。此外，财务交易的非时间性特征限制了一些特征编码策略的使用。

先进的机器学习技术在非语义、分类财务数据方面仍未得到充分利用，传统的异常检测方法在解决非时间性和异质性数据复杂性方面存在不足。Sentence-Transformer LLM 在财务数据分析方面尚未开发的潜力，为处理特征变异性和稀疏性提供了创新机会。通过将 LLM 嵌入与优化的机器学习模型相结合，弥合重要的研究差距，可以显著提高财务异常检测的分类精度和数据编码稳健性，超越传统方法。

数据描述和伦理考量

在我们的工作中，我们使用了来自各种匿名公司的汇总的真实世界总账数据集，如 Bakumenko 等人所述 [6]。该数据集包含匿名化的日记账分录，涵盖多个行业和时间段的系统特定账户计划。它最初经过预处理，排除了包含超过四个交易的分录，以管理异常值。它包含一小部分带标签的异常，其中包含八种类型的错误，这些错误由财务审计人员创建，以反映财务记录中常见的异常，表明现实世界异常检测中的关键关注领域。该数据集侧重于对异常检测至关重要的属性，例如源系统、账户类别和借贷指示器，简化了数据中异常的识别。

在这项工作中，我们对总账数据集应用了严格的伦理协议，确保彻底的匿名化，以消除任何关于公司或个人的可识别信息。该数据集保持机密，不可共享，防止未经授权的访问。我们避免使用云存储，以最大限度地降低数据泄露风险，维护数据集的完整性。数据处理和分析严格遵守法律和伦理准则。引入的异常经过精心管理，以维护研究目的的伦理数据操纵实践。

方法

数据预处理

该数据集包含 32,100 个日记账分录中的交易级数据点，包括 148 个旨在反映异常模式而没有个体偏差的异常。为了在日记账分录中进行异常检测，将交易汇总成集合，其中表示包含个交易的日记账分录。汇总集合是通过对每个应用汇总函数形成的，表示为

A = {A(J. | J ∈ J}✅

在 Bakumenko 等人的工作中 [6]，填充将交易长度标准化为统一的特征向量，准备机器学习模型输入。交易由 ERP 属性定义，例如账户编号和借贷标志，合并到特征中。此编码特征在稀疏矩阵中的维度遵循以下公式：

feature_count = max(transaction_amount) * (|unique_values(feature1)| + |unique_values(feature2)|)

其中是所有日记账分录中最大交易金额的乘积，表示为，以及和特征向量中唯一元素的组合计数（和）。因此，对于存在 577 个唯一值和特征向量中 4 个唯一值的独热编码方法，将导致 2336 个编码特征。此特征空间经过 PCA 降维。

相反，为了将 SBERT 模型应用于每个 JE 中的交易数据编码，我们首先基于 JE 标识符，通过 group-by 操作将交易分类特征连接起来。将每个交易的和属性以及交易本身组合在一起的过程如下：

text_8 = "Source: " + feature1_8 + " Account_DC: " + feature2_8 + " " + transaction_8

其中是组的连接文本，是组中的交易数量。是连接操作，使用逗号和空格作为交易的分隔符。是组中第个交易的属性，是组中第个交易的属性。

…

每个 JE 的连接文本 ( ) 被处理为单个句子结构。SBERT 模型的 encode 方法首先将每个字符串标记化为一系列标记。SBERT 然后使用其基于 BERT 的架构为每个标记生成上下文嵌入，这涉及多个 Transformer 层和自注意力机制。平均池化步骤将这些标记嵌入聚合为固定大小的句子嵌入。PCA 等降维没有用于保持嵌入的原始维度，确保精确的评估 [6]。我们将嵌入归一化为零均值和单位方差，以便在机器学习任务中提高一致性并加快收敛速度，这对于基于距离或梯度下降的算法至关重要，可以提高跨模型的性能。SBERT 嵌入为每个日记账分录创建固定大小的密集向量，捕获交易详细信息，通过总结复杂的数据交互，帮助进行异常检测和模式识别。

数据平衡和模型性能验证

在机器学习中，类分布不平衡的偏斜数据集会阻碍模型训练中的分类任务，因为它会偏向多数类，并影响异常检测。遵循 [18] 中的指南，我们使用 80/20 分层分割，以确保训练集和测试集中包含比例异常表示，从而减少偏差。我们通过对少数类进行加权来调整不平衡，以提高模型阶段的敏感性，并确保结果一致性和与恒定随机状态的公平比较。在训练和优化中，我们避免了交叉验证，认识到它在不平衡数据集和大型特征集中存在的缺点，这一点由 Rao 等人指出 [33]。交叉验证会增加过拟合风险，尤其是在使用许多模型和广泛的超参数调整时。随着数据维度的增加，它的有效性会下降，导致模型方差更高，难以从复杂的特征交互中获得可靠的评估。不平衡数据集会加剧这一挑战，导致交叉验证折叠偏差，并导致性能评估偏差。

我们选择一致的 80/20 分层分割，以保持跨模型的测试集一致性，这对于准确比较算法性能至关重要，而交叉验证的可变数据子集可能会损害这一点。虽然这种策略可以缓解一些挑战，但它可能会影响模型的泛化能力。为了抵消这一点，我们采用了仔细的指标选择和训练后交叉验证评估，尽管由于数据集的复杂性，直接对少数类进行过采样技术不可行。

模型选择

在这项工作中，我们评估了三种 Sentence-BERT 模型用于嵌入生成：all-mpnet-base-v2、all-distilroberta-v1 和 all-MiniLM-L6-v2，这些模型因其流行度和性能而被选中，这一点可以通过它们在 HuggingFace 模型中心的高下载率来证明 [16]。每个模型都在超过 10 亿对数据上进行训练，具有不同的优势：all-mpnet-base-v2 在质量方面表现出色，性能得分为 63.30 [35]，all-distilroberta-v1 在效率和性能之间取得平衡，大小为 290 MB，all-MiniLM-L6-v2 速度快，大小为 80 MB，适合实时应用 [35]。有关模型规格的详细信息，请参阅表 1。选择这些模型是因为它们在质量、效率和速度方面的互补优势，有助于这项研究中的全面评估。

我们还使用了五种机器学习分类器：随机森林 (RF)、使用 XGBoost (XGB) 的梯度提升机 (GBM)、支持向量机 (SVM)、逻辑回归 (LR) 和使用 Keras TensorFlow 实现的神经网络 (NN)。RF 以其通过集成决策树来减少过拟合的能力而闻名，GBM 以其通过优化弱学习器来解决数据不平衡问题的能力而闻名，SVM 以其在高维空间中的有效性而闻名，LR 是一种快速高效的基线，而 NN 则用于对复杂关系进行建模，需要仔细调整架构 [10, 12, 15, 17, 19, 23]。

实验设计

我们的工作使用了一个包含实际异常和人工插入异常的财务数据集，旨在检测后者，同时最大限度地减少前者中的误报。该数据集反映了现实世界条件，具有显著的类不平衡，与 Bakumenko 等人的工作 [6] 中的数据集相同，经过匿名化和细化，只包含必要的分类特征。我们将 8 种类型的异常视为单个异常类，从而将其构建为二元分类挑战，确保我们的训练/测试分割中异常类型的均匀分布。

为了有效地识别财务日记账分录中的异常，这些分录构成一个高维数据集，我们通过使用 SBERT LLM 对非语义分类数据进行编码来进行创新，特别是使用 3 个 Sentence-Transformers 模型将可变长度的分录标准化为一致的特征空间，解决原始工作 [6] 中传统编码方法的局限性。

实验结果

编码特征集分析

我们对来自三个 SBERT 模型嵌入的特征集进行了主成分分析 (PCA)（图 3）。PCA 展示了嵌入在数据集中的维度和信息保留能力，尽管进行了降维，但仍然保留了显著的方差。来自 all-MiniLM-L6-v2 模型 (LLM1) 的嵌入需要 63 个成分才能保留 99% 的方差，需要 150 个成分才能保留 99.9% 的方差，而 all-distilroberta-v1 (LLM2) 和 all-mpnet-base-v2 (LLM3) 模型，尽管向量更大（770），但对于相同的方差水平，需要的成分更少（LLM2 为 57 个，LLM3 为 52 个）。

进一步分析表明，最终 0.9% 的方差信息量较少，这表明它可能包含噪声或数据集特定的特征。一项比较研究（图 4）表明，LLM 嵌入在降维方面优于独热编码。LLM 嵌入在维度更少的情况下保持了高方差，这与来自独热编码的稀疏、高维向量形成对比。独热编码数据最初有 2336 个维度，降维到 419 个才能达到 99% 的方差，这仍然高于 LLM 嵌入。

重要的是要认识到 PCA 的线性性质限制了它捕捉非线性复杂性的能力。虽然 PCA 有助于理解结构属性和降维的潜力，但它不能预测下游任务中的性能。我们的扩展分析包括对这些任务中嵌入的经验评估。

总之，LLM 嵌入比独热编码提供更有效的数据表示，对于类似的方差水平，需要更少的维度，这使得 LLM 嵌入更适合复杂任务。

下游模型训练和优化

我们使用了各种机器学习分类器，如第 4.3 节所述，包括 SVM、RF、XGBoost、LR、ANN 和 DNN。对于非 ANN/DNN 模型，使用 Hyperopt 库和树形 Parzen 估计器 (TPE) 算法进行贝叶斯优化，在 100 次迭代中进行超参数调整。计算样本权重以解决不平衡数据集问题，并通过转换多类别标签来实现二元分类。模型训练使用 Python 以及 Scikit-learn 和 TensorFlow 库。我们设计了三种具有不同复杂度的神经网络架构，并在 50 个 epoch 上进行训练，并使用早期停止来进行泛化，如表 2 所示。

通过在 NumPy 和 TensorFlow 中固定种子来确保可重复性，并通过自定义回调来监控平均召回宏。ANN 模型包含单个隐藏层，用于快速训练，DNN1 包含多个隐藏层，用于复杂模式识别，DNN2 包含 dropout 层，以防止过拟合，同时保持类似 DNN1 的深度架构。

评估指标和比较分析

在这项工作中，我们之前讨论了将 LR 作为基线模型的好处。对于三个 SBERT 模型嵌入中的每一个，我们训练了两个下游 LR 模型：一个使用默认参数的模型和一个经过 Hyperopt 优化的模型。未经优化的模型在平均召回宏方面表现出高性能，分别为 all-MiniLM-L6-v2 为 0.9516，all-distilroberta-v1 为 0.9040，all-mpnet-base-v2 为 0.9520。图 5 显示了经过优化的 LR 模型的学习曲线，使用函数进行交叉验证，以检查泛化和过拟合。它在不断增加的数据子集上训练模型，并在训练集和验证集上进行评估，使用 5 折交叉验证。我们计算了跨折叠的训练和验证分数的均值和标准差，以评估平均性能和变异性，同时考虑类不平衡。训练分数线（红色）表示训练子集的性能，交叉验证分数线（绿色）表示未见过的验证集的性能，提供了一个可靠的估计，用于评估跨数据子集的模型性能以及通过更多数据进行改进的可能性。

在图 5 中，所有三个模型都展示了积极的学习特征。E3 模型在学习和泛化方面表现出色，展示了强大的数据学习能力。E1 模型虽然性能尚可，但显示出达到学习能力极限的迹象。E2 模型正在改进，但需要更好的正则化策略。Hyperopt 优化的分析显示，E1 的 C 值为 0.07677，表明正则化程度适中。E2 的正则化更强，C 值为 0.01702，并使用 ‘newton-cg’ 求解器。E3 的 C 值最小，为 0.01358，使用 ‘liblinear’ 求解器，显示出最强的正则化。所有模型都使用统一的类权重来提高少数类预测精度，并根据其学习需求调整特定的正则化强度和求解器选择。

图 6 评估了 LR、RF、XGB、SVM 和 NN 分类器的性能，这些分类器经过优化并与来自三个语言模型的嵌入相集成。性能指标基于平均召回宏。所有嵌入都显示出不同程度的有效性，其中 all-mpnet-base-v2 在各种分类器中表现出稳定性和性能。all-MiniLM-L6-v2 也表现良好，尤其是在 LR 和 NN 中，而 all-distilroberta-v1 也很稳固，但没有在 NN 中超过 all-MiniLM-L6-v2。这些差异表明，某些嵌入在下游任务中与特定分类器更兼容，这指导了实际模型选择。

使用不同嵌入的优化模型的混淆矩阵值如表 3 所示。all-MiniLM-L6-v2 嵌入与 LR，以及 NN（如果 FP 减少），可能提供最平衡的性能，而 all-mpnet-base-v2 嵌入在跨模型的 TP 率方面表现出更高的性能。图 7 对比了 LLM 嵌入与传统填充独热编码在 LR、RF、SVM 和 NN 模型中的召回宏分数差异。每个条形图显示了 LLM 嵌入的召回分数差异，方框图总结了每个模型的分布和均值（菱形）。

对于 LR，LLM 嵌入将召回分数提高了 +0.056、+0.030 和 +0.032，分布紧凑，表明在跨嵌入方面的一致增强。相反，RF 模型在使用 LLM 嵌入时表现出下降，差异分别为 -0.066、-0.044 和 -0.021，变异范围适中。SVM 模型在使用 LLM 嵌入时性能下降，差异分别为 -0.085、-0.108 和 -0.015，显示出向更低性能的显著变异。NN 模型受益于 LLM 嵌入，分别增加了 +0.064、+0.050 和 +0.062，变异性最小，表明可靠的积极影响。LLM 嵌入改进的 LR 和 NN 模型性能优于传统的填充独热编码，但通常会降低 RF 和 SVM 模型的有效性。虽然某些模型可能始终受益于 LLM 嵌入，但这突出了在将 LLM 嵌入应用于数据编码时性能的模型特定变异性。

图 8 中的 Bland-Altman 图比较了两个分数集，评估了使用嵌入（all-MiniLM-L6-v2 (E1)、all-distilroberta-v1 (E2) 和 all-mpnet-base-v2 (E3)）的机器学习模型性能与传统方法的对比。红线显示了所有模型的平均召回宏分数差异。蓝线设置在平均差异 ± 1.96 SD，定义了一致性限度，表明大多数分数差异的预期范围。蓝线周围的点分散表明，某些模型的新嵌入与传统方法相比，与预期性能范围一致。性能在跨机器学习模型和嵌入方面有所不同。例如，NN 模型通常表现出改进的结果，这一点由红线上方的正偏差所示，而 SVM 模型显示出有效性降低，这一点由负偏差所示。总体而言，使用 LLM 嵌入的机器学习模型往往与传统方法的预期性能范围相匹配，表明平均结果相当。

假设重述

对 Sentence-Transformer 嵌入进行的 PCA 分析表明，与传统方法相比，财务数据编码的紧凑性和信息保留能力有所提高，从而证实了假设 1。这突出了嵌入在标准化特征变异性和有效压缩信息方面的优越能力。

对于假设 2，将 Sentence-Transformer 嵌入与优化的 LR 和 NN 模型相结合，显示出改进的异常检测性能，这证实了 LLM 嵌入超越传统方法的潜力。虽然观察到一些性能差异，例如在 SVM 模型中，但这些差异都在预期的范围内。结果强调了这种创新方法的有效性，强调了战略性模型选择的重要性，以最大限度地发挥其优势。

讨论

这项工作利用 Sentence-Transformer LLM 对财务数据进行编码，展示了一种增强异常检测的新方法。

结果解读

对来自三个 SBERT 模型（MiniLM-L6-v2、all-distilroberta-v1 和 all-mpnet-base-v2）的嵌入进行的 PCA 分析表明，与传统编码方法相比，财务数据集的降维和信息保留能力有了显著提高。例如，考虑到下游机器学习性能，all-mpnet-base-v2 模型只需要 52 个 PCA 成分就能保留 99% 的方差，而填充独热编码则需要 419 个。所有 3 个 SBERT 模型的嵌入特征维度在相同比较中明显更低。这种进步解决了财务非语义非时间性分类特征集中特征异质性和稀疏性的关键挑战，这比传统方法有了显著改进。下游机器学习模型的性能证实了 LLM 嵌入在异常检测中的有效性。各种机器学习分类器的使用，包括经过贝叶斯优化的 LR、RF、XGB、SVM 和 NN，以及多种架构和调整的参数，突出了嵌入的多功能性和提高模型性能的潜力。使用所有 3 个 SBERT 嵌入的 LR 和 NN 模型的优越评估指标强调了这些嵌入在增强异常检测方面的潜力。SVM 的表现不佳，即使在预期的范围内，也突出了在未来的应用中需要评估模型嵌入兼容性。

对财务异常检测的影响

将 Sentence-Transformer LLM 整合到财务异常检测中，代表着从传统方法的飞跃，增强了数据表示和算法对异常的敏感性。这种方法在实际应用中承诺通过提高准确性和最大限度地减少误报来提高欺诈检测效率，从而简化财务操作。这种新方法在某些情况下将成分数量减少了八倍，同时提高了下游模型性能，有效地标准化了特征变异性。它证明了其有效性，并为财务数据编码设定了新的标准。随着这种方法论变得越来越普遍，它可能会在财务分析中建立新的基准，推动该行业机器学习应用的进步。进一步的实证研究和现实世界应用可以巩固其地位并量化其影响。

局限性和偏差

我们的研究使用了来自各种 ERP 的真实世界数据集，并由财务审计人员添加了八种不同的有意引入和标记的异常。这些异常反映了审计人员对实际异常检测的兴趣，具有合成性质，可能会限制泛化能力。此外，分析现实世界财务数据的挑战在于可能存在的未标记异常，这可能会使机器学习模型验证产生偏差，并增加误报率。此外，PCA 分析是一种线性方法，其能力有限，无法表示特征集中的非线性关系。此外，LLM 对提示工程做出反应，这意味着输入特征连接的变化会改变嵌入，这一点在本研究中没有涉及。最后，我们的方法侧重于分类特征，需要在需要精确数值分析的情况下进行扩展。

结论与未来工作

贡献总结

我们的研究通过将 LLM 嵌入与机器学习分类器相结合，推动了财务异常检测领域的发展，这是一种新方法，显著缓解了特征异质性和稀疏性问题。利用 Sentence-Transformer 模型对财务数据进行编码，我们的方法不仅在降维和信息保留方面超越了传统的编码技术，而且还展示了在选定的机器学习分类器中增强的异常检测效果。这与特征表示的既定原则相一致 [9]，反映了它们在财务数据环境中的实际应用。在全面的实验设置和展示实际适用性的基础上，我们的工作为自然语言处理和财务分析交叉领域未来的研究提供了宝贵的见解。

更广泛的影响和意义

大型语言模型 (LLM) 在非语义财务数据上的创新应用解决了高维性和稀疏性问题，为 LLM 在其传统应用之外的领域的使用开创了先例。这反映了 LLM 成功地对视觉标记进行编码的发现 [30]。通过超越传统方法，LLM 嵌入展示了其在语言任务之外的潜力，特别是对于缺乏固有语义的数据类型。这种方法论的进步可以帮助各种具有类似挑战的行业，特别是医疗保健和零售行业，其中复杂的数据集可以从 LLM 增强的数据表示能力中获益。在医疗保健领域，LLM 嵌入可以通过检测主要为数值、缺乏文本清晰度或包含结构化数据（如 MRI、CT 扫描、ICD 代码和实验室值）的数据集中的模式来增强患者数据分析，这些数据需要领域知识才能进行解释。在零售领域，LLM 可以从高维交易数据中提供详细的见解，揭示复杂的产品-消费者交互。这可以增强机器学习模型预测行为、细分市场和推荐产品的能力，从而促进市场分析。

LLM 在非语义数据上的使用扩展了它们的应用范围，并促使人们重新思考数据分析方法，从而推动跨学科研究，探索其在复杂数据集中的潜力。

未来研究方向

未来的研究应该将 LLM 嵌入方法扩展到更广泛的财务数据集，评估其可扩展性、对异常检测精度的影响以及响应不断变化的财务欺诈模式的计算效率。将这种方法扩展到跨多个领域的各种非语义数据类型，这些数据类型具有高维和稀疏数据集，并与其他先进的机器学习和深度学习模型相集成，将测试 LLM 嵌入的适应性和有效性。应该探索无监督策略来解决零日异常问题，改进我们的方法，以更好地检测新模式。未来的研究应该调查各种数据预处理策略（包括聚合方法和提示工程）如何提高 LLM 编码效率。对非线性降维技术的重点探索可以补充 PCA，旨在更有效地捕捉 LLM 嵌入中的复杂关系。调查合成异常与现实世界异常对模型性能的影响，将提供对发现的实际适用性的见解。最后，通过测试各种最先进的 LLM 架构来探索模型嵌入兼容性，可能会产生更量身定制的异常检测解决方案。

参考文献

[1] Yara Alghofaili, Albatul Albattah, and Murad A Rassam. 2020. A. ��nancial fraud✅
detection model based on LSTM deep learning technique. Journal of Applied
Security Research 15, 4 (2020), 498–516.

[2] A. Alhashedi. 2021. Financial Fraud Detection Applying Data Mining Techniques:✅
A Comprehensive Review from 2009 to 2019. Computer Science Review 40 (2021),

https://doi.org/10.1016/j.cosrev.2021.100402

[3] Abhijit Anand, Jurek Leonhardt, Jaspreet Singh, Koustav Rudra, and Avishek
Anand. 2023. Data augmentation for sample ecient and robust document
ranking. ACM Transactions on Information Systems (2023).

[4] Matin N Ashtiani and Bijan Raahemi. 2021. Intelligent fraud detection in nancial
statements using machine learning and data mining: a systematic literature
review. IEEE Access 10 (2021), 72504–72525.

[5] V. Vlasselaer B. Baesens and W. Verbeke. 2015. Fraud analytics using descriptive,✅
predictive, and social network techniques : a guide to data science for fraud detection.
Wiley, New York.

[6] Alexander Bakumenko and Ahmed Elragal. 2022. Detecting anomalies in nancial

data using machine learning algorithms. Systems 10, 5 (2022), 130.

[7] Seila Becirovic, Emir Zunic, and Dzenana Donko. 2020. A Case Study of Cluster-
based and Histogram-based Multivariate Anomaly Detection Approach in Gen-
eral Ledgers. In 2020 19th International Symposium Infoteh-Jahorina (INFOTEH).
IEEE, 1–6.

[8] F Belfo and A Trigo. 2013. Accounting Information Systems: Tradition and Future

Directions. Procedia Technology 9 (2013), 536–546.

[9] Yoshua Bengio, Aaron Courville, and Pascal Vincent. 2013. Representation
learning: A review and new perspectives. IEEE transactions on pattern analysis
and machine intelligence 35, 8 (2013), 1798–1828.

[10] Leo Breiman. 2001. Random forests. Machine learning 45 (2001), 5–32.
[11] Longbing Cao. 2022. Ai in nance: challenges, techniques, and opportunities.

ACM Computing Surveys (CSUR) 55, 3 (2022), 1–38.

[12] Tianqi Chen and Carlos Guestrin. 2016. Xgboost: A scalable tree boosting system.
In Proceedings of the 22nd acm sigkdd international conference on knowledge
discovery and data mining. 785–794.