标签: AI

  • 深入探索 Deep Java Library (DJL)

    在深度学习领域,Python 一直占据着主导地位,拥有 TensorFlow 和 PyTorch 等强大的框架。然而,Java 作为企业级应用的支柱语言,也渴望在深度学习浪潮中占据一席之地。Deep Java Library (DJL) 应运而生,它致力于弥合 Java 生态系统与深度学习之间的鸿沟。

    DJL:用 Java 语音构建深度学习应用的桥梁

    DJL 是一个开源的深度学习框架,专为 Java 开发者设计。它提供了一套直观且易于使用的 API,用于构建、训练和部署深度学习模型。

    DJL 的核心优势:

    • 专为 Java 打造: DJL 允许开发者使用熟悉的 Java 语法和工具构建深度学习应用,无需切换语言或学习复杂的 Python 库。
    • 引擎无关性: DJL 支持多种深度学习引擎,包括 TensorFlow、PyTorch、MXNet 和 OnnxRuntime。开发者可以自由选择最适合其需求的引擎,并轻松地在不同引擎之间切换。
    • 模型库: DJL 提供了丰富的预训练模型库,涵盖图像分类、对象检测、自然语言处理等多个领域。开发者可以直接使用这些模型进行推理或微调,快速构建原型或部署应用。
    • 高性能: DJL 针对性能进行了优化,可以充分利用多核 CPU 和 GPU 进行训练和推理。

    DJL 的应用场景

    DJL 适用于各种深度学习应用场景,包括:

    • 图像识别: 使用预训练模型或自定义模型进行图像分类、对象检测等任务。
    • 自然语言处理: 进行文本分类、情感分析、机器翻译等任务。
    • 预测分析: 构建时间序列模型进行预测和异常检测。
    • Java 应用集成: 将深度学习功能集成到现有的 Java 应用中,例如推荐系统、欺诈检测等。

    DJL 实例:图像分类

    以下代码示例展示了如何使用 DJL 和预训练的 ResNet-50 模型进行图像分类:

    // 加载预训练的 ResNet-50 模型
    Criteria<Image, Classifications> criteria = Criteria.builder()
            .setTypes(Image.class, Classifications.class)
            .optModelUrls("https://mlrepo.djl.ai/modelpaths/resnet50_v1/resnet50_v1_tf_cpu.zip")
            .build();
    try (ZooModel<Image, Classifications> model = ModelZoo.loadModel(criteria);
         Predictor<Image, Classifications> predictor = model.newPredictor()) {
    
        // 加载待分类的图像
        Image img = ImageFactory.getInstance().fromUrl("https://djl.ai/images/kitten.jpg");
    
        // 执行推理
        Classifications classifications = predictor.predict(img);
    
        // 打印分类结果
        System.out.println(classifications);
    }

    总结:

    DJL 为 Java 开发者打开了深度学习的大门,让他们能够利用现有的技能和工具构建强大的 AI 应用。随着 DJL 的不断发展和完善,我们可以预见 Java 在深度学习领域将会扮演越来越重要的角色。

  • KerasCV 和 KerasNLP:赋予视觉和语言处理超能力

    近年来,深度学习在计算机视觉(CV)和自然语言处理(NLP)领域取得了显著的进展。然而,构建和训练最先进的模型需要大量的计算资源和专业知识,这给许多研究人员和实践者带来了挑战。为了解决这些问题,谷歌的 Keras 团队推出了 KerasCV 和 KerasNLP,这是 Keras API 的扩展,旨在简化 CV 和 NLP 工作流程。

    模块化设计:构建复杂模型的基石

    KerasCV 和 KerasNLP 采用模块化、分层的设计方法,为用户提供了三种主要抽象级别:

    1. 基础组件: 这些组件是构建和训练预处理管道、模型和评估逻辑的可组合模块。例如,KerasCV 提供了丰富的预处理层,可以轻松构建数据增强管道,提高模型的鲁棒性和泛化能力。
    # 应用灰度预处理到输入
    (images, labels), _ = keras.datasets.cifar10.load_data()
    to_grayscale = keras_cv.layers.preprocessing.Grayscale()
    augmented_images = to_grayscale(images)
    1. 预训练主干: 用户可以使用预训练的模型主干进行微调,例如 ResNet、BERT 和 GPT2 等流行架构。这些主干模型通常在大型数据集上进行训练,可以为各种下游任务提供良好的起点。
    2. 任务模型: 这些模型针对特定任务进行了预先配置,例如图像分类、对象检测、文本生成和问答。任务模型结合了较低 API 级别的预处理和建模模块,创建了一个统一的训练和推理接口,可以直接对原始文本或图像输入进行操作。

    预设 API:快速构建最先进模型

    预设 API 提供了一种创建最先进的 CV 和 NLP 模型的便捷方法。预设是已经在特定数据集上训练过的预配置模型,可用于特定任务。

    例如,要使用预设 API 创建 RetinaNet 模型,只需导入 keras_cv.models 模块,然后在 RetinaNet 类上调用 from_preset() 方法:

    # 从预设加载架构和权重
    model = keras_cv.models.RetinaNet.from_preset(
        "resnet50_imagenet",
    )

    性能优势:多后端支持和 XLA 编译

    KerasCV 和 KerasNLP 支持 JAX、TensorFlow 和 PyTorch 等多个后端,允许用户选择最适合其需求的框架。此外,它们还支持 XLA 编译,这可以显著提高模型的训练和推理速度。

    Kaggle 模型:开放获取预训练模型

    所有 KerasCV 和 KerasNLP 的预训练模型都发布在 Kaggle 模型平台上,并且可以在没有互联网连接的情况下使用。这为研究人员和实践者提供了便捷地访问和使用最先进模型的机会。

    未来展望:多模态和模型服务

    Keras 团队计划在未来扩展 KerasCV 和 KerasNLP 的功能,包括支持更广泛的多模态模型和优化与后端特定大型模型服务解决方案的集成。

    结论:赋能 CV 和 NLP 创新

    KerasCV 和 KerasNLP 为快速原型设计新模型提供了模块化组件,并为许多计算机视觉和自然语言处理工作流提供了标准的预训练主干和任务模型。它们可以被 JAX、TensorFlow 或 PyTorch 的用户利用。得益于后端可选性和 XLA 编译,KerasCV 和 KerasNLP 提供了最先进的训练和推理性能。

    参考文献

    • Chollet, F. et al. (2015). Keras. https://keras.io/
    • Watson, M. et al. (2024). KerasNLP: Natural Language Processing with Keras.
    • Wood, L. et al. (2024). KerasCV: Computer Vision with Keras.
    • Abadi, M. et al. (2015). TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems.
    • Bradbury, J. et al. (2018). JAX: Autograd and XLA for High-Performance Machine Learning Research.
    • Paszke, A. et al. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library.
    • Sabne, A. (2020). XLA: The TensorFlow Compiler.
    • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
    • Jiang, Q. et al. (2023). Mistral 7B.
    • Kirillov, A. et al. (2023). Segment Anything.
    • Team, G. (2024). Gemma.
    • Wolf, T. et al. (2020). Transformers: State-of-the-Art Natural Language Processing.
  • KerasNLP: Your Gateway to State-of-the-Art NLP with TensorFlow

    KerasNLP is a powerful library that brings the simplicity and ease-of-use of Keras to the world of Natural Language Processing (NLP). Built on top of TensorFlow, it provides a comprehensive suite of tools for building, training, and deploying state-of-the-art NLP models.

    Key Features:

    • Pre-trained Models: Access a wide range of pre-trained models for tasks like text classification, question answering, summarization, and more. These models are ready to use off-the-shelf or fine-tune on your own data.
    • Modular Architecture: KerasNLP embraces modularity, allowing you to easily combine and customize different components like tokenizers, embeddings, encoders, and decoders to build your own custom NLP pipelines.
    • User-Friendly API: Leverage the intuitive Keras API for defining, training, and evaluating your models. The familiar syntax makes it easy for both beginners and experts to dive into NLP.
    • Seamless TensorFlow Integration: Built directly on TensorFlow, KerasNLP benefits from TensorFlow’s ecosystem, including distributed training, model optimization, and deployment options.

    What can you do with KerasNLP?

    • Text Classification: Categorize text into predefined classes (e.g., sentiment analysis, spam detection).
    • Sequence Tagging: Assign labels to words in a sequence (e.g., named entity recognition, part-of-speech tagging).
    • Question Answering: Develop models that can answer questions based on given context.
    • Text Summarization: Generate concise summaries of longer texts.
    • Machine Translation: Translate text from one language to another.
    • Text Generation: Create new text, like poems, code, scripts, musical pieces, email, letters, etc.

    Getting Started with KerasNLP:

    1. Installation: Install KerasNLP using pip:
       pip install keras-nlp
    1. Load a Pre-trained Model:
       import keras_nlp
       # Load a BERT model for text classification
       classifier = keras_nlp.models.BertClassifier.from_preset("bert_base_en_uncased")
    1. Preprocess Text:
       # Tokenize and encode the input text
       inputs = keras_nlp.preprocess.bert_preprocess(
           "This is an example sentence.", classifier.tokenizer
       )
    1. Make Predictions:
       # Get the predicted class probabilities
       probs = classifier(inputs)

    Advantages of KerasNLP:

    • Ease of Use: Keras’s intuitive API makes building and training NLP models straightforward.
    • Flexibility: The modular design allows for customization and experimentation with different architectures.
    • Performance: Built on TensorFlow, KerasNLP benefits from optimized performance and scalability.
    • Strong Community Support: Backed by a vibrant community and active development.

    Conclusion:

    KerasNLP provides a powerful and accessible toolkit for tackling a wide range of NLP tasks. Whether you’re a beginner or an experienced practitioner, KerasNLP empowers you to leverage the latest advancements in NLP and build cutting-edge applications.

  • KerasCV和KerasNLP:视觉和语言的增强

    在机器学习领域,Keras是最常用的工具之一,它提供了高层次的抽象来构建和训练机器学习模型。近年来,计算机视觉(CV)和自然语言处理(NLP)的发展给从业者带来了新的挑战。一方面,随着模型规模的不断增大,从头开始训练一个最先进的模型变得成本过高;另一方面,有效的数据预处理和度量计算也变得更加困难。为了解决这些问题,研究人员提出了KerasCV和KerasNLP这两个库,它们是Keras API在CV和NLP领域的扩展。

    KerasCV和KerasNLP的设计目标:

    KerasCV和KerasNLP旨在提供易于使用且性能优越的工具,支持在JAX、TensorFlow或PyTorch等深度学习框架上运行,以促进快速实验和模型开发。它们采用了模块化和分层的设计思想,为用户提供了不同层次的抽象和灵活性。

    KerasCV和KerasNLP的主要功能:

    • 基础组件:KerasCV和KerasNLP提供了构建和训练预处理流水线、模型和评估逻辑的可组合模块。这些组件可以在Keras Domain Packages生态系统之外使用,具有高度的灵活性。
    • 预训练骨干模型:这些库还提供了预训练的模型骨干,可以用于微调。在NLP模型中,还可以创建匹配的分词器。
    • 任务模型:KerasCV和KerasNLP提供了专门针对特定任务的端到端模型,如NLP中的文字生成和CV中的对象检测。这些任务模型结合了底层API中的预处理和建模模块,可以直接在原始输入上进行训练和推理。
    • 高效训练支持:库支持XLA编译,提高了训练效率。使用tf.data API运行所有预处理,通过编译的TensorFlow操作图来实现高效的数据处理。
    • 统一的分布式API:KerasCV和KerasNLP兼容Keras统一分布式API,支持模型和数据的并行处理,简化了模型的分布式训练配置。
    • 开源和社区贡献:这两个库完全开源(Apache 2.0许可),在GitHub上可供用户下载和使用,鼓励社区贡献和协作。

    KerasCV和KerasNLP的性能表现:

    论文中提供了KerasCV和KerasNLP在不同模型上的性能测试结果。例如,使用NVIDIA A100 GPU进行的实验显示,KerasCV和KerasNLP在模型训练和推理方面具有良好的性能。论文还与HuggingFace Transformers库进行了比较,突出了KerasNLP和KerasCV的设计哲学和方法的优势。

    未来的研究方向:

    论文中还提出了一些可以进一步探索的研究方向。例如,扩展多模态模型的提供,以支持更广泛的应用;优化与后端特定大型模型服务解决方案的集成,确保无缝部署和可扩展性。

    总之,KerasCV和KerasNLP为CV和NLP领域的研究人员和从业者提供了强大而易用的工具。它们的模块化和分层设计使得构建和训练模型变得更加简单和高效。通过提供预训练的模型骨干和任务模型,以及支持XLA编译和tf.data API的高效训练支持,KerasCV和KerasNLP为CV和NLP任务的快速实验和模型开发提供了便利。

    参考文献:

    KerasCV和KerasNLP的相关论文:

    更多关于KerasCV和KerasNLP的信息可以在官方网站和GitHub上找到。

    • Matthew Watson, Divyashree Shivakumar Sreepathihalli, François Chollet, Martin Görner, Kiranbir Sodhia, Ramesh Sampath, Tirth Patel, Haifeng Jin, Neel Kovelamudi, Gabriel Rasskin, Samaneh Saadat, Luke Wood, Chen Qian, Jonathan Bischof, Ian Stenbit. “KerasCV and KerasNLP: Vision and Language Power-Ups.” [PDF8].
    • François Chollet, et al. “Keras: The Python Deep Learning library.” Journal of Machine Learning Research 22.3 (2021): 1-7.
    • Thomas Wolf, et al. “Transformers: State-of-the-Art Natural Language Processing.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020.

    原始论文:

    • [PDF8] KerasCV and KerasNLP: Vision and Language Power-Ups
  • 解密商业文档信息提取:让电子文档处理工具为我们效力

    在现实生活中,我们常常需要将商业文档中的信息转化为结构化的格式,以便后续的系统能够解析和使用。这个过程被称为商业文档信息提取(Business Document Information Extraction,简称BDIE)。BDIE主要包括两个任务:关键信息提取(Key-Information Extraction,简称KIE)和行项目识别(Line Items Recognition,简称LIR)。本文将介绍一种全新的方法,即”检索增强结构化生成”(Retrieval Augmented Structured Generation,简称RASG),用于解决BDIE问题,并在相关基准测试中取得了最先进的成果。

    什么是商业文档信息提取?

    商业文档信息提取是将非结构化信息(如原始文本、扫描文档等)转化为结构化格式的过程,使其可以被后续的系统解析和使用。其中,关键信息提取的目标是将文档中的信息提取出来,并按照键值对的形式进行格式化。而行项目识别的目标是将信息提取为一系列行项目,其中每个行项目对应表格中的一行,并以列键值对的形式进行格式化。与表格结构识别不同的是,行项目识别不关注列的顺序,只要能够正确地将列映射到预定义的列键即可。

    检索增强结构化生成

    检索增强结构化生成(RASG)是一种由四个组件组成的方法:检索增强生成(Retrieval Augmented Generation)、监督微调(Supervised Finetuning)、结构化生成(Structured Generation)和结构化提示(Structured Prompting)。这些技术可以提高机器学习模型使用工具的能力,从而改善BDIE任务的性能。

    RASG的四个组件是相互关联的:

    1. 检索增强生成允许我们通过在上下文中进行学习,教导预训练模型使用新的工具。
    2. 监督微调提高了提取结果的正确性。
    3. 结构化生成确保模型输出的结果可以被后续的系统解析。
    4. 结构化提示将布局信息融入到提示中,使得文本提示的形式更接近原始文档。

    这四个组件在使用开源的7B大型语言模型(LLM)Hermes 2 Pro – Mistral 7B上可以取得最先进的BDIE结果。然而,在使用GPT-3.5模型时,只需要其中的一个子集即可。

    监督微调中的注意事项

    监督微调的目标是使语言模型既能输出正确的内容,又能输出正确的结构。为了确保模型输出的结果可以被后续系统解析,我们需要将无效标记的概率置零。然而,简单地将监督微调和结构化生成相结合往往会导致结果不佳。主要存在以下两个问题:

    1. 模式与模型不匹配:基于正则表达式的结构化生成算法(如Outlines’ outlines.generate.json模块)在生成过程中隐式地要求严格的键排序。例如,假设我们的模式中”amount”键在”currency”键之前。在使用Outlines时,会在生成”amount”之前屏蔽”currency”的输出。然而,如果模型被微调为在生成”amount”之前生成”currency”,预测准确性就会下降。为了解决这个问题,可以确保监督微调的数据集严格遵循指定的模式,或者使用基于上下文无关文法的结构化生成算法(例如Outlines’ outlines.generate.cfg模块),它不要求严格的键排序。
    2. 可选键带来的标记膨胀:我们经常遇到一个问题,即在预测值为空时仍然要求生成键。例如,当我们使用可选字段构建一个Pydantic对象并将其JSON模式传递给Outlines时,会生成许多不必要的标记,从而降低推理速度。另一个不好的做法是将所有键都设置为可选的。这是因为Outlines在这种情况下使用了不同的生成状态机算法。解决这个问题的方法是在模式中添加一个类型为null的必需的虚拟键,并在后处理中将其删除。

    边界框反向计算的启发式算法

    对于关键信息提取任务,我们发现一个简单的贪婪算法(算法1)就足以用于边界框的反向计算。如果要使用整个页面,可以将下边界和上边界分别设置为0和页面的高度(以像素为单位)。对于行项目识别任务,一个好的启发式算法是:(1)将页面在垂直方向上划分为多个块,每个块对应一个行项目;(2)使用上述算法1为每个行项目的分配的单词块中的单词反向计算边界框。挑战在于如何划分页面。

    算法1:边界框反向计算的启发式算法

    1. 设置下边界和上边界、预测的键值映射和OCR数据。
    2. 匹配得分、键到边界框的映射。
    3. 对于键值映射中的每对(键,值):
    • 找到边界框中的所有坐标处于下边界和上边界之间的且与值匹配的最长连续单词列表。
    • 记录匹配单词的边界框。
    • 将键到边界框的映射添加到键边界框映射中。
    1. 计算匹配分数,即所有匹配单词的相似度之和,用于评估预测结果的准确性。
    2. 返回匹配分数和键边界框映射。

    这种方法的时间复杂度为O(MN^2 * Algo1),其中M是行项目的数量,N是页面的高度。我们可以通过降低页面的规模来优化这个复杂度。在实际生产中,我们使用N=128。此外,我们利用算法1的单调性进行优化:匹配分数随着上边界的增加和下边界的减小而不增加。因此,我们可以使用分治优化来加速计算,将复杂度优化为O(MNlogN * Algo1)。最后,我们使用二分搜索来找到第一个行项目的最大下边界和最后一个行项目的最小上边界,以缩小边界范围。

    通用行项目识别度量

    行项目识别的目标是将信息提取为有序的行项目列表,其中每个行项目对应表格中的一行,并以列键值对的形式进行格式化。为了评估行项目识别的性能,我们需要一个具备以下属性的度量方法:

    1. 子任务隔离:需要分别评估子任务的性能。
    2. 单元格隔离:将一个真正的正样本对应一个预测的单元格和一个正确的真实单元格进行比较。
    3. 单元格完整性:虚构的单元格被视为假阳性,缺失的单元格被视为假阴性。
    4. 单元格相似度度量的灵活性:在同一个子任务中,度量方法应支持多种单元格相似度度量方式。
    5. 单元格行位置的不变性:对于正确预测的单元格,所给予的奖励应与其绝对行位置无关。
    6. 行顺序的保持:对于任意两个预测行,它们的相对顺序和与其匹配的真实行的相对顺序应保持一致。
    7. 列排列的不变性:度量方法应对列的重新排列具有不变性。即不考虑列的顺序。

    目前存在的行项目识别度量方法中,ANLS*和DocILE使用基于最大权重二分图匹配的算法进行行匹配,因此不满足属性#6。此外,DocILE支持单元格内容和单元格位置的识别,但无法隔离这两个方面,这使得它无法用于只进行单元格内容或单元格位置识别的任务。GriTS满足上述所有属性,但不满足属性#7。

    在接下来的部分,我们将介绍一种新的度量方法,称为通用行项目识别度量(General Line Items Recognition Metric,简称GLIRM),它满足上述所有属性。GLIRM可以看作是ANLS*和DocILE的扩展,使其满足属性#1和属性#6,同时也是GriTS的一种推广,使其满足属性#7。

    GLIRM中的相似度匹配分数

    根据属性#1和属性#4,我们将使用𝑓(𝑐ₚ, 𝑐ₜ)表示预测单元格𝑐ₚ和真实单元格𝑐ₜ之间的相似度度量。𝑓可以是适用于特定下游任务的任何相似度度量方式,如产品参考编号的精确匹配、边界框的交并比等。为了使度量方法类似于F1得分,我们需要将𝑓限制在0到1之间:0 ≤ 𝑓(𝑐ₚ, 𝑐ₜ) ≤ 1,对于所有𝑐ₚ, 𝑐ₜ。我们将使用𝑔𝑓(𝑟ₚ, 𝑟ₜ)表示预测行𝑟ₚ和真实行𝑟ₜ中对应单元格的相似度分数之和。

    行匹配

    我们将𝑅ₚ和𝑅ₜ分别表示预测的行序列和真实的行序列。我们的目标是找到等长的子序列𝑅~ₚ和𝑅~ₜ,使得对应单元格的相似度分数之和最大:
    𝑅~ₚ, 𝑅~ₜ = argmax 𝑅ₚ’ | 𝑅ₚ, 𝑅ₜ’ | 𝑅ₜ ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) (1)
    由于我们关注子序列而不是行的子集,因此更适合使用类似Levenshtein距离的算法来找到𝑅~ₚ和𝑅~ₜ,而不是像ANLS*和DocILE那样使用基于最大权重二分图匹配的算法。这样可以惩罚在预测中交换或重新排列的行。

    GLIRM的准确率(GLIRM-Prec)和召回率(GLIRM-Rec)可以定义如下:
    GLIRM-Prec(𝑅ₚ, 𝑅ₜ) = (1/|𝑅ₜ|) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) (2)
    GLIRM-Rec(𝑅ₚ, 𝑅ₜ) = (1/|𝑅ₚ|) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) (3)
    GLIRM-F1(𝑅ₚ, 𝑅ₜ)可以定义为:
    GLIRM-F1(𝑅ₚ, 𝑅ₜ) = (1+𝛽²) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) / (𝛽²|𝑅ₚ| + |𝑅ₜ|) (4)
    在实际应用中,或者当人工审核系统的输出时,召回率通常比准确率更重要。这是因为查找并确定缺失单元格比验证提取单元格的正确性需要更多时间。因此,我们可以定义带有𝛽参数的GLIRM-F1指标:
    GLIRM-F1𝛽(𝑅ₚ, 𝑅ₜ) = (1+𝛽²) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) / (𝛽²|𝑅ₚ| + |𝑅ₜ|) (5)
    其中𝛽是一个控制召回率重要性的超参数。当𝛽=1时,该指标与GLIRM-F1相同。

    实验结果

    我们使用DocILE数据集进行了实验。表格I比较了LLMs与RASG在KIE和LIR任务上的性能与强大的多模态基线(如LayoutLMv3和Roberta + DETR)。表格II显示了RASG各组件在不同基线模型上的贡献。

    在KIE任务上,只需要GPT-3.5 + 1-Shot Retrieval或Hermes 2 Pro + RASG即可超越基线。对于LIR任务,GPT-3.5 + 1-Shot Retrieval + Structured Prompting就足以击败基线模型。

    此外,我们还测量了边界框反向计算启发式算法的中位数表格级信息覆盖得分(Information Coverage Score,简称ICS)。最佳基线模型Roberta + finetuned DETR在ICS上达到92.93%,而GPT-3.5 + RASG和Hermes 2 Pro + RASG分别达到87.79%和85.02%。

    讨论与结论

    我们的模型性能和消融实验结果表明了几个结论。首先,在KIE任务中,与其进行提示工程相比,使用检索机制和/或在目标数据集上进行微调的效果更好。对于LIR任务,首先进行结构化提示,然后再进行微调是一个更好的策略。有趣的是,经过适当调整和增强的LLMs可以击败经过微调的多模态模型,如LayoutLMv3和Roberta + DETR。最后,我们提出的边界框反向计算启发式算法在表格检测任务上的性能仅略逊于最佳基线模型。

    对于在商业文档信息提取领域工作的团队,我们建议首先使用支持结构化生成的现成LLMs模型,然后实现检索机制。如果性能仍然不理想,可以考虑进行监督微调。对于LIR任务,我们建议先从结构化提示开始,然后再进行微调。

    综上所述,本文介绍了使用RASG框架解决BDIE问题的全面方法,并提供了关于LLMs在这一领域中性能和优化策略的见解。

    参考文献:

    • Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo. Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use.
    • Skalický, Jakub, et al. “Business document information extraction.” arXiv preprint arXiv:2202.06070 (2022).
    • Smock, Matthew, et al. “GriTS: A Generalized Table Structure Recognition Metric.” arXiv preprint arXiv:2304.01428 (2023).
    • Willard, Willard. “Outlines: A toolkit for building structured generation models.” arXiv preprint arXiv:2303.01632 (2023).
    • Xiao, Tong, et al. “Information Coverage Score: Measuring Table Structure Extraction Quality.” arXiv preprint arXiv:2311.00007 (2023).
    • Simsa, Jiří, et al. “DocILE: A Large-scale Research Benchmark for Document Key Information Extraction and Line Item Recognition.” arXiv preprint arXiv:2312.00212 (2023).
    • Huang, Xingyi, et al. “LayoutLMv3: Multi-modal Pre-training for Visually Rich Document Understanding.” arXiv preprint arXiv:2203.06470 (2022).
    • Liu, Yinhan, et al. “Roberta: A robustly optimized BERT pretraining approach.” arXiv preprint arXiv:1907.11692 (2019).
    • Carion, Nicolas, et al. “End-to-end object detection with transformers.” arXiv preprint arXiv:2005.12872 (2020).
  • 解密商业文档信息提取:让电子文档处理工具为我们效力

    在现实生活中,我们常常需要将商业文档中的信息转化为结构化的格式,以便后续的系统能够解析和使用。这个过程被称为商业文档信息提取(Business Document Information Extraction,简称BDIE)。BDIE主要包括两个任务:关键信息提取(Key-Information Extraction,简称KIE)和行项目识别(Line Items Recognition,简称LIR)。本文将介绍一种全新的方法,即”检索增强结构化生成”(Retrieval Augmented Structured Generation,简称RASG),用于解决BDIE问题,并在相关基准测试中取得了最先进的成果。

    什么是商业文档信息提取?

    商业文档信息提取是将非结构化信息(如原始文本、扫描文档等)转化为结构化格式的过程,使其可以被后续的系统解析和使用。其中,关键信息提取的目标是将文档中的信息提取出来,并按照键值对的形式进行格式化。而行项目识别的目标是将信息提取为一系列行项目,其中每个行项目对应表格中的一行,并以列键值对的形式进行格式化。与表格结构识别不同的是,行项目识别不关注列的顺序,只要能够正确地将列映射到预定义的列键即可。

    检索增强结构化生成

    检索增强结构化生成(RASG)是一种由四个组件组成的方法:检索增强生成(Retrieval Augmented Generation)、监督微调(Supervised Finetuning)、结构化生成(Structured Generation)和结构化提示(Structured Prompting)。这些技术可以提高机器学习模型使用工具的能力,从而改善BDIE任务的性能。

    RASG的四个组件是相互关联的:

    1. 检索增强生成允许我们通过在上下文中进行学习,教导预训练模型使用新的工具。
    2. 监督微调提高了提取结果的正确性。
    3. 结构化生成确保模型输出的结果可以被后续的系统解析。
    4. 结构化提示将布局信息融入到提示中,使得文本提示的形式更接近原始文档。

    这四个组件在使用开源的7B大型语言模型(LLM)Hermes 2 Pro – Mistral 7B上可以取得最先进的BDIE结果。然而,在使用GPT-3.5模型时,只需要其中的一个子集即可。

    监督微调中的注意事项

    监督微调的目标是使语言模型既能输出正确的内容,又能输出正确的结构。为了确保模型输出的结果可以被后续系统解析,我们需要将无效标记的概率置零。然而,简单地将监督微调和结构化生成相结合往往会导致结果不佳。主要存在以下两个问题:

    1. 模式与模型不匹配:基于正则表达式的结构化生成算法(如Outlines’ outlines.generate.json模块)在生成过程中隐式地要求严格的键排序。例如,假设我们的模式中”amount”键在”currency”键之前。在使用Outlines时,会在生成”amount”之前屏蔽”currency”的输出。然而,如果模型被微调为在生成”amount”之前生成”currency”,预测准确性就会下降。为了解决这个问题,可以确保监督微调的数据集严格遵循指定的模式,或者使用基于上下文无关文法的结构化生成算法(例如Outlines’ outlines.generate.cfg模块),它不要求严格的键排序。
    2. 可选键带来的标记膨胀:我们经常遇到一个问题,即在预测值为空时仍然要求生成键。例如,当我们使用可选字段构建一个Pydantic对象并将其JSON模式传递给Outlines时,会生成许多不必要的标记,从而降低推理速度。另一个不好的做法是将所有键都设置为可选的。这是因为Outlines在这种情况下使用了不同的生成状态机算法。解决这个问题的方法是在模式中添加一个类型为null的必需的虚拟键,并在后处理中将其删除。

    边界框反向计算的启发式算法

    对于关键信息提取任务,我们发现一个简单的贪婪算法(算法1)就足以用于边界框的反向计算。如果要使用整个页面,可以将下边界和上边界分别设置为0和页面的高度(以像素为单位)。对于行项目识别任务,一个好的启发式算法是:(1)将页面在垂直方向上划分为多个块,每个块对应一个行项目;(2)使用上述算法1为每个行项目的分配的单词块中的单词反向计算边界框。挑战在于如何划分页面。

    算法1:边界框反向计算的启发式算法

    1. 设置下边界和上边界、预测的键值映射和OCR数据。
    2. 匹配得分、键到边界框的映射。
    3. 对于键值映射中的每对(键,值):
    • 找到边界框中的所有坐标处于下边界和上边界之间的且与值匹配的最长连续单词列表。
    • 记录匹配单词的边界框。
    • 将键到边界框的映射添加到键边界框映射中。
    1. 计算匹配分数,即所有匹配单词的相似度之和,用于评估预测结果的准确性。
    2. 返回匹配分数和键边界框映射。

    这种方法的时间复杂度为O(MN^2 * Algo1),其中M是行项目的数量,N是页面的高度。我们可以通过降低页面的规模来优化这个复杂度。在实际生产中,我们使用N=128。此外,我们利用算法1的单调性进行优化:匹配分数随着上边界的增加和下边界的减小而不增加。因此,我们可以使用分治优化来加速计算,将复杂度优化为O(MNlogN * Algo1)。最后,我们使用二分搜索来找到第一个行项目的最大下边界和最后一个行项目的最小上边界,以缩小边界范围。

    通用行项目识别度量

    行项目识别的目标是将信息提取为有序的行项目列表,其中每个行项目对应表格中的一行,并以列键值对的形式进行格式化。为了评估行项目识别的性能,我们需要一个具备以下属性的度量方法:

    1. 子任务隔离:需要分别评估子任务的性能。
    2. 单元格隔离:将一个真正的正样本对应一个预测的单元格和一个正确的真实单元格进行比较。
    3. 单元格完整性:虚构的单元格被视为假阳性,缺失的单元格被视为假阴性。
    4. 单元格相似度度量的灵活性:在同一个子任务中,度量方法应支持多种单元格相似度度量方式。
    5. 单元格行位置的不变性:对于正确预测的单元格,所给予的奖励应与其绝对行位置无关。
    6. 行顺序的保持:对于任意两个预测行,它们的相对顺序和与其匹配的真实行的相对顺序应保持一致。
    7. 列排列的不变性:度量方法应对列的重新排列具有不变性。即不考虑列的顺序。

    目前存在的行项目识别度量方法中,ANLS*和DocILE使用基于最大权重二分图匹配的算法进行行匹配,因此不满足属性#6。此外,DocILE支持单元格内容和单元格位置的识别,但无法隔离这两个方面,这使得它无法用于只进行单元格内容或单元格位置识别的任务。GriTS满足上述所有属性,但不满足属性#7。

    在接下来的部分,我们将介绍一种新的度量方法,称为通用行项目识别度量(General Line Items Recognition Metric,简称GLIRM),它满足上述所有属性。GLIRM可以看作是ANLS*和DocILE的扩展,使其满足属性#1和属性#6,同时也是GriTS的一种推广,使其满足属性#7。

    GLIRM中的相似度匹配分数

    根据属性#1和属性#4,我们将使用𝑓(𝑐ₚ, 𝑐ₜ)表示预测单元格𝑐ₚ和真实单元格𝑐ₜ之间的相似度度量。𝑓可以是适用于特定下游任务的任何相似度度量方式,如产品参考编号的精确匹配、边界框的交并比等。为了使度量方法类似于F1得分,我们需要将𝑓限制在0到1之间:0 ≤ 𝑓(𝑐ₚ, 𝑐ₜ) ≤ 1,对于所有𝑐ₚ, 𝑐ₜ。我们将使用𝑔𝑓(𝑟ₚ, 𝑟ₜ)表示预测行𝑟ₚ和真实行𝑟ₜ中对应单元格的相似度分数之和。

    行匹配

    我们将𝑅ₚ和𝑅ₜ分别表示预测的行序列和真实的行序列。我们的目标是找到等长的子序列𝑅~ₚ和𝑅~ₜ,使得对应单元格的相似度分数之和最大:
    𝑅~ₚ, 𝑅~ₜ = argmax 𝑅ₚ’ | 𝑅ₚ, 𝑅ₜ’ | 𝑅ₜ ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) (1)
    由于我们关注子序列而不是行的子集,因此更适合使用类似Levenshtein距离的算法来找到𝑅~ₚ和𝑅~ₜ,而不是像ANLS*和DocILE那样使用基于最大权重二分图匹配的算法。这样可以惩罚在预测中交换或重新排列的行。

    GLIRM的准确率(GLIRM-Prec)和召回率(GLIRM-Rec)可以定义如下:
    GLIRM-Prec(𝑅ₚ, 𝑅ₜ) = (1/|𝑅ₜ|) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) (2)
    GLIRM-Rec(𝑅ₚ, 𝑅ₜ) = (1/|𝑅ₚ|) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) (3)
    GLIRM-F1(𝑅ₚ, 𝑅ₜ)可以定义为:
    GLIRM-F1(𝑅ₚ, 𝑅ₜ) = (1+𝛽²) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) / (𝛽²|𝑅ₚ| + |𝑅ₜ|) (4)
    在实际应用中,或者当人工审核系统的输出时,召回率通常比准确率更重要。这是因为查找并确定缺失单元格比验证提取单元格的正确性需要更多时间。因此,我们可以定义带有𝛽参数的GLIRM-F1指标:
    GLIRM-F1𝛽(𝑅ₚ, 𝑅ₜ) = (1+𝛽²) ∑ 𝑖 𝑔𝑓(𝑅~ₚ[𝑖], 𝑅~ₜ[𝑖]) / (𝛽²|𝑅ₚ| + |𝑅ₜ|) (5)
    其中𝛽是一个控制召回率重要性的超参数。当𝛽=1时,该指标与GLIRM-F1相同。

    实验结果

    我们使用DocILE数据集进行了实验。表格I比较了LLMs与RASG在KIE和LIR任务上的性能与强大的多模态基线(如LayoutLMv3和Roberta + DETR)。表格II显示了RASG各组件在不同基线模型上的贡献。

    在KIE任务上,只需要GPT-3.5 + 1-Shot Retrieval或Hermes 2 Pro + RASG即可超越基线。对于LIR任务,GPT-3.5 + 1-Shot Retrieval + Structured Prompting就足以击败基线模型。

    此外,我们还测量了边界框反向计算启发式算法的中位数表格级信息覆盖得分(Information Coverage Score,简称ICS)。最佳基线模型Roberta + finetuned DETR在ICS上达到92.93%,而GPT-3.5 + RASG和Hermes 2 Pro + RASG分别达到87.79%和85.02%。

    讨论与结论

    我们的模型性能和消融实验结果表明了几个结论。首先,在KIE任务中,与其进行提示工程相比,使用检索机制和/或在目标数据集上进行微调的效果更好。对于LIR任务,首先进行结构化提示,然后再进行微调是一个更好的策略。有趣的是,经过适当调整和增强的LLMs可以击败经过微调的多模态模型,如LayoutLMv3和Roberta + DETR。最后,我们提出的边界框反向计算启发式算法在表格检测任务上的性能仅略逊于最佳基线模型。

    对于在商业文档信息提取领域工作的团队,我们建议首先使用支持结构化生成的现成LLMs模型,然后实现检索机制。如果性能仍然不理想,可以考虑进行监督微调。对于LIR任务,我们建议先从结构化提示开始,然后再进行微调。

    综上所述,本文介绍了使用RASG框架解决BDIE问题的全面方法,并提供了关于LLMs在这一领域中性能和优化策略的见解。

    参考文献:

    • Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo. Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use.
    • Skalický, Jakub, et al. “Business document information extraction.” arXiv preprint arXiv:2202.06070 (2022).
    • Smock, Matthew, et al. “GriTS: A Generalized Table Structure Recognition Metric.” arXiv preprint arXiv:2304.01428 (2023).
    • Willard, Willard. “Outlines: A toolkit for building structured generation models.” arXiv preprint arXiv:2303.01632 (2023).
    • Xiao, Tong, et al. “Information Coverage Score: Measuring Table Structure Extraction Quality.” arXiv preprint arXiv:2311.00007 (2023).
    • Simsa, Jiří, et al. “DocILE: A Large-scale Research Benchmark for Document Key Information Extraction and Line Item Recognition.” arXiv preprint arXiv:2312.00212 (2023).
    • Huang, Xingyi, et al. “LayoutLMv3: Multi-modal Pre-training for Visually Rich Document Understanding.” arXiv preprint arXiv:2203.06470 (2022).
    • Liu, Yinhan, et al. “Roberta: A robustly optimized BERT pretraining approach.” arXiv preprint arXiv:1907.11692 (2019).
    • Carion, Nicolas, et al. “End-to-end object detection with transformers.” arXiv preprint arXiv:2005.12872 (2020).
  • 商业文档信息提取的革命:工具使用与检索增强生成

    在当今数字化的商业环境中,如何高效地从海量的非结构化信息中提取有用的数据,已经成为了企业面临的重要挑战。商业文档信息提取(BDIE)应运而生,旨在将如原始文本、扫描文件等非结构化信息转化为结构化格式,以便下游系统解析和使用。本文将深入探讨一种创新的框架——检索增强结构生成(RASG),以及它如何在BDIE领域取得突破性成果。

    什么是商业文档信息提取?

    商业文档信息提取(BDIE)主要包括两个关键任务:

    • 关键信息提取(KIE): 从文档中提取重要信息。
    • 行项识别(LIR): 识别并提取文档中的行项和表格。

    这些任务的核心目标是将复杂的、混杂的信息以一种可以被机器理解和处理的方式结构化。

    检索增强结构生成(RASG)框架

    RASG 的核心组件

    1. 检索增强生成(RAG): 通过上下文学习,教会大型语言模型(LLM)如何使用新工具。
    2. 监督微调: 通过微调,进一步提高提取输出的准确性。
    3. 结构生成: 确保输出可以被下游程序解析。
    4. 结构提示: 在提示中注入布局信息,以增强模型对文档结构的理解。

    新的评价指标

    为了更好地评估行项识别任务,作者提出了一种新的指标:通用行项识别指标(GLIRM)。相比现有的指标(如ANLS*、DocILE和GriTS),GLIRM更贴近实际的BDIE应用场景。

    算法创新

    RASG 还提供了一种启发式算法,用于在无需视觉编码器的情况下反向计算预测的行项和表格的边界框。

    实验与验证

    数据集与模型

    • 数据集: 使用DocILE数据集进行基准测试。
    • 模型: 测试了GPT-3.5(商业化)和 Hermes 2 Pro – Mistral 7B. 开源)。

    消融研究

    通过消融研究,评估了RASG组件(检索增强生成、监督微调、结构提示)对模型性能的影响。

    检索机制

    使用小波哈希的曼哈顿距离测量页面相似性,以优化检索机制。

    现实应用中的优势

    在实际应用中,结合RASG的LLM往往比传统的多模态模型(LMM)表现更为出色。无论是在提取准确性还是处理速度上,RASG框架都展示了其优越性。

    例如,使用RASG框架的GPT-3.5能够在处理复杂的发票信息提取任务时,迅速准确地识别出关键的发票号、金额和日期等信息,而无需借助额外的视觉处理工具。这种高效的处理能力不仅节省了人力成本,还大大提高了数据处理的准确性和可靠性。

    结论与展望

    检索增强结构生成(RASG)框架为商业文档信息提取带来了革命性的变化。通过结合先进的检索机制、结构生成和监督微调技术,RASG不仅在多个基准测试中取得了领先的成绩,还展示了其在实际应用中的巨大潜力。随着技术的不断进步,BDIE领域必将迎来更多创新和突破,为企业的信息处理和决策提供更强大的支持。

    通过对这些前沿技术的研究和应用,我们有理由相信,未来的商业文档信息提取将变得更加智能和高效

  • 新的位置编码CoPE

    新的位置编码方法 CoPE(Contextual Position Encoding)确实在提升大模型性能方面展示了显著的潜力。传统的 Transformer 模型使用绝对或相对位置编码,通常基于 token 的位置来进行编码,这在处理更高层次的抽象任务(例如计算第 i 个句子或特定单词)时存在局限性。而 CoPE 通过允许模型根据上下文来选择性地编码位置,解决了这一问题。

    CoPE 的优点

    1. 上下文依赖的位置编码:CoPE 通过计算每个 query-key 对的门控值(gate value)来决定哪些 token 应该被计入位置测量。这使得位置测量不再是简单的 token 计数,而是根据内容和上下文动态调整。
    2. 多层次位置抽象:CoPE 能够同时表示从 token 位置到句子位置等不同层次的抽象位置。这样,模型不仅能关注到前几个 token,还能关注到前几个句子,从而更好地理解当前句子的含义。
    3. 跨任务的优越性能:文章通过多个实验展示了 CoPE 在处理选择性复制、计数任务以及语言和编码任务中的优越性,特别是在处理分布外数据和需要高泛化能力的任务上表现出更强的性能。

    实验结果

    实验结果表明,CoPE 在以下几个方面优于传统的位置编码方法:

    • 选择性复制和计数任务:CoPE 能够解决标准位置编码方法无法解决的选择性复制和计数任务。
    • 语言建模和编码任务:在这些实际应用中,CoPE 降低了困惑度(perplexity),提高了模型性能。
    • 分布外数据的泛化能力:CoPE 在处理分布外数据时表现出更强的泛化能力,这是传统位置编码方法难以实现的。

    结论

    总的来说,CoPE 提供了一种更灵活、更强大的位置编码方法,适用于需要对输入数据结构和语义内容进行精细理解的任务。通过上下文依赖的位置编码,CoPE 能够显著提升大模型在多种任务上的性能,特别是在需要高泛化能力的场景中。

    论文链接:Encoding: Learning to Count What’s Important

  • 美国软件股大崩盘的启示:至少在现阶段,AI对软件是替代、而非增益!


    AI投资狂潮主要催生了芯片制造和云计算需求,而软件企业距离从中获利仍有一段距离。在人工智能热潮的强劲推动下,科技行业当前正上演着前所未有的剧烈洗牌。本周软件和企业科技公司的财报就暴露出这一转折期的阵痛——业绩普遍疲软,前景飘忽不定。

    软件公司距离从AI热潮获利仍有一段距离

    分析人士指出,目前AI投资狂潮主要催生了芯片制造和云计算需求,而软件企业距离从中获利仍有一段距离。

    彭博智库高级分析师 Anurag Rana 表示,除微软外,目前很少软件公司的收入有所提振,资金主要流向了英伟达等芯片巨头以及云计算平台。

    大多数公司都没有专门的AI预算,所以他们只能从非AI预算中挪用资金。他们仍在购买英伟达芯片和戴尔服务器,但不会签订大额软件合同。软件行业最终将从AI中获益,但要建立起来可能需要数年时间,今年下半年的业绩改善已经无望实现。

    曾经作为行业明星的 Salesforce 本周四绩后股价大跌近20%,创2004年上市以来最大单日跌幅。业绩不佳固然是导火索,但公司高管的表态更彰显出软件企业面临的窘境。

    Salesforce CEO 贝尼奥夫直言,过往疫情催生的“虚假繁荣”正在消退。当年为适应远程办公需求而大量采购的软硬件,如今亟需进行整合和理顺。

    他认为:

    每家企业软件公司都在疫后进行了调整,最近发布财报公司基本上都在以不同方式重复同样的话。

    除了 Salesforce,Okta、MongoDB、UiPath 等公司也在最新财报中下调了全年收入预期。Okta 直指宏观经济环境成为拖累,影响了新客户的获取及现有客户的购买扩展。

    而在 Veeva 的财报电话会议上,CEO 甚至将通用 AI 列为客户”优先权重新分配”的一大原因。类似的景象几乎笼罩了整个软件和企业科技行业。

    宏观环境低迷 企业主要资金流向硬件升级

    另一个潜在阻力则是宏观经济的持续低迷。在本周公布的最新 PCE 物价指数数据显示,通胀水平微高于预期,美联储也维持利率在23年高位不变。在这种环境下,企业对于签订长期软件订单的热情自然会大打折扣。

    UiPath 创始人 Daniel Dines 指出,UiPath 在3月下旬和4月份遭遇了严重业务放缓,部分原因就是当前经济状况乏力,客户对包年合同需求大幅降温,转而青睐短期订单。

    戴尔财报也显示,由于更多低利润的 AI 服务器订单涌入,全年毛利率料将下滑 150 个基点。这一点也从侧面说明了软件需求疲软、企业预算多转向硬件的局面。

    在 AI 火热的发展背后,科技行业正加速分化重组。芯片、云计算等直接相关领域获利最大,而软件企业则承受了较大冲击,不得不通过收缩支出、放缓扩张甚至裁员来应对。

    例如 SentinelOne CEO 就直言,企业的采购习惯和软件评估标准都在发生变化。这种动能切换对于整个软件行业来说都是个重大考验。一旦脱离 AI 趋势而错失良机,后果可能是被行业洗牌甩在后面。

    不过,也有分析人士认为,目前软件股的大幅回调恰恰为投资者提供了良机。伯恩斯坦分析师认为,像 ServiceNow 这样获利确定性较高的头部公司在估值修复后反而更具投资价值。

  • 文章标题:谁在写评论,是人还是AI?

    人工智能(AI)的广泛应用在自然语言处理领域引发了一个问题:如何准确区分AI生成的文本和人类编写的文本?一篇最新的研究提出了一种方法来解决这个问题,它通过使用迁移学习技术,让模型能够在不同主题下识别生成文本,同时提高对写作风格和词汇变化的检测能力。

    研究人员使用了一个包含真实书评和AI生成书评的数据集,通过开源的Vicuna语言模型生成了AI评论。经过实验验证,这种方法能够准确地区分AI生成的文本和人类编写的文本,实现了96.86%的准确率。这项研究的目标是探索大型语言模型在文本识别方面的能力和局限性,并为未来有效地识别和管理AI生成的内容提供有价值的经验。

    解决问题的方法:迁移学习和数据集准备

    为了解决区分AI生成文本和人类编写文本的问题,研究人员采用了以下方法:

    迁移学习

    迁移学习是一种将在一个任务上训练得到的模型应用于另一个相关任务的技术。在这项研究中,研究人员利用之前在科学摘要分类任务中训练得到的模型权重,通过迁移学习技术对模型进行微调,以适应书籍评论领域的文本分类任务。这种方法可以提高模型在不同主题下识别生成文本的能力。

    数据集准备

    研究人员使用了一个包含真实书评和AI生成书评的数据集。具体来说,他们从Kaggle上获取了一个公开的书籍评论数据集,并使用开源的Vicuna模型生成了对应的AI书籍评论。这个数据集包含了10,000条人类评论和10,000条AI生成评论,用于训练和评估模型。

    实验和结果分析

    在实验过程中,研究人员对模型进行了训练和评估,并分析了实验结果。

    数据预处理和文本表示

    在训练模型之前,研究人员对收集到的书籍评论进行了清洗和预处理。他们去除了特殊字符、空白、停用词,并将文本转换为小写格式,以提高数据质量。然后,他们使用Word2Vec技术中的”google-news-300″预训练模型将文本转换为300维的向量表示,以捕捉词义和上下文关系。

    模型架构和训练

    研究人员采用了长短期记忆网络(LSTM)来处理序列数据,并在LSTM后加入dropout层以减少过拟合。为了适应书籍评论领域的文本分类任务,他们使用迁移学习技术对模型进行微调。

    性能评估和结果分析

    通过使用准确率、精确率、召回率、F1分数和AUC等指标,研究人员评估了模型的性能。实验结果显示,使用迁移学习后,模型的平均准确率提高到了96.86%。

    此外,研究人员还对模型的分类结果进行了分析。他们可视化了模型正确分类和错误分类的文本,并对错误分类的文本进行进一步的分析。他们通过词云图展示了这些文本中的词汇使用情况,并使用t-SNE方法将模型隐藏状态的高维表示降维到2D空间,以可视化人类编写和AI生成文本的分离情况。

    进一步的研究方向

    尽管这项研究取得了显著的成果,但还有一些进一步的研究方向值得探索:

    • 跨领域应用:将所提出的方法应用于其他文本领域和类型,如推文(tweets),以测试模型在没有进一步训练的情况下是否能够检测AI生成的文本。
    • 使用更先进的语言模型:尝试使用更新的、更先进的开源语言模型来生成更大的数据集,这将有助于改进文本生成方法,并在不同领域、语言和文本类型中测试其有效性。
    • 深入理解AI内容的潜力和局限性:通过研究生成的文本,进一步了解AI产生内容的潜力和局限性。
    • 改进模型架构和文本表示方法:探索其他类型的循环神经网络(RNN)或变换器模型(如Transformer或BERT),以及其他文本表示技术,如BERT或ELMo,以进一步提高模型的性能。
    • 多模态数据集:考虑将文本数据与其他类型的数据(如图像或声音)结合起来,以研究AI在生成多模态内容方面的能力。
    • 伦理和社会影响:研究AI生成文本的伦理和社会影响,包括对隐私、版权和信息真实性的影响。
    • 对抗性训练:使用对抗性训练技术来提高模型对AI生成文本的鲁棒性,特别是在面对越来越复杂的文本生成策略时。
    • 实时检测系统:开发实时检测系统,以便在文本生成后立即识别AI生成的文本。
    • 用户研究:进行用户研究,了解人们如何感知AI生成的文本,并探索如何提高人类对AI文本的识别能力。

    结论

    这项研究提出了一种有效的方法来区分AI生成的文本和人类编写的文本。通过迁移学习和适当的文本表示技术,可以准确识别AI生成的文本,并在实验中实现了96.86%的准确率。然而,需要进一步的研究来探索AI在文本生成方面的潜力和局限性,并开发出更有效的工具来检测和管理AI生成的内容。

    参考文献:

人生梦想 - 关注前沿的计算机技术 acejoy.com