Real-time Neural Network Inference on Extremely Weak Devices: Agile Offloading with Explainable AI

Summary: With the wide adoption of AI applications, there is a pressing need of enabling real-time neural network (NN) inference on small embedded devices, but deploying NNs and achieving high performance of NN inference on these small devices is challenging due to their extremely weak capabilities. Although NN partitioning and offloading can contribute to such deployment, they are incapable of minimizing the local costs at embedded devices. Instead, we suggest to address this challenge via agile NN offloading, which migrates the required computations in NN offloading from online inference to offline learning. In this paper, we present AgileNN, a new NN offloading technique that achieves real-time NN inference on weak embedded devices by leveraging eXplainable AI techniques, so as to explicitly enforce feature sparsity during the training phase and minimize the online computation and communication costs. Experiment results show that AgileNN’s inference latency is >6x lower than the existing schemes, ensuring that sensory data on embedded devices can be timely consumed. It also reduces the local device’s resource consumption by >8x, without impairing the inference accuracy.

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在资源受限的嵌入式设备上实现实时神经网络（NN）推理的问题。具体来说，论文提出了一种名为 AgileNN 的新方法，通过利用可解释人工智能（XAI）技术，将 NN 推理中所需的计算从在线推理迁移到离线学习阶段，以减少在线计算和通信成本。论文的主要贡献包括：1. 提出了一种新的 NN 卸载技术，通过在训练阶段明确强制特征稀疏性，将 NN 卸载中的计算需求从在线推理迁移到离线学习，从而实现在计算和通信能力非常有限的嵌入式设备上进行实时 NN 推理。2. 开发了新的 AI 技术，使用 XAI 明确操纵 NN 推理中不同数据特征的重要性，以确保 NN 分区和卸载的有效性。3. 通过强制特征重要性分布的偏斜性，允许在不牺牲任何准确性的情况下，灵活权衡嵌入式设备上 NN 推理的准确性和成本，而不会产生任何额外的计算或存储开销。论文通过在 STM32F746 MCU 板和配备 Nvidia RTX A6000 GPU 的服务器上实现 AgileNN，并在不同系统条件下的各种流行数据集上评估其性能。实验结果表明，与现有方案相比，AgileNN 可以将 NN 推理延迟降低多达 6 倍，同时将本地设备的资源消耗降低 8 倍以上，而不会损害推理准确性。

Q: 有哪些相关研究？

A: 这篇论文提到了以下几类相关研究：1. **NN 压缩和剪枝 **：这些技术通过移除神经网络中的冗余权重和结构来减少其复杂性。例如，文章提到了量化（Quantization）[18, 25]和剪枝（Pruning）[27, 51]方法。2. ** 神经网络结构搜索（NAS）**：这是一种技术，可以在给定的复杂性约束下搜索最优的神经网络结构 [10, 44]。3. **NN 卸载 **：这类方法将神经网络的计算卸载到远程服务器，以减轻本地设备的计算负担。文章中提到了将原始数据压缩后传输到服务器的方法[45, 46]，以及使用本地神经网络（Local NN）将输入数据转换为更易于压缩的特征表示的方法[31, 34, 36, 39, 42, 65]。4. ** 可解释人工智能（XAI）**：XAI 技术用于评估不同数据特征在 NN 推理中的重要性。文章提到了集成梯度（Integrated Gradients, IG）[59] 等 XAI 工具。5. ** 边缘计算和设备 - 云协同 **：这类研究关注如何在设备和云端之间分配计算任务，以优化资源利用和性能。文章中提到了 SPINN[39]，它结合了 NN 分区和早退出结构以适应运行时推理。6. ** 资源受限的深度学习 **：这些工作专注于为资源受限的设备（如微控制器）设计轻量级的神经网络模型。例如，MCUNet[44]通过 NAS 优化 NN 结构以适应设备资源。7. ** 联邦学习 **：这是一种分布式机器学习方法，允许多个客户端在不暴露本地数据的情况下与服务器共享模型更新[37]。这些相关工作为 AgileNN 提供了技术背景，并展示了在资源受限设备上实现高效 NN 推理的挑战和可能性。

Q: 论文如何解决这个问题？

A: 论文提出了一种名为 AgileNN 的新方法来解决在资源受限的嵌入式设备上实现实时神经网络（NN）推理的问题。AgileNN 的核心思想是将神经网络（NN）卸载中的计算需求从在线推理迁移到离线学习阶段。具体来说，AgileNN 通过以下关键技术来实现这一目标：1. ** 特征重要性评估 **：使用可解释人工智能（XAI）技术，在训练阶段评估不同数据特征对 NN 推理的重要性。这允许在训练时明确强制特征稀疏性，从而减少在线推理阶段的计算和通信成本。2. ** 特征选择与压缩 **：在训练阶段，AgileNN 通过非线性变换在高维特征空间中操纵数据特征的重要性分布，确保只有少数特征对 NN 推理贡献最大。在线推理时，只压缩和传输这些不重要的特征，而重要特征则保留在本地设备上，由轻量级的本地神经网络（Local NN）处理。3. ** 本地神经网络与远程神经网络的结合 **：AgileNN 将神经网络分为本地神经网络（Local NN）和远程神经网络（Remote NN）。在线推理时，Local NN 使用重要的特征进行本地预测，然后将这个预测与 Remote NN 从不重要特征中得到的预测结合起来，以产生最终的推理输出。4. ** 训练过程中的优化 **：AgileNN 在训练阶段使用一个预训练的参考神经网络来确保 XAI 评估的特征重要性是准确的。同时，通过预处理特征提取器和引入一个映射层来简化训练过程，使得即使在资源受限的设备上也能实现有效的训练。通过这些技术，AgileNN 能够在保证推理准确性的同时，显著降低嵌入式设备的计算和通信开销，实现了实时的 NN 推理。实验结果表明，AgileNN 的推理延迟比现有方案低 6 倍以上，同时将本地设备的资源消耗降低了 8 倍以上。

Q: 论文做了哪些实验？

A: 论文在 STM32F746 MCU 板和配备 Nvidia RTX A6000 GPU 的服务器上实现了 AgileNN，并在不同系统条件下的各种流行数据集上评估了其性能。具体的实验包括：1. ** 训练收敛性和成本 **：评估了 AgileNN 的训练过程，包括测试准确率和损失，以展示其与常规 MobileNetV2 训练在收敛速度上的相似性。这表明尽管引入了特征排序和偏斜性操作增加了学习复杂性，但通过适当的损失函数设计和特征提取器的预处理，AgileNN 仍能确保快速的训练收敛。2. ** 本地资源消耗 **：测量了 AgileNN 在嵌入式设备上的本地电池功耗以及内存和闪存存储的使用情况。结果表明，由于使用了轻量级的特征提取器和神经网络，AgileNN 在计算和通信方面的运行时消耗的本地能量更低，从而具有显著更高的能效。3. ** 推理延迟和准确性 **：比较了 AgileNN 与基线边缘推理和其他三种现有方法（MCUNet、DeepCOD 和 SPINN）在不同数据集（CIFAR-10/100、SVHN 和 ImageNet-200）上的端到端推理延迟和准确性。实验结果表明，AgileNN 能够将端到端推理延迟降低 2 到 2.5 倍，同时保持与 DeepCOD 和 SPINN 相似的推理准确性。4. ** 压缩率的影响 **：进一步比较了 AgileNN 与 DeepCOD 在应用不同压缩率传输数据特征到远程服务器时的性能。结果表明，由于 AgileNN 更灵活和高效地执行特征稀疏性，即使在高压缩率下也能实现更高的 NN 推理准确性。5. ** 预测重新加权的影响 **：评估了使用可调参数 β 组合本地 NN 和远程 NN 预测对推理准确性的影响。结果表明，使用高度偏差的 β 值会导致 NN 推理准确性显著下降。6. ** 特征重要性偏斜性的效用 **：通过改变保留在本地 NN 中的特征重要性偏斜性的要求，评估了 AgileNN 的偏斜性操作的有效性。结果表明，AgileNN 可以满足所需的偏斜性目标，并且通过增加这些特征的偏斜性可以增加剩余不重要特征的稀疏性，从而减少网络传输延迟。7. ** 无线带宽的影响 **：展示了即使在可用无线网络带宽较低（如 270kbps）的情况下，AgileNN 的高特征稀疏性也能保证推理延迟在可接受范围内。8. **CPU 频率的影响 **：通过调整 STM32F746 板的 CPU 频率，研究了 CPU 频率对 AgileNN 性能的影响。结果表明，即使 CPU 频率降低，AgileNN 的推理延迟增加也相对较小。9. **XAI 技术的选择 **：研究了使用不同的 XAI 工具（Gradient Saliency 和 Integrated Gradients）构建 AgileNN 时性能的差异。结果表明，AgileNN 的性能在不同的 XAI 选择下保持稳定。这些实验全面评估了 AgileNN 在不同方面的表现，并与现有方法进行了比较，验证了 AgileNN 在资源受限设备上实现实时 NN 推理的有效性和优越性。

Q: 有什么可以进一步探索的点？

A: 论文提出了一些可以进一步探索的点，包括：1. ** 减少训练开销 **：使用 XAI 评估特征重要性在每次训练迭代中都需要频繁计算梯度，这在计算上是昂贵的。未来的工作可以探索如何减少这种梯度计算的数量，同时不影响偏斜性操作的质量。此外，可以研究重用标准 NN 训练中已经存在的梯度来加速 XAI 评估。2. ** 极端网络条件 **：论文指出，如果网络不可用或遇到强干扰，AgileNN 仍然可以依赖本地预测器进行基本决策。可以研究在网络完全中断的情况下，如何部署更复杂的本地预测器以提高准确性。3. ** 其他推理任务 **：论文主要针对图像识别任务进行了评估，但 AgileNN 也可以应用于其他推理任务，如视频和音频分析。未来的工作可以探索如何将 AgileNN 扩展到这些领域。4. ** 卸载辅助训练 **：静态 NN 模型难以适应新数据和不同的应用场景。未来的工作可以探索如何将 AgileNN 扩展到在线训练，通过结合联邦学习框架，使多个客户端在不暴露本地数据的情况下与服务器通信，服务器承担大部分训练开销。5. ** 模型适应性和泛化能力 **：AgileNN 在推理速度上对弱设备进行了优化，但在模型适应性和泛化能力方面可能有限。未来的研究可以探索如何使 AgileNN 能够更好地适应新数据和不同的应用场景。6. ** 资源分配和任务调度 **：在实际的车辆网络部署中，还需要考虑资源分配和任务调度策略，以确保网络的整体性能和效率。未来的工作可以研究如何将 AgileNN 与有效的资源管理和调度算法相结合。7. ** 安全性和隐私保护 **：在进行模型卸载和联邦学习时，需要考虑数据的安全性和隐私保护。未来的研究可以探索如何在 AgileNN 中集成安全和隐私保护机制。这些方向为 AgileNN 的未来发展和应用提供了潜在的研究方向。

Q: 总结一下论文的主要内容

A: 这篇论文提出了一种名为 AgileNN 的新方法，旨在实现在计算和通信能力非常有限的嵌入式设备上进行实时神经网络（NN）推理。AgileNN 通过利用可解释人工智能（XAI）技术，在训练阶段评估不同数据特征对 NN 推理的重要性，并在在线推理时仅压缩和传输不重要的特征，从而减少计算和通信成本。具体来说，AgileNN 的关键技术和贡献包括：1. ** 特征重要性评估 **：使用 XAI 工具在训练阶段评估特征重要性，以便在在线推理时执行特征稀疏性。2. ** 特征选择与压缩 **：通过非线性变换操纵特征重要性分布，确保只有少数特征对 NN 推理贡献最大，这些特征在在线推理时被压缩和传输。3. ** 本地神经网络与远程神经网络的结合 **：将神经网络分为本地神经网络（Local NN）和远程神经网络（Remote NN），在推理时结合两者的预测。4. ** 训练过程中的优化 **：通过预处理特征提取器和引入映射层来简化训练过程，确保在资源受限设备上的有效训练。论文在 STM32F746 MCU 板和配备 Nvidia RTX A6000 GPU 的服务器上实现了 AgileNN，并在多个数据集上进行了评估。实验结果表明，与现有方法相比，AgileNN 可以将 NN 推理延迟降低多达 6 倍，同时将本地设备的资源消耗降低 8 倍以上，而不会损害推理准确性。此外，论文还讨论了 AgileNN 在不同网络带宽和 CPU 频率下的性能，以及使用不同 XAI 技术时的稳定性。总的来说，AgileNN 通过在训练阶段进行特征重要性评估和操纵，实现了在资源受限设备上的高效和实时 NN 推理，为嵌入式和物联网设备上的 AI 应用提供了新的解决方案。