博客

Real-time Neural Network Inference on Extremely Weak Devices: Agile Offloading with Explainable AI

Summary: With the wide adoption of AI applications, there is a pressing need of enabling real-time neural network (NN) inference on small embedded devices, but deploying NNs and achieving high performance of NN inference on these small devices is challenging due to their extremely weak capabilities. Although NN partitioning and offloading can contribute to such deployment, they are incapable of minimizing the local costs at embedded devices. Instead, we suggest to address this challenge via agile NN offloading, which migrates the required computations in NN offloading from online inference to offline learning. In this paper, we present AgileNN, a new NN offloading technique that achieves real-time NN inference on weak embedded devices by leveraging eXplainable AI techniques, so as to explicitly enforce feature sparsity during the training phase and minimize the online computation and communication costs. Experiment results show that AgileNN’s inference latency is >6x lower than the existing schemes, ensuring that sensory data on embedded devices can be timely consumed. It also reduces the local device’s resource consumption by >8x, without impairing the inference accuracy.

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在资源受限的嵌入式设备上实现实时神经网络（NN）推理的问题。具体来说，论文提出了一种名为AgileNN的新方法，通过利用可解释人工智能（XAI）技术，将NN推理中所需的计算从在线推理迁移到离线学习阶段，以减少在线计算和通信成本。论文的主要贡献包括： 1. 提出了一种新的NN卸载技术，通过在训练阶段明确强制特征稀疏性，将NN卸载中的计算需求从在线推理迁移到离线学习，从而实现在计算和通信能力非常有限的嵌入式设备上进行实时NN推理。 2. 开发了新的AI技术，使用XAI明确操纵NN推理中不同数据特征的重要性，以确保NN分区和卸载的有效性。 3. 通过强制特征重要性分布的偏斜性，允许在不牺牲任何准确性的情况下，灵活权衡嵌入式设备上NN推理的准确性和成本，而不会产生任何额外的计算或存储开销。论文通过在STM32F746 MCU板和配备Nvidia RTX A6000 GPU的服务器上实现AgileNN，并在不同系统条件下的各种流行数据集上评估其性能。实验结果表明，与现有方案相比，AgileNN可以将NN推理延迟降低多达6倍，同时将本地设备的资源消耗降低8倍以上，而不会损害推理准确性。

Q: 有哪些相关研究？

A: 这篇论文提到了以下几类相关研究： 1. **NN压缩和剪枝**：这些技术通过移除神经网络中的冗余权重和结构来减少其复杂性。例如，文章提到了量化（Quantization）[18, 25]和剪枝（Pruning）[27, 51]方法。 2. **神经网络结构搜索（NAS）**：这是一种技术，可以在给定的复杂性约束下搜索最优的神经网络结构[10, 44]。 3. **NN卸载**：这类方法将神经网络的计算卸载到远程服务器，以减轻本地设备的计算负担。文章中提到了将原始数据压缩后传输到服务器的方法[45, 46]，以及使用本地神经网络（Local NN）将输入数据转换为更易于压缩的特征表示的方法[31, 34, 36, 39, 42, 65]。 4. **可解释人工智能（XAI）**：XAI技术用于评估不同数据特征在NN推理中的重要性。文章提到了集成梯度（Integrated Gradients, IG）[59]等XAI工具。 5. **边缘计算和设备-云协同**：这类研究关注如何在设备和云端之间分配计算任务，以优化资源利用和性能。文章中提到了SPINN[39]，它结合了NN分区和早退出结构以适应运行时推理。 6. **资源受限的深度学习**：这些工作专注于为资源受限的设备（如微控制器）设计轻量级的神经网络模型。例如，MCUNet[44]通过NAS优化NN结构以适应设备资源。 7. **联邦学习**：这是一种分布式机器学习方法，允许多个客户端在不暴露本地数据的情况下与服务器共享模型更新[37]。这些相关工作为AgileNN提供了技术背景，并展示了在资源受限设备上实现高效NN推理的挑战和可能性。

Q: 论文如何解决这个问题？

A: 论文提出了一种名为AgileNN的新方法来解决在资源受限的嵌入式设备上实现实时神经网络（NN）推理的问题。AgileNN的核心思想是将神经网络（NN）卸载中的计算需求从在线推理迁移到离线学习阶段。具体来说，AgileNN通过以下关键技术来实现这一目标： 1. **特征重要性评估**：使用可解释人工智能（XAI）技术，在训练阶段评估不同数据特征对NN推理的重要性。这允许在训练时明确强制特征稀疏性，从而减少在线推理阶段的计算和通信成本。 2. **特征选择与压缩**：在训练阶段，AgileNN通过非线性变换在高维特征空间中操纵数据特征的重要性分布，确保只有少数特征对NN推理贡献最大。在线推理时，只压缩和传输这些不重要的特征，而重要特征则保留在本地设备上，由轻量级的本地神经网络（Local NN）处理。 3. **本地神经网络与远程神经网络的结合**：AgileNN将神经网络分为本地神经网络（Local NN）和远程神经网络（Remote NN）。在线推理时，Local NN使用重要的特征进行本地预测，然后将这个预测与Remote NN从不重要特征中得到的预测结合起来，以产生最终的推理输出。 4. **训练过程中的优化**：AgileNN在训练阶段使用一个预训练的参考神经网络来确保XAI评估的特征重要性是准确的。同时，通过预处理特征提取器和引入一个映射层来简化训练过程，使得即使在资源受限的设备上也能实现有效的训练。通过这些技术，AgileNN能够在保证推理准确性的同时，显著降低嵌入式设备的计算和通信开销，实现了实时的NN推理。实验结果表明，AgileNN的推理延迟比现有方案低6倍以上，同时将本地设备的资源消耗降低了8倍以上。

Q: 论文做了哪些实验？

A: 论文在STM32F746 MCU板和配备Nvidia RTX A6000 GPU的服务器上实现了AgileNN，并在不同系统条件下的各种流行数据集上评估了其性能。具体的实验包括： 1. **训练收敛性和成本**：评估了AgileNN的训练过程，包括测试准确率和损失，以展示其与常规MobileNetV2训练在收敛速度上的相似性。这表明尽管引入了特征排序和偏斜性操作增加了学习复杂性，但通过适当的损失函数设计和特征提取器的预处理，AgileNN仍能确保快速的训练收敛。 2. **本地资源消耗**：测量了AgileNN在嵌入式设备上的本地电池功耗以及内存和闪存存储的使用情况。结果表明，由于使用了轻量级的特征提取器和神经网络，AgileNN在计算和通信方面的运行时消耗的本地能量更低，从而具有显著更高的能效。 3. **推理延迟和准确性**：比较了AgileNN与基线边缘推理和其他三种现有方法（MCUNet、DeepCOD和SPINN）在不同数据集（CIFAR-10/100、SVHN和ImageNet-200）上的端到端推理延迟和准确性。实验结果表明，AgileNN能够将端到端推理延迟降低2到2.5倍，同时保持与DeepCOD和SPINN相似的推理准确性。 4. **压缩率的影响**：进一步比较了AgileNN与DeepCOD在应用不同压缩率传输数据特征到远程服务器时的性能。结果表明，由于AgileNN更灵活和高效地执行特征稀疏性，即使在高压缩率下也能实现更高的NN推理准确性。 5. **预测重新加权的影响**：评估了使用可调参数β组合本地NN和远程NN预测对推理准确性的影响。结果表明，使用高度偏差的β值会导致NN推理准确性显著下降。 6. **特征重要性偏斜性的效用**：通过改变保留在本地NN中的特征重要性偏斜性的要求，评估了AgileNN的偏斜性操作的有效性。结果表明，AgileNN可以满足所需的偏斜性目标，并且通过增加这些特征的偏斜性可以增加剩余不重要特征的稀疏性，从而减少网络传输延迟。 7. **无线带宽的影响**：展示了即使在可用无线网络带宽较低（如270kbps）的情况下，AgileNN的高特征稀疏性也能保证推理延迟在可接受范围内。 8. **CPU频率的影响**：通过调整STM32F746板的CPU频率，研究了CPU频率对AgileNN性能的影响。结果表明，即使CPU频率降低，AgileNN的推理延迟增加也相对较小。 9. **XAI技术的选择**：研究了使用不同的XAI工具（Gradient Saliency和Integrated Gradients）构建AgileNN时性能的差异。结果表明，AgileNN的性能在不同的XAI选择下保持稳定。这些实验全面评估了AgileNN在不同方面的表现，并与现有方法进行了比较，验证了AgileNN在资源受限设备上实现实时NN推理的有效性和优越性。

Q: 有什么可以进一步探索的点？

A: 论文提出了一些可以进一步探索的点，包括： 1. **减少训练开销**：使用XAI评估特征重要性在每次训练迭代中都需要频繁计算梯度，这在计算上是昂贵的。未来的工作可以探索如何减少这种梯度计算的数量，同时不影响偏斜性操作的质量。此外，可以研究重用标准NN训练中已经存在的梯度来加速XAI评估。 2. **极端网络条件**：论文指出，如果网络不可用或遇到强干扰，AgileNN仍然可以依赖本地预测器进行基本决策。可以研究在网络完全中断的情况下，如何部署更复杂的本地预测器以提高准确性。 3. **其他推理任务**：论文主要针对图像识别任务进行了评估，但AgileNN也可以应用于其他推理任务，如视频和音频分析。未来的工作可以探索如何将AgileNN扩展到这些领域。 4. **卸载辅助训练**：静态NN模型难以适应新数据和不同的应用场景。未来的工作可以探索如何将AgileNN扩展到在线训练，通过结合联邦学习框架，使多个客户端在不暴露本地数据的情况下与服务器通信，服务器承担大部分训练开销。 5. **模型适应性和泛化能力**：AgileNN在推理速度上对弱设备进行了优化，但在模型适应性和泛化能力方面可能有限。未来的研究可以探索如何使AgileNN能够更好地适应新数据和不同的应用场景。 6. **资源分配和任务调度**：在实际的车辆网络部署中，还需要考虑资源分配和任务调度策略，以确保网络的整体性能和效率。未来的工作可以研究如何将AgileNN与有效的资源管理和调度算法相结合。 7. **安全性和隐私保护**：在进行模型卸载和联邦学习时，需要考虑数据的安全性和隐私保护。未来的研究可以探索如何在AgileNN中集成安全和隐私保护机制。这些方向为AgileNN的未来发展和应用提供了潜在的研究方向。

Q: 总结一下论文的主要内容

A: 这篇论文提出了一种名为AgileNN的新方法，旨在实现在计算和通信能力非常有限的嵌入式设备上进行实时神经网络（NN）推理。AgileNN通过利用可解释人工智能（XAI）技术，在训练阶段评估不同数据特征对NN推理的重要性，并在在线推理时仅压缩和传输不重要的特征，从而减少计算和通信成本。具体来说，AgileNN的关键技术和贡献包括： 1. **特征重要性评估**：使用XAI工具在训练阶段评估特征重要性，以便在在线推理时执行特征稀疏性。 2. **特征选择与压缩**：通过非线性变换操纵特征重要性分布，确保只有少数特征对NN推理贡献最大，这些特征在在线推理时被压缩和传输。 3. **本地神经网络与远程神经网络的结合**：将神经网络分为本地神经网络（Local NN）和远程神经网络（Remote NN），在推理时结合两者的预测。 4. **训练过程中的优化**：通过预处理特征提取器和引入映射层来简化训练过程，确保在资源受限设备上的有效训练。论文在STM32F746 MCU板和配备Nvidia RTX A6000 GPU的服务器上实现了AgileNN，并在多个数据集上进行了评估。实验结果表明，与现有方法相比，AgileNN可以将NN推理延迟降低多达6倍，同时将本地设备的资源消耗降低8倍以上，而不会损害推理准确性。此外，论文还讨论了AgileNN在不同网络带宽和CPU频率下的性能，以及使用不同XAI技术时的稳定性。总的来说，AgileNN通过在训练阶段进行特征重要性评估和操纵，实现了在资源受限设备上的高效和实时NN推理，为嵌入式和物联网设备上的AI应用提供了新的解决方案。

2023 年 12 月 26 日
Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code[URL]Authors: Shahin Honarvar ; Mark van der Wilk ; Alastair Donaldson

Summary: We present a method for systematically evaluating the correctness and robustness of instruction-tuned large language models (LLMs) for code generation via a new benchmark, Turbulence. Turbulence consists of a large set of natural language $\textit{question templates}$ , each of which is a programming problem, parameterised so that it can be asked in many different forms. Each question template has an associated $\textit{test oracle}$ that judges whether a code solution returned by an LLM is correct. Thus, from a single question template, it is possible to ask an LLM a $\textit{neighbourhood}$ of very similar programming questions, and assess the correctness of the result returned for each question. This allows gaps in an LLM’s code generation abilities to be identified, including $\textit{anomalies}$ where the LLM correctly solves $\textit{almost all}$ questions in a neighbourhood but fails for particular parameter instantiations. We present experiments against five LLMs from OpenAI, Cohere and Meta, each at two temperature configurations. Our findings show that, across the board, Turbulence is able to reveal gaps in LLM reasoning ability. This goes beyond merely highlighting that LLMs sometimes produce wrong code (which is no surprise): by systematically identifying cases where LLMs are able to solve some problems in a neighbourhood but do not manage to generalise to solve the whole neighbourhood, our method is effective at highlighting $\textit{robustness}$ issues. We present data and examples that shed light on the kinds of mistakes that LLMs make when they return incorrect code results.

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一种新的方法，用于系统评估指令调整的大型语言模型（LLMs）在代码生成方面的正确性和鲁棒性。作者们创建了一个名为“Turbulence”的新基准测试，它由大量自然语言问题模板组成，每个模板都是一个编程问题，参数化以便可以以许多不同的形式提出。每个问题模板都有一个相关的测试预言机，可以判断LLM返回的代码解决方案是否正确。通过这种方法，可以从单个问题模板向LLM提出非常相似的编程问题的邻域，并评估每个问题的结果的正确性。这使得可以识别LLM代码生成能力的差距，包括LLM能够正确解决邻域中的几乎所有问题，但未能概括解决整个邻域的异常情况。作者们使用来自OpenAI、Cohere和Meta的五个LLM进行了实验，每个LLM在两种温度配置下进行评估。他们的发现表明，Turbulence能够揭示LLM推理能力的缺陷。这超越了仅仅强调LLM有时会生成错误的代码（这不是惊喜）：通过系统地识别LLM能够在邻域中的一些问题上解决，但不能概括解决整个邻域的情况，他们的方法有效地突出了鲁棒性问题。作者们还提供了数据和例子，揭示了LLM返回不正确代码结果时犯的错误类型。

Q: 有哪些相关研究？

A: 有几项相关工作涉及到评估大型语言模型（LLMs）在代码生成方面的正确性和鲁棒性。一些研究已经创建了基准测试和编程数据集，如HumanEval、Automated Programming Progress Standard（APPS）、CodeContests、Mostly Basic Programming Problems（MBPP）、MathQA-Python、EvalPlus和CodeXGLUE，以评估LLMs在代码方面的正确性。其他研究则专注于评估LLMs的鲁棒性，例如D¨oderlein等人评估了GitHub Copilot和Codex对提示变化的敏感性，Wang等人介绍了ReCode框架以评估Python函数完成的CodeGen模型的鲁棒性。此外，还有研究调查了LLMs在代码翻译、故障定位和程序修复、提高Python代码补全质量、LLMs的可解释性、由LLMs生成的代码的自动修复以及评估指令调整的LLMs在SE任务上的性能影响。

Q: 论文如何解决这个问题？

A: 为了解决评估大型语言模型（LLMs）在代码生成方面的正确性和鲁棒性的问题，论文提出了一种新的方法，涉及使用相关编程问题的邻域。论文介绍了“Turbulence”，这是一个新基准测试，它由大量自然语言问题模板组成，每个模板都是一个参数化的编程问题。每个问题模板都有一个相关的测试预言机，可以判断LLM返回的代码解决方案是否正确。通过从单个问题模板向LLM提出非常相似的编程问题的邻域，可以评估每个问题的正确性结果。这使得可以识别LLM代码生成能力的差距，包括LLM能够正确解决邻域中的几乎所有问题，但未能概括解决整个邻域的异常情况。论文使用来自OpenAI、Cohere和Meta的五个LLM进行了实验，每个LLM在两种温度配置下进行评估。他们的发现表明，Turbulence能够揭示LLM推理能力的缺陷。这超越了仅仅强调LLM有时会生成错误的代码（这不是惊喜）：通过系统地识别LLM能够在邻域中的一些问题上解决，但不能概括解决整个邻域的情况，论文的方法有效地突出了鲁棒性问题。论文还提供了数据和例子，揭示了LLM返回不正确代码结果时犯的错误类型。

Q: 论文做了哪些实验？

A: 论文使用来自OpenAI、Cohere和Meta的五个大型语言模型（LLMs）进行了实验，每个模型在两种温度配置下进行评估。具体来说，实验涉及以下步骤： 1. 使用Turbulence基准测试对LLMs进行评估，该基准测试由大量自然语言问题模板组成，每个模板都是一个参数化的编程问题。每个问题模板都有一个相关的测试预言机，可以判断LLM返回的代码解决方案是否正确。 2. 从单个问题模板向LLM提出非常相似的编程问题的邻域，并评估每个问题的正确性结果。这使得可以识别LLM代码生成能力的差距，包括LLM能够正确解决邻域中的几乎所有问题，但未能概括解决整个邻域的异常情况。 3. 分析LLMs在正确性和鲁棒性方面的性能，并将其与温度设置的变化进行比较。 4. 提供数据和例子，揭示LLM返回不正确代码结果时犯的错误类型。论文发现，GPT-4在所有模型中表现一致优于其他模型。然而，当面临问题邻域时，所有LLMs都表现出明显的缺乏鲁棒性。降低温度到0总体上提高了所有问题的正确性分数（不包括Command模型）。然而，它也在不正确的答案中引入了更高多样性的错误。未来的研究方向包括评估量化（使用不同变体，如INT6和INT8）对LLMs代码性能的影响。此外，论文的作者们设想开发一个类似于Turbulence的基准测试，专门设计用于评估支持不完整代码片段填充的生成模型。

Q: 有什么可以进一步探索的点？

A: 论文提出了几个未来研究方向： 1. 评估量化对LLMs代码性能的影响：未来的工作可以探索使用不同变体的量化（如INT6和INT8）评估LLMs在代码生成任务上的表现。 2. 开发类似于Turbulence的基准测试，专门设计用于评估支持不完整代码片段填充的生成模型：未来的工作可以涉及创建一个新的基准测试，用于评估LLMs完成不完整代码片段的能力。 3. 探索LLMs推理能力的限制：论文的结果揭示了LLMs在概括解决编程问题的邻域方面的推理能力的差距。未来的工作可以更详细地研究这些差距，并试图了解LLMs推理的潜在限制。 4. 将Turbulence与其他LLMs集成：论文的结果基于评估的一组LLMs，未来的工作可以将Turbulence与其他LLMs集成，例如Google的Bard，它由Gemini Pro提供支持，作者已经请求了API访问，但仍然在等待列表中。这将允许在更大的LLMs样本上评估Turbulence。 5. 使用替代问题模板：论文使用作者设计的问题模板，而不是从互联网上汇编“现实世界”的问题，以避免训练数据偏见。未来的工作可以使用替代问题模板集进行Turbulence评估，这可能提供有关LLMs代码生成能力的其他见解。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了一种新的方法，用于系统评估指令调整的大型语言模型（LLMs）在代码生成方面的正确性和鲁棒性。作者们创建了一个名为“Turbulence”的新基准测试，它由大量自然语言问题模板组成，每个模板都是一个编程问题，参数化以便可以以许多不同的形式提出。每个问题模板都有一个相关的测试预言机，可以判断LLM返回的代码解决方案是否正确。通过这种方法，可以从单个问题模板向LLM提出非常相似的编程问题的邻域，并评估每个问题的结果的正确性。这使得可以识别LLM代码生成能力的差距，包括LLM能够正确解决邻域中的几乎所有问题，但未能概括解决整个邻域的异常情况。作者们使用来自OpenAI、Cohere和Meta的五个LLM进行了实验，每个LLM在两种温度配置下进行评估。他们的发现表明，Turbulence能够揭示LLM推理能力的缺陷。这超越了仅仅强调LLM有时会生成错误的代码（这不是惊喜）：通过系统地识别LLM能够在邻域中的一些问题上解决，但不能概括解决整个邻域的情况，他们的方法有效地突出了鲁棒性问题。作者们还提供了数据和例子，揭示了LLM返回不正确代码结果时犯的错误类型。

2023 年 12 月 25 日

博客

Real-time Neural Network Inference on Extremely Weak Devices: Agile Offloading with Explainable AI

Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code[URL]Authors: Shahin Honarvar ; Mark van der Wilk ; Alastair Donaldson