进入正文

三星端侧 AI SDK 工具链深度解析

每一次顺畅的端侧 AI 体验背后,都隐藏着将服务器训练的大规模模型无缝适配到手机芯片的关键过程。
三星的端侧 AI SDK 工具链正是实现这一转变的核心系统,使复杂的 AI 变得实用、便携,并适用于日常生活。

  • 邮件

通常情况下,客户在云端或服务器上训练的 AI 模型体积非常庞大,并针对 GPU 运行进行了优化。若要在 Exynos NPU 上运行这类 AI 模型,就必须经过图优化、量化、编译等流程,将其转换为端侧 AI 模型。
端侧 AI SDK 工具链通过 Lowering 过程,将客户的原始 AI 模型转换成能够在端侧 NPU 环境中运行的模型成为支持客户 AI 模型不可或缺的要素。然而实现这一目标仍需克服多项技术挑战:

[1] 支持多种 AI 模型 IR
随着 AI 模型数量与复杂度每年迅速增长,端侧 AI SDK 工具链需要适配多样化应用场景。通过支持 PyTorch¹⁾ 、ONNX²⁾ 、TensorFlow³⁾ 、TFLite⁴⁾ 等多种 AI 模型 IR⁵⁾ ,SDK 助力开发者实现快速迭代与灵活适配,为敏捷AI开发提供关键支撑。

[2] 工具链全流程验证机制
在 AI 模型的 Lowering 过程中,原始模型会经过图优化和量化,逐步转换为可在硬件上执行的模型。强化各阶段的验证,对保持原始模型精度与性能至关重要。

[3] 高阶图优化与量化算法
为提升端侧 AI 模型性能,需要持续优化图优化技术和量化算法,尤其是针对像 LLM 这样高度复杂的模型。

为此,三星推出端侧AI SDK——Exynos AI Studio,致力于通过系统化方案应对这些核心技术挑战。


Exynos AI Studio:Exynos 端侧 SDK 的发展战略
三星开发并向客户提供 Exynos AI Studio SDK,布局端侧AI领域的技术发展战略。

示意图展示 PyTorch、ONNX 和 TFLite AI 模型通过 PyTorch 开发环境 SDK 和 IR Converter 转换为 Exynos AI 优化的内部中间表示(IR)的流程。
图 1. Exynos AI Studio SDK 结构
示意图展示 PyTorch、ONNX 和 TFLite AI 模型通过 PyTorch 开发环境 SDK 和 IR Converter 转换为 Exynos AI 优化的内部中间表示(IR)的流程。
图 1. Exynos AI Studio SDK 结构


Studio Low Level Toolchain(ELT)组成。两者分别执行模型层面的高级图优化与量化,以及基于 SoC 的专用算法和编译。
EHT 以 ONNX、TFLite 等开源框架 IR 作为输入,通过 IR Converter 转换成内部 IR,并通过图优化调整模型结构,使其适合在 NPU 上执行。通过量化,则将模型体积缩减到适于端侧高效运行的水平。
ELT 则根据每一代 NPU 的特性执行优化的 Lowering,将模型转换为可在硬件上执行的形式。最终通过 Compiler生成可在 NPU 上运行的端侧 AI 模型。


支持多种 AI 模型 IR的SDK架构设计
为提升 SDK 扩展性,支持多种 AI 模型 IR 格式至关重要。目前,三星的 SDK 已兼容 ONNX、TFLite 等开源框架 IR,并正推进强化对 PyTorch 的支持。
特别是在生成式 AI 模型方面,若能在 PyTorch 开发环境中进行图优化和量化,可减少模型 Lowering 阶段不必要的转换,从而提供更稳定和高效的 SDK。

展示 Exynos AI Studio SDK 架构的示意图,说明对 PyTorch、ONNX、TFLite 深度学习框架的支持,以及 CNNX 和 SNC 转换、量化、图优化、编译与端侧 AI 调试和分析工具流程。
图 2. 多种 AI 输入模型的 IR 处理流程
展示 Exynos AI Studio SDK 架构的示意图,说明对 PyTorch、ONNX、TFLite 深度学习框架的支持,以及 CNNX 和 SNC 转换、量化、图优化、编译与端侧 AI 调试和分析工具流程。
图 2. 多种 AI 输入模型的 IR 处理流程


当不同的 AI 模型输入 IR 通过 SDK 内部的 IR Converter 时,它们将统一转化为适用于 Exynos 端侧 AI 开发的内部 IR。由于所有 SDK 模块都以这一内部 IR 作为信息交换接口,软件架构因此具备高度的扩展性与灵活性。


模拟器与仿真器的分级验证体系
随着模型在 SDK 工具链中不断 Lowering,模型体积缩小的同时可能伴随精度衰减,为最大限度保持模型精度,需要建立分级验证机制

示意图展示了通过比较原始模型、应用假量化与反量化的 CNNX 仿真模型,以及基于 NPU 仿真的 SNC 仿真模型之间的算子输出结果,实现基于 SNR 的验证流程。
图 3. 使用模拟器与仿真器的分阶段验证过程
示意图展示了通过比较原始模型、应用假量化与反量化的 CNNX 仿真模型,以及基于 NPU 仿真的 SNC 仿真模型之间的算子输出结果,实现基于 SNR 的验证流程。
图 3. 使用模拟器与仿真器的分阶段验证过程


在 Exynos AI Studio 中,可通过模拟器的 SNR(Signal-to-Noise Ratio)指标,将 EHT 模块的输出与原始模型进行算子级比较。
在模拟器中,为了处理量化信息,模型在推理前后会通过反量化与量化运算,以便通过 Fake Quantization 进行计算。
ELT 模块的结果也通过仿真器以类似方式进行准确度验证。由于仿真器通过模拟 NPU 硬件的仿真代码执行计算,因此可以进行更精确的验证。


先进图优化与量化算法的技术演进
面对日益复杂的AI模型,提升图优化与量化算法水平成为关键。

展示 Exynos AI Studio 优化与量化功能的对照表,包括硬件无关与硬件特定的图优化方式、支持的数据类型以及基于 PTQ 的量化方法。
图 4. Exynos AI Studio 的图优化与量化规范
展示 Exynos AI Studio 优化与量化功能的对照表,包括硬件无关与硬件特定的图优化方式、支持的数据类型以及基于 PTQ 的量化方法。
图 4. Exynos AI Studio 的图优化与量化规范


在图优化阶段,可将流程分成与硬件无关和硬件相关两类。在应用适用于一般计算设备的通用优化后,会执行符合 NPU 加速器特性的专用算法。
量化算法则将服务器上以 fp32 位宽训练的 AI 模型转换为可在 NPU 设备运行的 int8、int16 或 fp16 等形式。
通过先进的图优化与量化算法,可以在尽可能保留原始模型准确性的前提下,完成 NPU 优化。


端侧智能的未来展望
端侧 AI 不再是技术难题,而是真正走入现实。凭借 Exynos AI Studio SDK,三星正为未来AI应用提供所需的运行效率、精度保障与扩展能力。这确保智能真正存在于人们最需要的地方:他们的手中。
从技术角度而言,三星 Exynos AI Studio SDK 采用端侧 SDK 工具链结构,通过优化、量化、编译等流程,使客户的 AI 模型能够在 NPU 硬件上高效运行。
未来,三星通过全面的设计和开发战略,持续巩固其在端侧AI技术领域的优势地位。



* 所有例图仅用于说明,一切以实际产品为准


1) PyTorch 由Meta开发的开源深度学习框架,专为灵活直观的AI模型开发而优化。
2) 开放神经网络交换格式 (Open Neural Network Exchange, ONNX) 一种开源的机器学习与深度学习模型表示格式。
3) TensorFlow 由Google开发的开源深度学习框架,专为大规模AI训练和部署而设计。
4) TensorFlow Lite (TFLite) TensorFlow的轻量级版本,针对在移动设备和边缘设备上运行AI模型进行了优化。
5) 中间表示 (Intermediate Representation, IR) 一种硬件无关的格式,可统一来自不同深度学习框架的模型,支持优化、量化和编译等后处理操作。