进入正文

三星在引领On-Device生成式AI领域中的关键作用

  • 邮件

2025年,生成式AI将真正实现触手可及。得益于三星Exynos SoC内置的On-Device AI功能,我们可以更快速、可靠且安全地使用这种力量。过去需要庞大服务器和持续联网才能实现的处理,如今可以直接在智能手机等个人设备上运行。从这个意义上说,On-Device AI不仅仅是一个技术里程碑,更是改变我们使用AI方式的关键转折点。

与基于云的模型相比,On-Device AI具有明显优势。它运作更快,让用户无需连接网络即可使用AI服务。通过在本地处理数据,可以有效保障个人隐私和安全。同时,它还能帮助减少网络流量费用和云服务成本。然而,要在智能手机等有限形态设备上流畅运行大规模生成式AI并非易事,因为受限的计算资源和内存容量需要采用高效的推理技术和模型优化技术,如模型压缩和量化。此外,要实现高性能模型的实时运行,还需要依赖模型转换工具和运行时软件技术,以及基于异构核心架构的高性能低功耗神经网络加速器设计技术。
 

基于异构核心架构的高性能低功耗NPU

Transformer架构是大规模生成式AI的核心基础,由多头注意力机制和前馈神经网络组合而成。在这两个结构中,会使用矩阵乘法等线性运算,以及softmax1函数等非线性运算。这些运算的比例会根据生成式AI模型的具体应用场景而有所不同。

因此,要在设备端高效运行生成式AI模型,需要同时支持线性和非线性运算。同时,为了灵活应对这些运算比例的变化,并在多样化的工作负载下实现最优性能,基于异构核心架构的神经网络加速器也扮演着至关重要的角色。

神经网络加速器架构图,显示了压缩、控制、内存、三个张量引擎和一个向量引擎。
神经网络加速器架构图,显示了压缩、控制、内存、三个张量引擎和一个向量引擎。

为了配置适用于此类应用的高性能低功耗神经网络加速器,需要具备以下三个关键特性:

[1] 面向On-Device环境的高性能低功耗计算架构

为了满足On-Device模型推理的实时处理需求,架构需要支持数百TOPS规模的计算性能,并支持低于16位的低精度格式。虽然On-Device系统在原始计算能力上可能不如基于云的平台,但通过支持4位、8位等低精度计算,可以实现更高的能效比。

[2] 多元化异构核心架构

为了高效处理生成式AI模型中的线性和非线性运算,加速器集成了Tensor Engine和Vector Engine,两者分别针对不同类型的计算进行优化。Tensor Engine配备多组MAC2阵列,用于高速线性计算;而Vector Engine则配备适用于多种非线性运算的SIMD3单元。

[3] 多计算单元之间的共享内存与控制器架构

为了尽可能减少异构计算单元之间的数据传输开销,所有计算引擎均配备用于交换计算结果的内部共享内存,如Scratchpad SRAM。此外,每个核心还配备专用控制器架构,以最大化执行效率。
 

面向高效推理的计算及内存优化软件技术

为了在On-Device环境中运行大规模AI模型,需要通过优化软件技术实现高效推理,以便在有限的硬件资源下进行计算和数据存储。代表性示例包括用于应用LoRA4的技术,以及用于神经网络计算和内存优化的编译器技术。

[1] LoRA应用技术

LoRA技术通过对固定模型参数进行最小化修改,实现多样化的适应能力,具有显著降低整体模型尺寸的优势。典型应用场景包括构建领域特定的语言模型、生成特定风格的图像、以及开发特定任务的聊天机器人和AI代理。在On-Device环境中利用LoRA的优势,离不开LoRA应用技术的支持。

在On-Device环境中,LoRA技术能够将目标模型的固定参数与可更新的LoRA参数清晰分离,使在保持最小内存占用的同时,实现对多样化任务的灵活适配成为可能。

图示LoRA技术应用,其中基础权重 (W_base) 被冻结,可训练的低秩适配矩阵 (A_i 和 B_i) 用于处理多个任务。
图示LoRA技术应用,其中基础权重 (W_base) 被冻结,可训练的低秩适配矩阵 (A_i 和 B_i) 用于处理多个任务。

[2] 用于神经网络计算与内存优化的编译器技术

在On-Device环境中,加速生成式AI模型的编译器技术主要包括利用异构加速器的并行处理技术以及子模型间的权重共享技术。

并行处理技术利用生成式AI模型中线性运算和非线性运算分别由不同类型的处理单元负责的特点,通过对这些不同单元的执行进行并行调度,从而最大程度地减少整体执行时间。

图示数据依赖消除后的调度技术,对比了顺序处理与并行处理的流程。
图示数据依赖消除后的调度技术,对比了顺序处理与并行处理的流程。

将用于消除数据依赖的神经网络分割技术与上述技术结合,可以减少内存流量并实现计算时间的并行化,从而显著提升推理速度。

图示使用神经网络分块和异构加速器进行并行处理的推理加速,对比了串行和并行执行的时间线。
图示使用神经网络分块和异构加速器进行并行处理的推理加速,对比了串行和并行执行的时间线。

子模型间的权重共享技术是帮助克服生成式AI模型存储限制的编译器优化技术之一。当整个模型中的子模型能够共享参数时,所需的整体存储空间将大幅减少,因此该技术对于此类应用至关重要。

图示子模型间权重共享技术,将多个子模型的独立权重整合为共享权重。
图示子模型间权重共享技术,将多个子模型的独立权重整合为共享权重。

压缩与量化技术

为了在On-Device环境中运行大规模生成式AI模型,模型压缩与量化技术至关重要,它们能够在有限的硬件资源下实现高效且实时的运行。这些技术在克服内存和计算限制方面发挥着关键作用,能够减少模型体积、加快计算速度并最大程度地降低能耗。

特别是,剪枝和知识蒸馏是通过模型压缩实现大规模生成式AI模型在设备端运行的两项核心技术。剪枝是指移除模型中不必要或重要性较低的神经元或其连接,以减少模型大小和计算负载,从而显著提升处理速度和能效。另一方面,知识蒸馏是将大型教师模型的预测知识迁移至较小的学生模型,使学生模型在大幅减少参数数量的同时仍能保持复杂模型的性能。这两种方法对于在On-Device环境中实现实时AI推理至关重要,且在互补使用时能够实现最优效果。

图示模型压缩应用概念,显示原始大型神经网络通过剪枝/蒸馏转换为更小模型。
图示模型压缩应用概念,显示原始大型神经网络通过剪枝/蒸馏转换为更小模型。

量化技术是将神经网络的权重和激活值转换为8位或更低整数等低精度格式的技术。这大大减少了计算和存储所需的资源,使在有限硬件资源下高效处理大规模生成式AI模型成为可能。因此,量化已成为在On-Device环境中实现实时推理的关键技术。

近年来,生成式AI模型日益采用低精度格式,对权重量化至4位或更低,对激活值量化至8位或更低。因此,支持4位以下精度的模型开发和部署正在加速,推动了On-Device AI执行环境的快速变革。

图示模型量化应用概念,将原始32位神经网络转换为量化后的2-16位混合精度模型。
图示模型量化应用概念,将原始32位神经网络转换为量化后的2-16位混合精度模型。

开启On-Device生成式AI的未来

三星电子持续推动从支持异构计算的硬件、降低计算负载的算法,到提升运行效率的软件等核心技术的高水平整合与发展。基于这些技术进步,三星为全球首款AI智能手机的商用化做出了贡献。未来,三星将不断突破On-Device AI技术的边界,致力于为全球用户带来更加智能和安全的AI体验。

*所示图像仅用于说明目的,可能与实际产品不完全一致。 图像经过数字编辑、修改或增强处理。

*所有产品规格基于内部测试结果,并可能因用户系统配置而有所不同。 实际性能可能因使用条件与环境而异。


1) Softmax 是一种数学函数,用于将实数向量转换为概率分布。在神经网络处理器(NPU)中,softmax 对于突出 Transformer 注意力机制中的相关性至关重要。此外,它在分类任务中计算概率时也同样不可或缺。
2) Multiply-Accumulate, 乘加运算
3) Single Instruction Multiple Data, 单指令多数据
4) Low-Rank Adaptation, 低秩适应