进入正文

超越云端:深入解析设备端生成式人工智能

  • 邮件

大规模生成式人工智能模型,尤其是大型语言模型(LLM)和文本到图像模型,通常局限于云服务器环境中运行。然而,随着对更强隐私保护、降低延迟以及提升成本和能效的需求不断增长,基于SoC的设备端生成式AI正受到越来越多关注。向这种边缘计算模式的转变带来了诸多优势,但要实现这一目标,必须克服以下三大物理限制:

[1] 计算资源有限

与云服务器不同,边缘设备所搭载的SoC计算资源受限,难以处理生成模型所需的每秒数万亿次操作(TOPS)。这些设备的并行计算单元数量有限,且工作频率必须保持较低,因此,必须从结构层面降低计算负载,才能实现设备端的高性能推理。

[2] 内存I/O带宽受限

高性能生成模型需要处理数百兆到数千兆字节的参数和中间激活数据。但与服务器相比,边缘设备通常受限于较小的DRAM容量和显著较低的外部内存访问速度。因此,模型执行过程中频繁的内存访问可能成为主要瓶颈,导致整体系统性能下降和能耗增加。

[3] 电池电量与散热限制

电池供电的移动设备对功耗有严格限制,过高的功耗会导致设备发热增加,触发热节流机制自动降低系统性能。由于这些限制,即使部署了高性能模型,持续推理仍然困难,因此必须重点关注能效,重新设计计算流程。

为应对这些挑战,三星不仅聚焦于硬件层面的优化,还在模型结构、计算模式和算法设计等架构层面进行精细调整——这些关键因素共同促成了Exynos SoC上大规模生成模型的卓越性能。


低位量化:为SoC部署缩减模型规模

低位量化是一种通过用8位、4位甚至更低位数的整数替代32位浮点数来表示权重和激活,从而显著减小深度学习模型整体大小和计算复杂度的技术。该方法提升了计算速度,减少了内存占用,并且支持功耗更低的基于整数的运算,非常适用于计算资源有限的SoC和边缘设备。

近年来,新算法使得在保持模型准确性的同时,将模型量化至4位或更低成为可能,使低位量化成为设备端运行大型语言模型(LLM)和生成模型的关键技术。通过这一技术,三星在Exynos SoC上实现了较浮点模型更高的能效(以TOPS/W衡量),同时缓解了内存带宽瓶颈。这一进展使得像Llama和Stable Diffusion XL这样的生成模型能够以实际可用的性能水平运行。

实施低位量化的好处
实施低位量化的好处

权重稀疏性:减少内存I/O的模型优化技术

权重稀疏性通过消除或忽略深度学习模型中不重要或接近于零的权重,使模型仅执行必要的计算。利用这种稀疏性,可以减少总体运算次数,避免不必要的内存访问,从而显著降低内存I/O负担。

过去,结构化剪枝(即移除整个通道或滤波器)被广泛用于简化模型结构,但由于通道或滤波器级别的稀疏度较低,其对实际计算量的减少有限。相比之下,非结构化剪枝(移除不必要的单个权重连接)逐渐受到关注,业界正朝着支持稀疏性的定制加速器方向发展,以将这种细粒度的稀疏性转化为实际性能提升。

Exynos平台在硬件层面支持非结构化权重稀疏性,提供减少内存I/O的解决方案,特别适用于内存I/O成为主要性能瓶颈的模型,从而实现性能优化和低功耗。

为了超越权重稀疏性,三星还在研究激活稀疏性技术。激活稀疏性指的是当大量输入值变为零时,计算可以被跳过。与静态的权重稀疏性不同,激活稀疏性是动态变化的,因此需要不同的硬件支持。¹


算法层级优化:结构性提升推理速度的新方法

为了突破压缩固定模型架构或跳过计算的方法,三星正在研究并应用算法层面的结构性优化——这是一种日益重要的推理加速手段。

[1] 大型语言模型(LLM)的推测解码(Speculative Decoding)

推测解码通过先使用轻量级模型快速生成多个候选词元(token),然后由更大的模型批量验证这些候选词元,从而显著加速了大型语言模型的推理过程。与传统的每生成一个词元就调用一次大型模型的方法相比,这种方法在计算量上大幅减少,从而大幅降低了整体推理延迟。值得注意的是,推测解码可在保持输出质量的前提下,将响应速度提升3至4倍,是在计算资源有限的移动或边缘设备上运行大型语言模型的关键技术。

自回归解码与推测解码的比较
自回归解码与推测解码的比较

[2] 大型语言模型的滑动窗口注意力机制(Sliding Window Attention)

为了解决大型语言模型(LLM)处理长输入时计算量和内存使用呈指数级增长的问题,三星实施了如滑动窗口注意力这样的优化算法。该技术通过约束自注意力计算范围,使每个Token与固定长度相邻固定Token交互,而非与整个序列交互。

如此一来,LLM中Transformer模块的计算复杂度可从O(N²)降低到O(N)。这种架构特别适合处理长上下文任务(如文本摘要),能够高效处理长序列。因此,它支持在移动环境中实现实用的设备端AI部署。与通过预测未来推理路径来减少计算的推测解码不同,SWA则通过简化上下文结构从根本上减少计算负担。

[3] 用于图像生成扩散模型的步骤蒸馏(Step Distillation)

步骤蒸馏是一种智能优化技术,旨在减少高质量图像生成所需的迭代去噪步骤数。传统的扩散模型采用U-Net架构,需经过数十到数百个步骤逐步去噪。然而,这一过程计算密集且频繁访问内存,给SoC或边缘设备环境的实现带来挑战。

为此,步骤蒸馏将推理步骤数从数十甚至上百步缩减到不足10步,同时保持相当的图像质量。该技术无需对模型架构或参数做重大改动,特别适合如Stable Diffusion这类大型图像生成模型。在功耗效率和推理时间优化至关重要的SoC和边缘环境中,步骤蒸馏展现出显著优势。

此外,步骤蒸馏突破资源限制,在有限计算能力与内存带宽下实现高质量生成式AI,成为设备端部署的核心使能技术。进一步优化还包括根据U-Net架构特性,更频繁地执行每步变化较大的层,而对变化较小的层则间歇执行。


向更智能的设备端 AI 体验迈进

响应生成式 AI 革命,三星通过持续的架构和算法优化,提升了 Exynos SoC 的 AI 能力,推动了设备端创新。随着公司迈入智能代理 AI 时代,三星将继续通过集成工具链 Exynos AI Studio,深入研究低位量化及权重/激活稀疏等模型压缩技术并加以应用。

在算法层面,三星正推动推测解码技术的发展,同时研究并实现适配边缘设备环境的先进模型架构,包括专家混合模型(MoE)²、Mamba³以及多模态扩散变换器(MM-DiT)⁴。

这些软件创新共同标志着生成模型在设备端运行方式的关键转变。三星将持续引领硬件进步与软件创新,进一步提升设备端 AI 性能。通过这一整体方案,实时设备端生成式 AI 不仅变得可行,更在诸多场景下实现了更优表现。

* 所示图像仅用于说明目的,可能与实际产品不完全一致。 图像经过数字编辑、修改或增强处理。

* 所有产品规格基于内部测试结果,并可能因用户系统配置而有所不同。 实际性能可能因使用条件与环境而异。


1) 在神经网络中,基本的运算是 y = w × x。当权重 w = 0 时,称为权重稀疏;当激活值 x = 0 时,称为激活稀疏。在这两种情况下,计算都可以被跳过,y 直接设为零。然而,由于权重 w 是常量,而激活值 x 是变量,因此它们需要不同的硬件实现。
2) MoE(专家混合模型)是一种神经网络架构,通过选择性地激活部分专家模型来提高计算效率,同时实现模型容量的有效扩展。
3) Mamba 是一种序列模型,旨在克服 Transformer 的局限,能够以线性时间处理长序列。
4) MM-DiT(多模态扩散变换器)用基于 Transformer 的结构替代扩散模型中的 U-Net 架构。它将图像划分为若干图块,将每个图块视为一个 token,并与文本输入一起处理,实现具备多模态理解能力的高质量图像生成。