进入正文

利用高密度内存显著优化人工智能欺诈检测的基础设施成本

  • 邮件

人工智能欺诈检测是金融科技公司的一项关键工作。欺诈监控涉及多种机制,例如采用自然语言处理技术筛选通信中的可疑内容、利用机器学习区分欺诈交易和合法交易,以及运用分析技术区分正常用户行为和异常行为,并基于历史数据预测未来趋势。

就关键计算活动而言,持续进行的实时推理工作核心在于处理交易、生成欺诈评分以及采取诸如阻止违规交易等操作。这项工作负载涉及大量KB级的小型交易数据, 这些交易需要以正确的格式存储并实时处理。

内存数据库 (IMDB) 可以满足这种工作负载的需求,它以适合此类工作的格式提供存储,同时与典型的块访问存储相比,还能实现更快的加载/存储 I/O 性能。

此类数据库所需的内存容量巨大,由于每台服务器的实际内存有限,因此实现起来极具挑战性。对于需要服务器集群的大型工作负载,必须考虑多项总体拥有成本 (TCO) 因素。

  • 需要更多服务器:为了应对工作负载,必须部署更多服务器,而这往往仅是为了满足IMDB对内存的增量需求。 这导致客户最终要为额外的计算、存储、安全和系统软件付费,而这些实际上并非必要,根本目的是为了获得额外的内存。

  • 网络复杂性增加:网络复杂性的提升不仅体现在数据中心内部的物理基础设施上,也体现在IMDB软件的复杂性上——这增加了电力需求,并损害了性能和成本。

  • 可靠性问题:鉴于客户数据的敏感性和隐私性,金融科技公司通常会维护自己的数据中心。因此,底层基础设施的可靠性对数据完整性至关重要。 由冗余节点和复杂网络构成的臃肿基础设施,需要通过更多的系统复制来减轻故障的影响。
     


添加DRAM的成本

解决这个问题的一个看似简单的方案是增加每个服务器节点的内存容量,但实际实施起来却并非易事。 金融科技基础设施中典型的内存金字塔结构如下所示。


内存需求主要由DRAM满足,而DRAM的每GB价格通常是SSD的10倍。通过DRAM增加节点内存容量成本很高。

除了成本因素外,DRAM 的容量扩展在技术上无法达到 SSD 的水平:插槽数量有限,单张内存卡的容量也有限。即使是最昂贵的企业级系统,目前 DRAM 总容量也无法超过 20TB,而 SSD 的容量可以达到 PB 级。
 

使用 CXL 进行内存扩展

为了展示一种更高效的方法,下图使用 CXL 设备增加了两个内存层。CXL 支持更符合 AI 工作负载需求的内存语义(如一致性、小容量加载/存储 I/O),使客户能够构建高密度内存系统,在无需额外服务器的情况下提供更大容量,从而优化总体拥有成本 (TCO)。与 SSD 相比,CXL 提供更快的性能;与 DRAM 相比,其容量也更高。

用于直连或远程存储的 CXL 协议预计将成为面向人工智能、高性能计算和云数据中心工作负载的高端服务器的标准功能。它将在内存扩展、内存共享和内存池化等应用场景中发挥重要作用。除了可扩展性之外,它还提供满足人工智能欺诈检测工作负载需求的带宽和延迟性能。
 


RAS, SLAs, 可观测性

除了性能和总体拥有成本 (TCO) 的节省之外,金融科技提供商还迫切需要确保其数据中心服务器集群中所有系统内存的可靠性、可维护性、可用性 (RAS) 和可观测性。他们必须持续监控设备故障,其发生频率往往高于预期。能够快速、及时地检测和干预这些设备的问题,是金融科技提供商履行关键服务级别协议 (SLA)的基础。

因此,该数据的可靠性、可用性和基础架构就显得至关重要。如果基础架构变得臃肿不堪,金融科技支持机构将不得不应对持续不断的故障,从而需要维护多个数据副本才能满足其对客户承诺的服务级别协议 (SLA)。
 

三星 Cognos 解决方案

CXL 内存解决方案的部署可以通过三星的人工智能增强型内存管理与协调软件 Samsung Cognos 来实现。

Cognos 为实现直连内存提供了关键支持,其特性包括:

  • 管理高密度、多设备内存池,并具备易于扩展性,以解决内存滞留问题。

  • 实现应用感知的内存编排,以最大化分层内存的性能。

  • 基于欺诈检测服务级别协议 (SLA) 指标的自动数据分层,结合本地化和热点数据模式管理,以及三星设备中的设备级接口,实现数据分层。

  • 直观的控制台,方便进行设备和应用程序级别的可观测性分析

  • 对应用程序而言具有透明性,因此应用程序无需修改即可使用 Cognos。

Cognos 通过 RAS 和可观测性功能,简化了服务器集群的监控和维护。它为客户提供了一种无需人工干预的可扩展内存管理方法,并能与欺诈检测应用程序所需的 IMDB 实现无缝集成。
 


通过在实际运行环境中采用 Cognos 和 CXL,用户成功实现了总体拥有成本提升4倍的成效,同时满足了其在延迟和吞吐量方面的服务等级协议目标。
 


由于无需进行任何应用程序层面的更改,因此该解决方案不仅适用于本文讨论的AI欺诈检测负载,对许多其他IMDB负载也同样具有吸引力。
 

如果您对全栈解决方案感兴趣,并希望与三星合作,共同为客户创造更多价值,请通过 rdmsldfscore@ssi.samsung.com 联系我们, 或访问我们的网页了解更多信息: 
https://semiconductor.samsung.com/about-us/locations/us-rnd-labs/memory-labs/data-fabric-solutions/.