GPU在生成式 AI 中的五大误解

你的 GPU 正在打瞌睡吗？

生成式人工智能（Generative AI）以前所未有的方式激发了我们的创造力。从预测性维护、患者诊断到增强客户支持等领域，生成式 AI 技术的应用似乎没有边界。而这一技术背后的许多创新得益于图形处理单元（GPU）提供的加速计算能力。GPU 通过并行化矩阵运算，使得生成式 AI 中庞大的语言模型能够同时处理海量数据，从而显著加快了训练时间。这种计算能力的提升使研究人员能够高效地训练拥有数百万或数十亿参数的复杂语言模型。

然而，尽管 GPU 对生成式 AI 和整个数据科学领域产生了深远的影响，但人们往往倾向于过度简化问题，认为 GPU 是使 AI 项目成功的唯一要素，且没有任何附加条件。这种盲目的信仰往往会引起意外的问题，延迟数据科学项目的推进，甚至可能导致项目失败。以下是在构建 AI 项目时需要避免的与 GPU 相关的五大误解。

我的 GPU 正在为我带来最快的结果

GPU 实现了庞大的并行计算，每个核心都专注于高效的运算，从而显著降低了基础设施成本，为端到端数据科学工作流提供了卓越性能。目前，12 颗英伟达 GPU 的深度学习性能相当于 2,000 颗现代 CPU。而在相同服务器上再增加 8 个 GPU，则可以提供多达 55,000 个额外的内核。虽然 GPU 加速了计算过程，但研究表明，它们有一半的时间都在等待数据，这意味着你最终还是需要等待结果。GPU 计算能力的提高需要更强大的网络和存储支持。

在一个 Epoch（将所有训练样本训练一次的过程）中，高达 70% 的时间都用在数据传送到 GPU 之前。在数据管道（Data Pipeline）的各个阶段，需要花费大量时间在不同系统之间复制数据——

NAS 用于持久存储，本地文件系统或并行文件系统用于快速存储，对象存储用于归档数据。这样的组合使得充分利用 GPU，以实现更短的 Epoch 和更快的洞察变得充满挑战。

WEKA 的 AI 数据平台解决了当今企业在本地、云端或不同平台上运行的技术计算工作负载和其他高性能应用所面临的存储挑战。其零拷贝架构使整个数据处理流程在同一个存储后端运行，消除了数据拷贝过程中的成本和延迟。通过 WEKA，您能够加速 GPU 驱动的数据管道的每一步，从数据摄取、清理、建模、训练、验证到推理，加速实现业务成果。

吞吐量为王，吞吐量为皇

虽然很容易把吞吐量看作是优化 GPU 使用的“唯一”指标，但吞吐量并不能准确反映 AI工作负载的全部特性。为了优化数据处理流程，也就是数据管道，您需要关注的不仅仅是向 GPU 提供大量数据——IOPs和元数据同样至关重要。

数据管道的每个步骤通常拥有完全不同类型的数据。当处理数据管道中各个步骤的不同的IO需求时，传统存储可能出现问题，因为其性能调优通常只适用于特定的数据类型或吞吐量性能配置，导致数据孤岛和管理困扰。根据工作负载的不同，除了关注吞吐量外，性能配置文件还需提供 IOPS、延迟和元数据操作。有些步骤需要低延迟和随机小IO，而其他步骤则需要高吞吐量。有一些流程中的子步骤需要同时混合使用这两种功能。在大多数环境中，多个数据管道将同时运行，但处于不同阶段，因此需要同时处理不同的 IO 配置文件，WEKA 提供了一个数据平台，能轻松处理并发的高带宽和高 IOP 需求。

WEKA在各方面都表现出色，能够将多个存储平台合并成一个，从而消除了在平台之间复制数据所浪费的时间。每个处理阶段在 WEKA 上的运行速度也超过其他平台。通过所有可用的协议，WEKA 向每个应用程序提供相同的数据集，最终消除了许多繁琐的技术参数调整，为用户提供了简化的高性能存储体验。

GPU 驱动的 AI 工作负载在处理小文件时总是面临挑战

训练大多数生成式 AI 应用所需的大型语言模型（LLM）涉及处理大量小文件，包括数以百万计的小图像、用于分析的每台物联网设备的日志等。一旦进入数据管道，ETL（抽取、转换、加载）类型的工作会对数据进行规范化处理，然后采用随机梯度下降法来训练模型。这带来了一个庞大的元数据和随机读取的问题，尤其是在 AI 深度学习数据管道的第一阶段，被许多小IO请求占据，很多存储平台难以有效处理这种情况。

WEKA 的架构为这一难题提供了解决方案。通过在 NVMe 设备中对齐所有数据请求，WEKA 不仅能高效地处理小型 IO，还能通过聚合所有小型 IO 提供大带宽。此外，WEKA 还能自动扩展集群内的虚拟元数据服务器，确保随着集群规模的扩大，您可以处理越来越多的元数据操作。结果显而易见：一位进行深度学习的 WEKA 用户平均 IOP 为 420 万，速度为 250GB/s，其中大部分数据是10 千字节起的小文件。

这些数据表明，WEKA 的架构有效解决了处理小文件的问题，为用户提供了卓越的性能。

存储？GPU 的核心是计算能力

人工智能工作负载对性能、可用性和灵活性的要求越来越高，而传统的存储平台却难以满足这些需求。为 AI 工作负载选择合适的存储将极大影响满足业务要求的能力。成功的 AI 项目在计算和存储需求方面通常会迅速增长，因此需要认真考虑这种增长对存储选择的影响。

然而，大多数 AI 基础设施的关注和花费都主要集中在 GPU 和网络上–这可能占用项目预算的 90%。

这导致只有极小一部分预算被用于存储，以提升系统性能。对于 AI 存储而言，规模化高性能与可用性、灵活性和易用性等 “传统 “要求同等重要。通常，只有在部署完成之后，企业才意识到他们的存储空间严重不足，无法满足不断增长的训练数据集，从而陷入了一个实用性远不如预期的环境。

WEKA 数据平台能够提供从 TB级到 EB 级的线性扩展，重新定义了云时代的可扩展性。通过统一的全局命名空间，客户可以在不影响性能的前提下，在各个可能的维度上进行扩展，以满足其不断增长的 AI 工作负载需求。通过智能分层技术，系统能够自动实现跨文件和对象进行扩展，通过扩展 NVMe 层以提高性能，扩展对象层以提高容量。

GPU 最快的存储是本地存储

随着 AI 数据集的不断增长，加载数据所需的时间开始影响工作负载的性能。以往，让 GPU 获得充足数据的最佳方法是从本地 NVMe 存储中提取。这样可以避免通过存储阵列和网络传输数据引起的瓶颈和延迟。但是，随着 GPU 速度的提升，服务器主机无法以足够快的速度提供数据。GPU 越来越受制于慢速 IO，面临数据饥渴的问题。

WEKA 可以在最快的推理和最高的图像/秒基准下提供比本地存储更快的 IO 速度。本地存储受到本地服务器资源的限制，例如 PCIE 通道数量和可用于服务 IO 的队列。WEKA 将多台服务器的资源整合到任何 GPU 上。通过实现对所有服务器的智能并行访问，可以平衡负载请求，避免可能导致访问减缓的临时 IO 停滞。采用新的并行数据平面和控制平面协议，解决了传统网络数据访问的问题，确保以最快的方式将数据提供给 GPU，这就是 WEKA 数据平台的优势。

WEKA 是专为 AI 和云而生的全新数据平台。其软件定义、云原生数据平台可将停滞的数据孤岛转化为流式数据管道，为人工智能和高性能计算等下一代工作负载提供澎湃动力。

联系瑞技

若您有关于 AI、机器学习、HPC 等问题，欢迎咨询 WEKA 中国区合作伙伴 —— 瑞技科技。

400-8866-490  | sales.cn@bytebt.com

重磅消息

瑞技收购美国网络安全公司 SecureLake →

GPU在生成式 AI 中的五大误解

你的 GPU 正在打瞌睡吗？

我的 GPU 正在为我带来最快的结果

吞吐量为王，吞吐量为皇

GPU 驱动的 AI 工作负载在处理小文件时总是面临挑战

存储？GPU 的核心是计算能力

GPU 最快的存储是本地存储

联系瑞技

更多 WEKA 相关

什么是 EOR(出口责任人)？

未来已来：3D视频会议如何引领沟通方式的变革

数据中心冷却之痛：CRAC 系统的弊端与行业变革之路

瑞技联手 ZPE：赋能制造与零售业的下一代边缘管理

世界十大 “最 Cool” 冷却公司

Transform your tomorrow with ByteBridge, today.

sales.cn@bytebt.com

+86 400 8866 490

上海市徐汇区中山西路1600号宏汇国际广场A座2206