数据中心 GPU 是如何改变 AI 竞争格局的？

AI 正在改变数据中心的运作方式、需要支持的功能，甚至其构建方式。这一转变的核心在于 GPU 服务器。虽然 CPU（中央处理器）传统上用于通用计算任务，但如今 GPU（图形处理器）驱动的基础设施对于 AI 训练、推理、科学计算以及处理大规模数据集至关重要。我们将探讨 GPU 为何成为 AI 革命的处理方案，以及这对数据中心意味着什么。

数据中心中的 GPU：你需要了解的要点

在深入探讨之前，我们先了解一些基础知识。

1. 什么是 GPU？

GPU 代表图形处理器。最初，GPU 是为了渲染电子游戏和复杂 3D 图形而设计的，这些图形计算任务对于普通 CPU 来说太过繁重。CPU 通常拥有 8 到 64 个核心，这些核心被优化用于执行顺序计算任务。相比之下，GPU 可以容纳数千个更小的核心，这些核心并行运行，能够在更短时间内处理大量数据。

随着技术的发展，人们发现 GPU 的并行计算结构，不仅在渲染图像方面表现出色，也非常适合其他计算密集型任务，例如：

复杂数学计算

科学模拟

密码学

金融建模

视频编辑

在处理 AI 和深度学习任务方面，GPU 已成为传统 CPU 无法替代的首选方案。

2. GPU 为何在数据中心中至关重要？

在技术圈中流行着一句话：“AI 运行在 GPU 上。”GPU 现在是数据中心计算设备的支柱，因为它们能够轻松处理会让 CPU 崩溃的任务。

AI 和机器学习：训练 ChatGPT、DeepSeek 和千问这样的深度学习模型涉及数十亿甚至数万亿次计算。如果 CPU 顺序执行这些计算，速度会非常缓慢。而 GPU 可以同时运行多个计算线程，将训练速度提升高达 100 倍。此外，GPU 非常适合实时应用场景中的推理任务，例如语音助手、聊天机器人、搜索引擎、推荐系统和欺诈检测。

多任务处理：凭借数千个处理核心，GPU 可以大规模并行执行矢量计算、图像和视频处理任务以及数据转换，这是 CPU 无法匹敌的。

高性能计算：GPU 目前是科学研究级计算的首选，例如气候建模、粒子物理和基因组学。

数据分析和可视化：像 NVIDIA RAPIDS 这样的 GPU 加速平台可以大幅提高传统数据工作负载的速度，这对于大数据查询和机器学习应用非常有帮助。

3. GPU 与 CPU 的比较

特性	CPU	GPU
核心数量	8–64	数千个（例如，10,000+ CUDA 核心）
并行性	顺序任务	大规模并行计算
内存	缓存优化的层次结构	高带宽共享内存
AI/ML 性能	有限	极快（特别是带有 Tensor Core）
功耗效率	较低功耗	较高吞吐量，较高功耗
编程	x86、C++	CUDA、OpenCL、TensorFlow、PyTorch
成本	每芯片成本较低	成本较高，尤其是顶级显卡

当原始吞吐量和并行计算至关重要时，GPU 表现卓越。然而，这种功能也带来了更高的功耗和冷却需求。

4. GPU 服务器的物理特性是什么？

在规划设备升级时，需要考虑 GPU 与 CPU 在物理特性上的显著差异。

尺寸和外形：GPU 体积较大。根据型号不同，一个 GPU 可能从单插槽到三插槽不等，并且长度可达八到十三英寸（或更长）。它们通常插入 PCIe x16 连接器，但可能需要转接卡或特殊机箱设计以实现最佳适配。

机架集成：你可以在以下服务器格式中找到 GPU：

1U 至 4U GPU 服务器，可容纳一到八张显卡

刀片服务器，用于模块化部署

完整的 GPU 机柜，例如 NVIDIA DGX 系统

OCP（开放计算项目），常用于超大规模定制构建

重量：单个 GPU 重量在两到七磅之间。完全加载的 GPU 服务器可能超过 220 磅（100+ 公斤），需要特殊搬运设备来移动和安装。

5. GPU 需要多大能耗和冷却容量？

GPU 需要大量能耗。例如，像 NVIDIA H100 这样的高性能显卡，每张显卡的功率可达 300–700 瓦。如果同时运行四到八张显卡，单个服务器的功率需求可达到 2,000-4,000 瓦。为了满足这种需求，每台机架需要 208 伏三相电路，电流为 30-60 安培。

在冷却方面，问题同样严峻。GPU 会迅速变得非常热。根据密度不同，机架的热负荷可达到 20-40 千瓦或更高。这需要先进的冷却技术，如：

液冷循环

后门热交换器

冷热通道隔离

优化气流的机柜

6. 是否需要进行基础设施调整以支持 GPU？

是的。数据中心需要升级、改造或寻找全新的解决方案，以应对以下方面的挑战：

功率：你需要高容量 PDU（电源分配单元）、冗余 PSU（电源供应单元）以及升级的断路器。

冷却：最佳选择是采用液冷系统。

网络：GPU 传输数据速度极快，因此你可能需要 InfiniBand 或 100-400 Gbps 以太网（有更高版本更好）。

机箱设计：服务器需要支持多 GPU 配置，并支持 NVLink 桥接器或 PCIe 转接卡。

7. GPU 虚拟化和多租户环境如何？

如果你只是偶尔需要访问 GPU，或者只打算运行几个 GPU 支持的应用程序，那么虚拟 GPU（vGPU）解决方案可以让你与他人共享一个 GPU 的计算资源，或者在你的设施内将资源分配给不同的虚拟机。这样可以在不牺牲性能的情况下，实现更灵活的云原生部署。流行的选项包括 NVIDIA vGPU（如 vComputeServer、vApps 等）或 AMD MxGPU。像 VMware、KVM、Hyper-V 和 Kubernetes 这样的平台也为此提供了一定程度的支持。

8. 有哪些专用 GPU 系统和云选项可供选择？

专用 GPU 系统的选择取决于用例。

对于本地部署，NVIDIA DGX 系统在一站式 AI 训练方面表现出色，而 AMD Instinct 平台则是开源 AI 和高性能计算的不错选择。

在云服务方面，AWS EC2 P5 实例、Google Cloud TPU v4 和 Azure NDv5 虚拟机都是不错的选择。对于不想前期投资购买物理基础设施的数据中心来说，这些云 GPU 系统是一个可行的方案。

9. 数据中心中的 GPU 未来将如何发展？

AI 的发展不会放慢脚步。生成模型、自主系统和实时推理都在迅速崛起，这意味着数据中心需要在一定程度上支持这些应用以保持竞争力。目前，GPU 是处理这些复杂技术最灵活的计算解决方案。尽管像 TPU（张量处理器）和 ASIC（专用集成电路）这样的 AI 专用加速器越来越受欢迎，但它们缺乏通用性，并不是每个数据中心的完美解决方案。

我们预计下一代 GPU 将与存储、内存甚至 CPU 更加集成，更分布式以适应边缘 AI 和机器人用例，并且更加节能。

面临数据中心升级？ServerLIFT 来帮忙

服务器及其配套设备既重又脆弱，价格不菲。不要为了节省成本而使用低劣的叉车或仓库升降机搬运，这可能会危及员工安全，或者让你的投资因设备损坏而蒙受巨大损失。ServerLIFT 数据中心专用升降机设计了用于悬吊设备的安全带、强力制动器、便捷的操控功能，以及精确调整的升降平台，能够将你的服务器安全、准确地搬运到指定位置，避免任何意外发生。

联系瑞技

ServerLIFT 服务器升降设备转为数据中心而设计，具有高效，安全兼容性强等优点，是企业提高数据中心运营效率，避免员工和财产损失的利器。

重磅消息

瑞技收购美国网络安全公司 SecureLake →

数据中心 GPU 是如何改变 AI 竞争格局的？

数据中心中的 GPU：你需要了解的要点

面临数据中心升级？ServerLIFT 来帮忙

联系瑞技

阅读更多

Jabra 推出 Jabra Scheduler，进一步拓展会议室解决方案产品线

瑞技案例 | 为超大规模云服务商在北美打造3兆瓦 AI 实验室

速看：消除数据中心水污染的 4 大策略

9个Microsoft Teams 安全最佳实践：轻松打造更安全的协作环境

瑞技成为 Apple 优质商务合作商，助力企业打造卓越现代工作场所

Transform your tomorrow with ByteBridge, today.

sales.cn@bytebt.com

+86 400 8866 490

上海市徐汇区中山西路1600号宏汇国际广场A座2206