AI 正在改变数据中心的运作方式、需要支持的功能,甚至其构建方式。这一转变的核心在于 GPU 服务器。虽然 CPU(中央处理器)传统上用于通用计算任务,但如今 GPU(图形处理器)驱动的基础设施对于 AI 训练、推理、科学计算以及处理大规模数据集至关重要。我们将探讨 GPU 为何成为 AI 革命的处理方案,以及这对数据中心意味着什么。
数据中心中的 GPU:你需要了解的要点
在深入探讨之前,我们先了解一些基础知识。
1. 什么是 GPU?
GPU 代表图形处理器。最初,GPU 是为了渲染电子游戏和复杂 3D 图形而设计的,这些图形计算任务对于普通 CPU 来说太过繁重。CPU 通常拥有 8 到 64 个核心,这些核心被优化用于执行顺序计算任务。相比之下,GPU 可以容纳数千个更小的核心,这些核心并行运行,能够在更短时间内处理大量数据。
随着技术的发展,人们发现 GPU 的并行计算结构,不仅在渲染图像方面表现出色,也非常适合其他计算密集型任务,例如:
- 复杂数学计算
- 科学模拟
- 密码学
- 金融建模
- 视频编辑
在处理 AI 和深度学习任务方面,GPU 已成为传统 CPU 无法替代的首选方案。
2. GPU 为何在数据中心中至关重要?
在技术圈中流行着一句话:“AI 运行在 GPU 上。”GPU 现在是数据中心计算设备的支柱,因为它们能够轻松处理会让 CPU 崩溃的任务。
- AI 和机器学习:训练 ChatGPT、DeepSeek 和千问这样的深度学习模型涉及数十亿甚至数万亿次计算。如果 CPU 顺序执行这些计算,速度会非常缓慢。而 GPU 可以同时运行多个计算线程,将训练速度提升高达 100 倍。此外,GPU 非常适合实时应用场景中的推理任务,例如语音助手、聊天机器人、搜索引擎、推荐系统和欺诈检测。
- 多任务处理:凭借数千个处理核心,GPU 可以大规模并行执行矢量计算、图像和视频处理任务以及数据转换,这是 CPU 无法匹敌的。
- 高性能计算:GPU 目前是科学研究级计算的首选,例如气候建模、粒子物理和基因组学。
- 数据分析和可视化:像 NVIDIA RAPIDS 这样的 GPU 加速平台可以大幅提高传统数据工作负载的速度,这对于大数据查询和机器学习应用非常有帮助。
3. GPU 与 CPU 的比较
特性 | CPU | GPU |
---|---|---|
核心数量 | 8–64 | 数千个(例如,10,000+ CUDA 核心) |
并行性 | 顺序任务 | 大规模并行计算 |
内存 | 缓存优化的层次结构 | 高带宽共享内存 |
AI/ML 性能 | 有限 | 极快(特别是带有 Tensor Core) |
功耗效率 | 较低功耗 | 较高吞吐量,较高功耗 |
编程 | x86、C++ | CUDA、OpenCL、TensorFlow、PyTorch |
成本 | 每芯片成本较低 | 成本较高,尤其是顶级显卡 |
当原始吞吐量和并行计算至关重要时,GPU 表现卓越。然而,这种功能也带来了更高的功耗和冷却需求。
4. GPU 服务器的物理特性是什么?
在规划设备升级时,需要考虑 GPU 与 CPU 在物理特性上的显著差异。
- 尺寸和外形:GPU 体积较大。根据型号不同,一个 GPU 可能从单插槽到三插槽不等,并且长度可达八到十三英寸(或更长)。它们通常插入 PCIe x16 连接器,但可能需要转接卡或特殊机箱设计以实现最佳适配。
- 机架集成:你可以在以下服务器格式中找到 GPU:
- 1U 至 4U GPU 服务器,可容纳一到八张显卡
- 刀片服务器,用于模块化部署
- 完整的 GPU 机柜,例如 NVIDIA DGX 系统
- OCP(开放计算项目),常用于超大规模定制构建
- 重量:单个 GPU 重量在两到七磅之间。完全加载的 GPU 服务器可能超过 220 磅(100+ 公斤),需要特殊搬运设备来移动和安装。
5. GPU 需要多大能耗和冷却容量?
GPU 需要大量能耗。例如,像 NVIDIA H100 这样的高性能显卡,每张显卡的功率可达 300–700 瓦。如果同时运行四到八张显卡,单个服务器的功率需求可达到 2,000-4,000 瓦。为了满足这种需求,每台机架需要 208 伏三相电路,电流为 30-60 安培。
在冷却方面,问题同样严峻。GPU 会迅速变得非常热。根据密度不同,机架的热负荷可达到 20-40 千瓦或更高。这需要先进的冷却技术,如:
- 液冷循环
- 后门热交换器
- 冷热通道隔离
- 优化气流的机柜
6. 是否需要进行基础设施调整以支持 GPU?
是的。数据中心需要升级、改造或寻找全新的解决方案,以应对以下方面的挑战:
- 功率:你需要高容量 PDU(电源分配单元)、冗余 PSU(电源供应单元)以及升级的断路器。
- 冷却:最佳选择是采用液冷系统。
- 网络:GPU 传输数据速度极快,因此你可能需要 InfiniBand 或 100-400 Gbps 以太网(有更高版本更好)。
- 机箱设计:服务器需要支持多 GPU 配置,并支持 NVLink 桥接器或 PCIe 转接卡。
7. GPU 虚拟化和多租户环境如何?
如果你只是偶尔需要访问 GPU,或者只打算运行几个 GPU 支持的应用程序,那么虚拟 GPU(vGPU)解决方案可以让你与他人共享一个 GPU 的计算资源,或者在你的设施内将资源分配给不同的虚拟机。这样可以在不牺牲性能的情况下,实现更灵活的云原生部署。流行的选项包括 NVIDIA vGPU(如 vComputeServer、vApps 等)或 AMD MxGPU。像 VMware、KVM、Hyper-V 和 Kubernetes 这样的平台也为此提供了一定程度的支持。
8. 有哪些专用 GPU 系统和云选项可供选择?
专用 GPU 系统的选择取决于用例。
对于本地部署,NVIDIA DGX 系统在一站式 AI 训练方面表现出色,而 AMD Instinct 平台则是开源 AI 和高性能计算的不错选择。
在云服务方面,AWS EC2 P5 实例、Google Cloud TPU v4 和 Azure NDv5 虚拟机都是不错的选择。对于不想前期投资购买物理基础设施的数据中心来说,这些云 GPU 系统是一个可行的方案。
9. 数据中心中的 GPU 未来将如何发展?
AI 的发展不会放慢脚步。生成模型、自主系统和实时推理都在迅速崛起,这意味着数据中心需要在一定程度上支持这些应用以保持竞争力。目前,GPU 是处理这些复杂技术最灵活的计算解决方案。尽管像 TPU(张量处理器)和 ASIC(专用集成电路)这样的 AI 专用加速器越来越受欢迎,但它们缺乏通用性,并不是每个数据中心的完美解决方案。
我们预计下一代 GPU 将与存储、内存甚至 CPU 更加集成,更分布式以适应边缘 AI 和机器人用例,并且更加节能。
面临数据中心升级?ServerLIFT 来帮忙
服务器及其配套设备既重又脆弱,价格不菲。不要为了节省成本而使用低劣的叉车或仓库升降机搬运,这可能会危及员工安全,或者让你的投资因设备损坏而蒙受巨大损失。ServerLIFT 数据中心专用升降机设计了用于悬吊设备的安全带、强力制动器、便捷的操控功能,以及精确调整的升降平台,能够将你的服务器安全、准确地搬运到指定位置,避免任何意外发生。