瑞技科技

重磅消息

EN
 
液冷技术将成为下一代 AI 数据中心的关键因素
首页 > 网站博客 > 液冷技术将成为下一代 AI 数据中心的关键因素

液冷技术将成为下一代 AI 数据中心的关键因素

数据中心行业目前正处于一个关键的转折点。AI工作负载的快速增长显然正在将传统的冷却基础设施推向极限,迫使运营商从根本上重新思考如何管理数据中心的热挑战。 

 

就在十年前,一个 10 兆瓦的数据中心已经被认为相当庞大。如今,支持AI工作负载的设施通常超过 100 兆瓦,这正迅速成为新的常态。事实上,一些最雄心勃勃的项目已经远远超出了这一水平。例如,亚马逊已经宣布了一个核动力数据中心园区,计划将其总容量扩展至 960 兆瓦。 

 

高盛研究估计,科技巨头 2024 年在AI方面的支出约为 2000 亿美元,并预测这一数字将在 2025 年增加到 2500 亿美元。拜登卸任前签署了一项行政令,以加快美国AI运营的发展,而在特朗普总统任期内,我们已经看到了大型AI数据中心的公告,例如 5000 亿美元的星际之门项目。 

热管理的需求

这种前所未有的计算能力规模产生了传统空气冷却系统根本无法处理的极高热量。传统的空气冷却方法通常在每机架超过 50 千瓦时就会遇到困难。行业迫切需要能够有效管理这种热负荷同时保持运营团队所依赖的可靠性的冷却解决方案。

 

解决热量问题的影响将远远超出满足当前计算需求。高效的热管理实际上是实现下一代计算能力的关键因素。NVIDIA 的新一代 AI 加速器完美地说明了这一挑战。以 NVIDIA 新的 Blackwell GPU 系列为例,GB200 每个芯片的功耗可达到 700 瓦至 1200 瓦。当将其组合到 GB200 NVL72 系统中,该系统容纳 72 个 GPU 时,单个机架可能需要高达 140 千瓦的冷却能力,这远远超出了传统空气冷却的有效管理范围。 

 

对于数据中心工程师和运营商及其用户来说,需求是明确的。技术要求正在发生变化,这也意味着底层基础设施也必须随之改变。问题不再在于是否需要液冷,而在于如何有效地实施液冷,同时保持卓越的运营和可靠性。这需要仔细考虑以下几个关键因素: 

 

可靠性和风险管理 

对于任何数据中心运营商来说,首要关注的是正常运行时间。现代液冷解决方案已经取得了显著进步,单相电介质冷却液提供了经过验证的可靠性和与标准服务器硬件的兼容性。最新的解决方案可以有效管理极端热量,同时提供设施团队所需的运营稳定性。 

 

运营效率 

数据中心可能会消耗高达 40% 的总能量用于冷却,液冷提供了一条显著提高效率的直接途径。通过实现更有效的热传递,这些解决方案有助于减少能源和水的消耗,这是面临资源压力日益增大的设施的关键考虑因素。 

 

实施和维护 

我们从运营团队听到的最常见担忧之一与转向液冷的复杂性有关。然而,通过适当的规划和合作伙伴支持,实施过程可以在没有重大中断的情况下进行管理。差异化因素在于与既了解技术又了解数据中心环境运营现实的有经验的供应商合作。 

 

前瞻性 

随着芯片制造商继续突破计算能力的界限,热管理要求只会继续增加。NVIDIA 首席执行官黄仁勋已经确认,即将推出的 DGX 系统将采用液冷,并且他们已经制定了特定的水冷机架规格以应对这些冷却挑战。这种将液冷用于其性能最高的 AI 处理器的趋势只是整个行业趋势的一个例子。下一代处理器将产生更多的热量,使液冷成为维持性能和可靠性的必然选择。 

 

通过合作实现创新 

对于数据中心运营商来说,转向液冷需要精心规划和正确的合作伙伴关系。除了提供先进的液体和基础设施外,与能够提供解决方案部署前的全面测试和验证,以及部署期间的持续支持和维护的组织合作也将变得重要。为了跟上新技术的步伐,数据中心需要投资研发并继续快速响应。 

 

行业逐渐意识到,液冷将在资源限制内实现下一代计算方面发挥越来越重要的作用。现在拥抱这项技术的公司将在支持未来苛刻的工作负载的同时,更好地保持其组织所依赖的可靠性和效率。

瑞技液冷方案

 瑞技(ByteBridge)致力于依据客户个性化需求,定制专属的高效制冷方案(并推出了业内首个面向企业的液冷培训课程)。在液冷技术领域,尤其是D2C直接芯片液冷解决方案方面,积累了精湛的专业技术,能够协助客户精心打造优化、高效且节能的数据中心制冷系统,确保数据中心顺畅扩展并充分发挥效能。携手瑞技,您将获得一位可靠的伙伴,共同应对AI数据中心制冷难题,打造适配未来的AI就绪数据中心,为AI工作负载筑牢根基。立即联系我们,获取最新液冷部署案例(助力 NVIDIA 云供应商完成印尼首个 GB200 液冷部署)!