几十年来,面对不断增长的工作负载需求,数据中心架构师们一直遵循着一套简单直接的策略:通过增加服务器来“横向扩展”(scale out)。这种方法简单地提供了更多的计算、内存和存储能力,以满足业务发展的需要。
然而,人工智能(AI)的崛起彻底改变了游戏规则。“横向扩展”数据中心的时代或许正在终结——或者说,至少单靠增加服务器数量,已经无法跟上AI工作负载的独特需求了。
问题出在哪?
“横向扩展”型架构的核心思路是,通过在机房内堆砌更多IT设备来满足日益增长的需求。这种模式主导了数据中心设计长达数十年之久,即便运营者自己并未明确将其称为“横向扩展”。
在实践中,架构师们通常采用以下策略来实现扩展:
- 增大服务器机柜规模:在不增加机房占地面积的前提下,塞入更多服务器。
- 升级硬件:用新一代服务器替换旧设备,以获得更强的计算、内存和存储能力。
只要电力和制冷能力跟得上,企业就能按需进行横向扩展。对于软件开发者和IT团队来说,这几乎是理所当然的——他们默认数据中心总能提供足够的计算和内存资源来支撑其应用。
但现代AI工作负载给这套传统模式带来了严峻挑战。
AI应用往往需要以极高的速度访问海量数据,这才是最核心的痛点。简单地增加服务器或基础设施,并不能解决这个问题。数据中心内部的网络瓶颈,或是单个设备缓慢的输入/输出(I/O)速率,都可能成为数据流动的“拦路虎”。
换句话说,如今限制数据中心可扩展性的,不再仅仅是总的计算、内存和存储容量,而更在于工作负载能否快速、高效地访问和利用这些资源。
新出路:超越“横向扩展”
尽管“横向扩展”架构仍有其价值,但它已不足以应对以AI为代表的新一代工作负载。未来,单纯依靠堆硬件的方式将难以为继。数据中心架构师必须超越传统的“横向扩展”思维,去应对AI带来的独特挑战。
为了弥补传统方法的不足,架构师们可以采用以下新策略:
- 优化网络拓扑:重新设计网络布局,从根源上消除瓶颈,确保数据在网络层面就能高效流转。
- 智能机柜设计:改进机柜内部的配置,优化服务器之间的数据传输路径,从而降低延迟、提升性能。
- 部署网络加速设备:引入数据处理器(DPU)等技术,加速数据中心内部的数据移动,缓解网络拥塞。
- 采用高速互连技术:部署先进的互连方案,加快多个数据中心之间的数据传输速度,尤其适用于那些横跨多地的分布式工作负载。
网络,才是关键
上述所有策略都共同指向一个核心趋势:网络在数据中心内外的重要性正与日俱增。
过去,架构师们可以默认网络设备会忠实地把数据包送达目的地。但在AI时代,这个假设已然失效。AI工作负载动辄需要近乎实时地搬运数TB的数据,这对网络提出了前所未有的要求。网络,必须成为可扩展性战略的核心焦点。
未来的数据中心可扩展性,远不止于增加服务器数量或提升硬件容量。要真正驾驭AI工作负载,数据中心必须在网络层面同步扩展。这需要更智能的网络设计和更先进的网络硬件。唯有将传统的“横向扩展”方法与现代化的网络创新相结合,数据中心才能真正满足AI及其他新兴技术的严苛需求。
