AI大爆发迫使数据中心设计进行“大刀阔斧”的变革

4个月前 (01-15 14:48)阅读290回复0
sixdaming
sixdaming
  • 注册排名3
  • 经验值225
  • 级别评论者
  • 主题45
  • 回复0
楼主
当前人工智能(artificial intelligence,AI)竞争激烈,正以多样化的形式重塑数据中心行业,其中包括许多运营商采取人工智能所面临的一项最大挑战:设备冷却


与传统服务器相比,AI和其他高性能计算任务所需芯片产生的热量日益增加,数据中心运营商不再使用空气来冷却服务器,而是纷纷转而使用液体制冷剂。
业界对液冷技术的讨论从未停止,如今,这一冷却方式在云和社交媒体巨头运营的数据中心中得到广泛应用。液冷技术在其他行业的普及速度尚待观察,但人们普遍认为,这项技术正逐渐成为业界标杆。
我们认为这是一次病毒式裂变,目前,液冷技术领域的活跃度和全球关注达到了前所未有的水平—— Bijan Nowroozi开放计算项目基金会(Open Compute Project Foundation)首席技术官在达拉斯希尔顿安纳托尔酒店举办的全国DICE数据中心管理、运营和冷却系列活动上表示



数据中心建设者和运营商面临的主要挑战之一是,如何管理数千台服务器和其他计算设备产生的热量。传统的方法是使用庞大的空调系统对数据中心进行冷却。这些空调系统需经过精密调节才能让各个服务器都能获得充足的冷气。
但如今,液冷技术系统日益成为数据中心的常用冷却方式,方法是将液体制冷剂输送到连接至服务器的冷却板中,或输送到计算设备自身的冷却板和管道中。在其他情况下,专门设计的服务器可完全浸没在冷却、不导电的制冷剂中。液冷技术系统一旦安装完毕,在去除热量方面比空冷技术更高效,比传统系统更节能、节水。
液冷技术在数据中心已经存续了几十年,但迄今为止,液冷技术的应用主要局限于专业性较高的领域,比如超级计算机。尽管与传统系统相比,液冷技术的性能有所提高,但数据中心运营商及其租户一直在犹豫是否要做出转变。这也不无原因。



虽然液冷技术操作成本较低,但该系统的建造成本较高,而且要对空冷建筑的设计进行大规模整改。液冷技术往往需要不同的服务器和其他数据中心设备。在关键任务环境中,大量液体泄漏也会造成意外事故,从而引发人们的恐慌。
最重要的一点是,使用空冷技术是可行的。如果要改用液冷技术,就要把之前关于冷却系统如何运行和优化的海量知识全部摒弃,重新培训经验丰富的团队,再制定新的管理系统。而且,这样的改进只能带来微小的效益,得不偿失。
如今,各大技术巨头之间关于AI的竞争日益激烈,液冷技术已然成为不可或缺的冷却方式,随着ChatGPT取得巨大成功,微软谷歌Meta等公司纷纷加大了对AI和数字基础设施的投资力度。

人工智能(AI)计算需具备高性能处理器,也就是GPUs(Graphic Processing Unit),这些处理器的功耗远远高于传统的数据中心芯片。因此,人工智能(AI)计算产生的热量也远高于传统数据中心设备,超出了空冷技术系统的能力范围。


0
回帖

AI大爆发迫使数据中心设计进行“大刀阔斧”的变革 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息