风冷在AI 数据中心的现实焦虑。2023 年7 月3 日,“2023 第四届中国电子通讯设备结构设计及热管理技术论坛”在上海举办,多位行业专家针对液冷进行深入分析。电流通过电阻时,所消耗的电能会转化为热能,即电流的热效应。
由于早期计算机具备功耗低、体积大的特点,因此不需要单独设计系统级的散热解决方案,可直接通过背后放置风扇的方式将热流导出。而AI 芯片的功耗随算力性能的提升快速增长,根据CIME,10 年前市面上能买到的最顶级的数据中心GPU 是英伟达K40,其热设计功耗(TDP)为235W,2020 年英伟达发布A100时,热设计功耗接近400W,到了H100 芯片,热设计功耗直接提升到700W。
AI 训练中心通常依靠高密度工作集群,往往会在至少数十个甚至数百个GPU 上运行,每个GPU 都有数千个内核需要供电。考虑到GPU 的功耗可达700W 甚至以上,AI 服务器集群算力密度普遍有望达到20-50kW/机柜,冷热风道隔离的微模块加水冷空调水平制冷在机柜功率超过 15kW 后性价会比大幅下降。
登纳德缩放定律逐渐失效,数据中心机架功率密度有进一步提升趋势。目前,最新的计算芯片难以遵守登纳德定律的缩放,随着芯片集成度的提升,所需的功耗和散热要求越来越大,产生了“功耗墙”问题。我们认为,未来芯片供应商们新发布CPU 和GPU 会有更高功耗,数据中心的机架功率密度也将会有进一步增加的趋势。
服务器与液冷厂商开展业务协同,打通液冷产业“阿喀琉斯之踵”。针对无法规模部署且有价格顾虑的用户,AI 服务器供应商宁畅可提供“尝鲜版”,该公司提出在24 小时内,宁畅团队可实现风冷服务器节点内的液冷改造以及液冷机柜升级,该方案可免机房部署,对比同型号配置全新机器,成本降低90%,性能提升10%。我们认为液冷终归是解决服务器厂商需求,需要的是服务器厂商实施经验的积累。
投资建议:我们认为运营商提倡液冷渗透率提升有望协同产业链上下游推进液冷机柜与服务器解耦,引领形成统一标准。同时我们认为随着智算中心落地,以曙光数创为代表的的芯片级液冷技术供应商有望得益于适配芯片生态快速放量相应解决方案,建议关注曙光数创、申菱环境、英维克、科创新源。
风险提示:液冷进展不及预期,数据中心机柜建设不及预期,市场竞争加剧。