核心观点:
DGX 服务器集群架构需要服务器、网卡、交换机、线缆、光模块等关键硬件。为实现AI 大模型训练、科学计算等高算力需求工作,需要使用数百甚至上千个GPU 组成的计算单元作为算力基础评估、优化模型的配置和参数。为了使这样一个庞大的计算单元能够有效发挥其效率,需要使用低延迟、高带宽的网络联接各个服务器节点,以满足服务器/GPU 间计算、读取存储数据的互联通信需求,同时对整个集群系统进行管理。服务器集群的网络系统包含服务器、网卡、交换机、线缆(包含光模块)等主要硬件。就网络构成来看,网卡搭载于服务器内部,网卡直接与CPU 相连或通过PCIe Switch 与GPU 相连;一层交换机通过服务器机身的端口与服务器内的网卡相连;线缆用于实现服务器-交换机、交换机-交换机间的连接,如果信息传输以光信号的形式实现,线缆两端均需要搭载光模块。参考从DGX-1 到DGX H100 的服务器迭代历程,服务器搭载网卡数量、单端口支持最高带宽均呈现出逐代次增加趋势;相应对支持更高传输速率的交换机、更高传输速率的线缆/光模块带来了增量需求。
DGX A100 服务器集群中单颗A100 对应约7 颗200G 光模块需求。服务器集群的网络架构包含IB 网络和以太网络,其中IB 网络主要用于实现计算、存储互联,以太网主要用于In-Band 管理和Out-of-Band 管理。在140台DGX A100 组成的DGX A100 SuperPOD 集群中,考虑计算网络和存储网络需求,共有约4000 根IB 网络线缆,对应约8000 个端口;在全光互联方案中,平均每颗A100 对应约7 个200G 光模块需求,其中计算、存储网络分别对应6.0、1.2 个200G 光模块需求,合计对应约28 个50G 光芯片(收发芯片)需求。
DGX H100 服务器集群中单颗H100 对应约1.5 颗800G 光模块+2 颗400G 光模块需求。在128 台DGX H100组成的DGX H100 SuperPOD 集群中,考虑计算网络和存储网络需求,平均每颗H100 对应约1.5 个800G 光模块+2 个400G 光模块需求,约20 个100G 光芯片(收发芯片)需求。
投资建议。AIGC 推动AI 服务器需求增长,建议关注:算力:海光信息(与计算机组联合覆盖)、寒武纪(计算机组覆盖)、芯原股份、龙芯中科等;连接:源杰科技、澜起科技、裕太微、聚辰股份、帝奥微等;PCB:胜宏科技、沪电股份;存储:深科技、北京君正、兆易创新、东芯股份等;电源:杰华特;制造:中芯国际、长电科技、通富微电、甬矽电子等;ODM:工业富联;应用:海康威视、大华股份、韦尔股份、思特威、格科微、恒玄科技、晶晨股份、全志科技、瑞芯微等。
风险提示。AIGC 发展不及预期;AI 服务器出货量不及预期;国产厂商技术和产品进展不及预期。