未来算力将具备“普适”+“智慧”2 个维度。2023 年7 月7 日,在2023世界人工智能大会期间,毕马威与联想集团联合发布《“普慧”算力开启新计算时代》报告(以下简称报告)。报告提出,未来算力发展趋势将具备两大特征:数字经济的基础设施和通用人工智能的核心动力。
算力需求指数式增长,软件侧协同优化迫在眉睫。根据报告预测,2025 年我国算力核心产业规模预计不低于4.4 万亿元,算力关联产业规模可达24 万亿元。根据报告,深度学习出现后,AI 训练算力大约每6 个月翻一番;2012 年后全球头部AI 模型训练算力需求加速至3~4 个月翻一番(即算力年均涨幅约10倍),我们认为进入模型加速出新时代,算力需求指数有望更加陡峭。根据OpenAI,实现GPT-3 训练需要上万颗英伟达A100 GPU,总成本超1200 万美元。根据罗兰贝格测算,当前全球人均算力约在100-2500 GFLOPS 的量级,而当AGI 目标基本达成时,智能场景会实现所有行业的全覆盖和大部分行业的高渗透,全球人均算力将超过29TFLOPS。我们认为呈“指数级”增长的算力将带来不止硬件端的升级迭代,同时需要软件侧协同调度优化。
为什么是算力调度?本质上我们认为算力调度属于智算架构一部分,即将可用的算力资源变成好用的算力资源。根据北京超级云计算中心,大模型算力客户主要关注硬件是否为超算架构的物理集群,且单次大模型训练需要用到上百张甚至几千张卡,通讯协议与节点调度甚至直接影响大模型训练速度。大模型训练的参数多、循环次数多,单次训练的算力需求大,我们认为算力调度可协助GPU 实现算力资源优化,一定程度上解决大模型GPU 训练资源不足的掣肘。
算力调度运维有望开拓百亿级市场。根据中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,中国10 亿参数规模以上的大模型已发布79 个。根据我们分析,在硬件待升级下大模型训练势必将拉动算力运维调度的需求。我们梳理了国家超级计算济南中心云平台运维服务采购项目中标情况,假设山河云平台占总包价值量(1005 万元)的40%,其中包含90 台GPU服务器,即单GPU 服务器对应运维调度服务价值量约4.5 万元。根据TrendForce预测,23 年全球AI 服务器出货量约118 万台,其中GPU 服务器约71 万台,全球算力调度运维市场空间有望达到320 亿元。
投资建议:建议关注核心汇聚分流设备企业,如恒为科技、浩瀚深度等,同时智算离不开通信设备及协议的升级迭代,建议关注通信连接厂商及主设备厂商,如中际旭创、锐捷网络等。
风险提示:大模型进展不及预期,算力需求不及预期。