智算中心的IT 运维是AIGC(人工智能创作内容)带来的赛道投资机会。训练侧,AIGC 大模型由于智算中心、训练框架更复杂,预计会带来监控系统价值量上升。推理侧,预计调用成本将是模型核心竞争力之一,APM(性能管理系统)能帮助使用者实现降本增效,博睿数据作为2022H1 国内APM 市场份额第一,在算力扩容中核心受益。复盘海外IT 运维巨头Datadog 成长,智算中心建设有望带动国内运维市场打开。
训练侧:AIGC 场景下的智算中心架构更复杂,料将推动监控系统价值量上升。
1)智算中心更复杂,智算中心相比数据中心,CPU、算力卡、存储将充分解耦,实现按需调用,系统复杂度提升。2)训练框架更复杂,大模型训练通常需要万张以上算力卡,由于参数数量多,通常采用更复杂的分布式计算,对于各项资源都需要实时监控。3)复杂架构会带来监控系统价值量上升,硬件端、训练端更复杂使得原来各自独立的IT 监控系统需要整合以满足运维需求,参考海外巨头Datadog,整合平台的模式会大幅提高客户价值量。4)高效的运维系统提升训练效率,整合的IT 监控系统能实现对智算中心和模型在设计、迭代、部署等全生命周期的监控,提高模型的整体训练效率。
推理侧:监控系统帮助模型实现降本,博睿数据应用性能管理市场份额第一。1)调用成本将是核心竞争力之一,OpenAI 通过系统优化实现90%降本并开启价格战,对后进入者设置了成本门槛。2)性能管理系统帮助AI 模型实现降本增效,大模型采用分布式计算带来监控难度上升,好的性能监控系统能帮助使用者快速发现性能瓶颈,提高模型推理效率,实现降本增效。3)博睿数据国内性能管理系统份额第一,根据IDC 2022H1 的数据,博睿数据在中国APM 市场份额为18.4%,位列第一,有望在算力扩容中核心受益。
海外案例:Datadog 受益于云计算行业增长,收入2017-2022 复合增速75%。
1)海外云化带动监控系统头部公司高增长,Datadog 是海外数据中心运维巨头,Datadog 自2017 年开始从ITIM 业务切入APM 并持续拓展自身业务,有全面的监控体系。受益于美国云计算的发展,收入从2017 年的1.01 亿美元增长至2022年16.75 亿美元,估值达到243 亿美元。2)国内智算中心建设有望使得头部公司复制海外增长,智算中心推动国内IT 基础设施进一步云化,IT 系统复杂度提升使得原本依靠人力的运维模式成本变高,国内IT 运维市场空间有望打开。
风险因素:IT 运维市场竞争加剧风险;云计算发展不及预期风险;算力中心发展不及预期风险;企业IT 投入不及预期风险;AI 技术发展不及预期风险。
投资策略。1)训练侧,大模型系统更加复杂,多采用分布式计算、存储架构,预计带来监控系统价值量增加。2)推理侧,预计调用成本将是AI 厂商核心竞争力之一,APM(性能监控系统)能帮助工程师发现性能瓶颈,实现降本增效。
博睿数据作为国内APM 龙头,2022H1 市场份额第一,有望核心受益。3)复盘海外,国内IT 运维厂商有望在智算中心建设带来的市场空间增长中受益,重点推荐博睿数据,建议关注新炬网络等IT 运维厂商。