GPU:算力的核心硬件,海外绝对垄断。根据Verified Market Research 数据,2021年全球GPU 市场规模为334.7 亿美金,预计到2030 年将达到4473.7 亿美金,期间CAGR 33.3%。全球GPU 市场目前被海外企业垄断,根据Jon Peddie Research 数据,2022年四季度PC GPU中,英特尔/英伟达/AMD份额分别为71%/17%/12%;2022Q4独立GPU 中,英特尔/英伟达/AMD 份额分别为6%/85%/9%,全球范围内GPU 市场呈现出海外三巨头垄断局面。
LLM 模型带动算力需求。LLM 模型的训练需要大量的计算资源和海量的文本数据,因此需要使用分布式计算和大规模数据处理技术。例如,GPT-3 模型拥有约1750 亿参考量,这使得GPT-3 拥有其他较少参考量模型来说更高的准确性:仅需少量的样本训练就能够接近于BETR 模型使用大量样本训练后的效果。但同时,如果以英伟达旗舰级GPU 产品A100 对GPT-3 进行训练,1024 块A100 卡需要耗费超过1个月(大于30 天),则我们可以按比例计算出,如果需要单日完成训练,需要的A100 数量将超过30000 块。我们认为,LLM 模型无论在性能还是在学习能力上,相较于其他模型都具备明显优势,未来或将成为行业趋势,同时大规模的训练模型与之对应的便是庞大的算力需求。
服务器:GPU 市场的重要增长动力。服务器中GPU 由于其具有最强的计算能力同时具备深度学习等能力,目前成为服务器中加速芯片的首选。AI 服务器中GPU 单品类硬件价值量占比较高:我们以Nvidia DGX A100 为例,通过计算我们发现其GPU 价值量占比约为48.24%。根据TrendForce 数据,截止2022 年全球搭载GPGPU 的AI 服务器出货量占整体服务器比重约1%,同时TrendForce 预测2023年伴随AI 相关应用加持,年出货量增速达到8%,2022~2026 年CAGR 为10.8%。
我们假设训练AI 服务器和推理AI 服务器的比例为1:4,计算得到2023/2026 年训练服务器的数量大约为3.60/5.00 万台。同时假设推理AI 服务器和训练AI 服务器使用的GPU 数量分别为4 张和8 张,算出2023 年和2026 年全球AI 服务器领域所需GPU 数量约为86.4 万张和120 万张,以A100 约1.20w 美金的价格作为参考计算出2023 年和2026 年AI 服务器所需GPU 的价值分别为103.7 亿美元和144.0 亿美元。
硬件国产化迫在眉睫!2022 年8 月,美国政府通知英伟达,其需要获得许可才能够向中国和俄罗斯出口任何基于最新架构的A100 GPU 或DGX/HGX 等系统,同时该项规定也同时适用于最新发布的H100 GPU 或者实现类似功能的产品。国内公司百度旗下大模型ERNIE 3.0 Titan 参数量达到2600 亿,高于GPT-3 的1750 亿,其所需的同规格GPU 数量将远大于GPT-3,根据比例我们可以计算出在相同时间下(超过一个月)ERNIE 3.0 Titan 所需A100 数量约为1522 块。同时我们认为,未来AI 倘若进入大模型时代,相关算力需求将快速增加,届时对于国产高算力GPU需求将进一步提升,所以说GPU 国产化进程迫在眉睫。
优秀国产GPU 公司不断涌现。目前包括景嘉微、沐曦集成电路、壁仞科技、摩尔线程在内一批优秀的国产GPU 公司不断涌现,通过对比我们发现:在单精度浮点运算性能(FP32)算力中,国内外厂商均处于TFLOPS 量级,海外龙头英伟达和AMD旗舰信号H100 SXM 和MI250x 分别实现FP32 算力67 TFLOPS 和47.9TFLOPS。国内摩尔线程最高FP32 算力产品MTT S3000,算力为15.2 TFLOPS;壁仞科技壁砺100P 产品最高实现240 TFLOPS 的FP32 算力;芯动科技“风华1 号”产品实现FP32 算力5 TFLOPS。通过对比我们发现在大部分情况下国产GPGPU 相较于海外旗舰款仍存在差距。
标的推荐:景嘉微、寒武纪、芯原股份、海光信息。
风险提示:下游需求不及预期,国产化进程不及预期,测算误差风险。