核心观点:
根据推算,H20 推理性能超过H100,L20 推理性能比肩L40S。NVIDIA H20 和L20 是NVIDIA 为中国市场定制的算力芯片产品,为满足美国出口管制条例要求,两款产品的核心算力参数均大幅阉割;如H20 的FP16、INT8 等主要算力参数仅为A100 的不足1/2,更是仅为H100 的约1/7;L20 的主要算力参数相较于L40、L40S分别下降约1/3、2/3。较低的算力参数使得市场对两款产品的性能表现、性价比持悲观或怀疑态度。但是我们根据理论推算,在多数推理场景下,H20 的推理速度明显优于A100、甚至优于H100;取三组测试场景(单GPU, Llama2-13B,BS=16,FP16,ISL/OSL 分别为128/3968、512/3584、2048/2048)平均值,H20 推理性能是A100 的1.8 倍、是H100 的1.1 倍。而L20 在三组测试场景(单GPU, Llama2-7B,BS=16,FP16,ISL/OSL 分别为128/3968、512/3584、2048/2048)中,推理性能也基本与L40S 和L40 持平。
Prefill 是算力密集场景,H20 受算力制约性能表现较弱。Prefill 阶段算力负载体现在对用户所有输入Tokens 进行一次并行计算;显存带宽负载主要体现在参数量从HBM 向算力芯片的传输。在大多数推理场景下(如输入Tokens 较长、或Batch Size 较大),Prefill 阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,属于算力密集场景。由于H20 的算力较弱,Prefill 环节耗时明显高于其他三款芯片。
Decode 是显存带宽密集场景,H20 性能表现优异。在Decode 过程中回答Tokens 逐个生成,且每个Token生成过程中,都需要重复一次参数、KV Cache 从HBM 向算力芯片的传输,使得Decode 阶段通常显存传输耗时明显高于计算耗时,属于显存带宽密集场景;更高速显存带宽对加速Decode 至关重要。H20 凭借较高的显存带宽,在Decode 阶段Tokens 生成速率高于A100 和H100,这也使得H20 在整个推理过程具有较高的推理速度。
H20 在多数推理场景中性能优异、性价比高,但也存在特殊情况。多数推理场景下,站在H20 用户角度,从输入问题到等待第一个回答文字所需时间会较长(相较于使用A100/H100/200),但负面影响相对有限;在回答过程中,H20 用户会体验到更快的回答速度(相较于使用A100/H100);综合来看H20 用户体验较优。站在H20持有人角度,由于H20 在推理全程平均Throughput(Tokens/s)高,使得每Token 平摊的系统硬件成本下降;H20 是持有人的高性价比选择。但是在提问问题较长/回答文字较短的特殊场景下,H20 的低算力劣势会放大,无论是H20 的用户体验、还是持有性价比,都会出现明显下降。
风险提示。理论计算结果与实际测试存在误差,大语言模型技术变化,大模型开发或AI 应用进展不及预期。