行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

“AI的裂变时刻”系列报告9:假如L40S使用HBM显存?

广发证券股份有限公司 04-23 00:00

核心观点:

前言。AIGC 大时代序幕开启,国产推理算力芯片厂商迎来历史机遇;但基于大语言模型的AIGC 行业需要什么样的推理算力芯片、如何设计更有性价比的推理产品?我们在此前已发表报告《“AI 的裂变时刻”系列报告3:

为什么H20 的推理性价比高?》中基于理论推算框架分析发现,显存性能对于GPU 推理性能影响较大。为了进一步研究高带宽、大容量HBM 对于算力芯片推理性能的影响,我们在本报告假设了如下产品:L40S 算力参数不变,使用HBM 替代GDDR 作为显存方案;并基于理论推算框架推算假设产品的推理性能。结果显示使用HBM 后推理性能获得大幅提升。这对于国产推理算力芯片厂商产品定义与设计带来启示:使用更高带宽、更大容量的HBM 对于提升产品推理性能起到事半功倍的效果。

若使用HBM 显存方案,L40S 推理性能提升明显。根据英伟达官网,L40S 是英伟达2023 年发布的一款推理GPU 产品,其显存方案为48GB GDDR6,显存带宽为864GB/s。我们基于理论推算框架,分析配有不同规格HBM 的L40S 假设产品的推理性能;推算结果显示,使用HBM 显存会显著提升L40S 的推理性能;使用192GB 容量、8TB/s 带宽HBM 时,推理性能可达原L40S 芯片的约13 倍。

Decode 阶段通常是显存带宽密集场景,显存带宽直接影响Decode 速度。使用基于Transformer 架构的大模型推理,Decode 阶段每个Token 生成都伴随一次模型参数的读取,通常属于显存带宽密集场景,更高的显存带宽对于加速Decode 环节至关重要。根据推算,特定推理场景下,相较于使用864GB/s 带宽GDDR,若使用8TB/s 带宽HBM,每次模型读取所需时间从39ms 减少至4ms,Decode 过程L40S 算力利用率从仅约1%提高至约14%;相同Batch Size 情况下推理全程的芯片推理性能提高至约9 倍。

增大Batch Size 可提高推理效率,显存容量决定Batch Size 上限。增大Batch Size 可以有效提高Decode 环节GPU 的算力利用率、以及推理全流程平均每卡每秒Throughput。但推理过程中KV Cache 与模型参数两者之和需小于显存容量;且KV Cache 与Batch Size 成正比。因此显存容量在硬件层面决定了Batch Size 的上限。根据推算,特定推理场景下,48GB 容量GDDR6 支持的最大Batch Size 为16;若使用192GB 容量HBM配置,可支持的最大Batch Size 提升至64,从而有效提高了推理全流程平均每卡每秒Throughput。

超长上下文进一步提高了对显存容量、显存带宽的需求。大模型支持上下文长度的持续、快速提升是行业发展的明显趋势之一;一方面,超长上下文会使得推理过程KV Cache 增大,从而对显存容量提出了更高的要求;另一方面,为实现一定的每秒输出Tokens 数量以保障用户体验,超长上下文场景会对显存带宽带来更高的要求。因此,超长上下文的发展趋势也会带动对高带宽、大容量HBM 显存方案的需求。

风险提示。理论计算结果与实际测试存在误差,大语言模型技术变化,大模型开发或AI 应用进展不及预期。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈