行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

计算机行业专题研究:国产大模型“凭”什么降价?

华泰证券股份有限公司 06-10 00:00

国产模型厂商进入API“价格战”,利好AI 应用开发2024 年5 月6 日,DeepSeek 发布最新MoE 模型DeepSeek-V2(32K 上下文),刷新了模型API 定价:输入¥1 元/M tokens、输出¥2 元/M tokens。

紧接着,智谱、阿里、百度、腾讯、讯飞等厂商均宣布旗下模型API 降价,部分降价幅度高达100%。我们深入拆解了各家API 产品矩阵,发现降价的主要是轻量级模型,对于高并发B 端用户或影响不大。我们从定性逻辑和定量技术两个维度分析降价的原因。我们认为,API 降价将吸引更多的ISV 开发AI 相关应用,有望提高Super App 出现概率,建议关注算力和应用相关公司,包括浪潮信息、金山办公、福昕软件、泛微网络等。

降价以入门级轻量API 为主,可以从技术优化和生态抢占来解释降价厂商中,智谱、百度和讯飞主要降价产品为轻量版;阿里和腾讯则将旗下全部模型进行降价,降价幅度不等。字节为首次定价,价格较低。可以看出,降价幅度和范围较大的主要是互联网企业,其资源更加丰富。分析降价原因,一方面,DeepSeek V2 证明了,确实可以通过注意力机制优化,大大减少所需缓存的量,降低成本和提高效率。另一方面,即使没有技术上的降价逻辑,通过降价手段吸引开发者,目前看仍是抢占生态的重要手段。

从技术层面降低模型推理成本,核心在于优化KV cache目前,大模型的长文本支持能力已成为趋势。在推理长文本时,需要首先将文本预填充到GPU 的HBM 中,然后再解码出token。其中预填充速度主要受GPU 计算能力影响,解码速度受HBM 带宽影响。当文本很长时,KV cache将占用HBM 相当大的空间,导致用户并发性下降,且解码耗时更长。用户并发性下降,还将带来新的问题,即需要从HBM 上“卸载”暂时不用的KVcache,再“加载”下一个用户的KV cache,带来新的耗时。因此,降低KV cache 是优化关键。

典型优化方法:压缩KV cache,或采用全局KV cache我们研究了近期DeepSeek V2 和微软的YOCO 典型的KV cache 压缩方法,代表两种流派。DeepSeek V2 引入多头隐注意力(MLA)机制,不再缓存全部的KV,而是用隐向量来压缩KV,与Transformer 原始的多头注意力相比,KV cache 可以减少90%以上。微软的YOCO 则将Decoder 架构一切为二,下半部分负责用高效的注意力机制产生全局KV cache,上半部分则直接使用全局KV cache,不再需要额外计算,也大大降低了缓存量。

模型降价有望利好算力和应用,建议关注相关产业链公司我们认为,模型降价将吸引更多的开发者开发AI 应用,或进一步提振算力需求,提升Super App 出现概率,建议关注:1)AI 服务器:浪潮信息等;2)AI 应用:金山办公、福昕软件、泛微网络等。其他产业链相关公司:1)海外算力产业链:光模块(中际旭创、天孚通信、新易盛)、AI 服务器(工业富联)等;2)国产算力产业链:海光信息、寒武纪、神州数码等。

风险提示:宏观经济波动,技术进步不及预期。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈