行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

科技行业动态点评-OPENAI O1:大模型范式的转折点

华泰证券股份有限公司 09-23 00:00

OpenAI 发布o1 模型,标志着大模型的训练范式向推理侧转移9 月12 日,OpenAI 官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain ofthought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为,o1 的意义在以下几个方面:1)大模型Scaling Law 的重心由预训练向后训练和推理侧转移。2)RL 和长CoT 的使用,定性增加了后训练和推理所需的算力。3)目前o1 擅长的领域仍然是强推理需求的数学、代码、物理等领域,后续随着RL 的进一步迭代,多领域泛化能力有望提升。

建议关注国内算力链、苹果链和核心AI 应用相关公司。

大模型训练范式:Scaling Law 重心从预训练向后训练和推理转移2020 年OpenAI 提出的Scaling Law 是大模型迭代的重要基础理论。o1 之前,Scaling Law 的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1 发布后,OpenAI 指出,在预训练ScalingLaw 的同时,通过在后训练引入RL 并且在推理中增加长CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即Scaling Law 在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1 的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。

新范式下的算力消耗:定性看,需要更多的训练和推理算力o1 之前的模型如GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习RLHF)两个主要阶段,推理则采用单次推理或短CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1 在RL 训练下学会了内部长CoT,推理所需token 增长明显,因此推理算力相比之前的单次推理或显著上升。

综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。

目前o1 擅长强逻辑推理,后续迭代有望提升其泛化能力据OpenAI 官网,对于AIME 考试(类似美国高中生奥赛),o1 在每个问题只有一个样本的情况下准确率平均为74,相比GPT-4 提升了62。GPQAdiamond(化学、物理和生物学方面的专业知识)测试中,o1 超过了PhD-Level 人类专家。我们认为,由于RL 中奖励函数设置需要明确的“对错”概念,因此o1 目前更擅长强逻辑和数学等有明确对错的问题推理。但是随着RL+CoT 范式的不断迭代,o1 及后续模型有望出现“涌现”现象,将能力泛化到强逻辑以外的通用问题领域,或有利于复杂AI 应用的迭代。

风险提示:宏观经济波动,AI 技术进步不及预期。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈