OpenAI 发布o1 模型,标志着大模型的训练范式向推理侧转移9 月12 日,OpenAI 官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain ofthought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为,o1 的意义在以下几个方面:1)大模型Scaling Law 的重心由预训练向后训练和推理侧转移。2)RL 和长CoT 的使用,定性增加了后训练和推理所需的算力。3)目前o1 擅长的领域仍然是强推理需求的数学、代码、物理等领域,后续随着RL 的进一步迭代,多领域泛化能力有望提升。
建议关注国内算力链、苹果链和核心AI 应用相关公司。
大模型训练范式:Scaling Law 重心从预训练向后训练和推理转移2020 年OpenAI 提出的Scaling Law 是大模型迭代的重要基础理论。o1 之前,Scaling Law 的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1 发布后,OpenAI 指出,在预训练ScalingLaw 的同时,通过在后训练引入RL 并且在推理中增加长CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即Scaling Law 在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1 的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。
新范式下的算力消耗:定性看,需要更多的训练和推理算力o1 之前的模型如GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习RLHF)两个主要阶段,推理则采用单次推理或短CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1 在RL 训练下学会了内部长CoT,推理所需token 增长明显,因此推理算力相比之前的单次推理或显著上升。
综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。
目前o1 擅长强逻辑推理,后续迭代有望提升其泛化能力据OpenAI 官网,对于AIME 考试(类似美国高中生奥赛),o1 在每个问题只有一个样本的情况下准确率平均为74,相比GPT-4 提升了62。GPQAdiamond(化学、物理和生物学方面的专业知识)测试中,o1 超过了PhD-Level 人类专家。我们认为,由于RL 中奖励函数设置需要明确的“对错”概念,因此o1 目前更擅长强逻辑和数学等有明确对错的问题推理。但是随着RL+CoT 范式的不断迭代,o1 及后续模型有望出现“涌现”现象,将能力泛化到强逻辑以外的通用问题领域,或有利于复杂AI 应用的迭代。
风险提示:宏观经济波动,AI 技术进步不及预期。