行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

通信行业专题研究:OPENAIO1占领后训练扩展律前沿 从快速识别走向深度思考

天风证券股份有限公司 09-24 00:00

o1 模型通过强化学习训练和产生思维链,能在做出响应前花更多时间思考问题

9 月12 日,OpenAI 发布一系列新大语言模型o1 , 经过强化学习(Reinforcement Learning)训练,可以执行复杂推理,该模型可以产生一个长程思维链(Chain of Thought),在做出响应前花更多时间思考问题。

新模型包括o1-preview 和o1-mini 两种版本,其中o1-mini 更快、更具成本效益,适用于需要推理但不需要广泛知识的应用程序o1-mini 是一个较小的模型,针对预训练期间的 STEM 推理进行了优化。

速度方面,在单词推理问题回答中o1-mini 找到答案的速度比o1-preview大约快了3~5 倍;成本方面,OpenAI 向第五梯队API 用户开放的o1-mini成本端比o1-preview 便宜80%。

o1 通用性不及GPT-4o,高推理能力伴随高成本作为早期模型,o1 并不具备浏览网页、上传文件和图像等功能,通用性尚不及GPT-4o。但相较于GPT-4o 多模态、反应快等特点,o1-preview 更加注重推理能力,输入、输出tokens 成本分别是GPT-4o 的3、4 倍。

o1 在数理化复杂问题推理中的性能明显优于GPT-4o,在物理和生物学专业知识基准上的表现超越人类博士

o1 在竞争性编程问题(Codeforces)中拿到89%的百分位, GPT-4o 仅为11%;在国际数学奥林匹克竞赛 (IMO) 的资格考试中,o1 解答正确率为83%,而GPT-4o 正确率仅为13%;在安全方面,o1 在越狱测试中的分数高达84,而GPT-4o 的得分仅为22 分。

后训练扩展律(Post-Training Scaling Law)显现,或将引发业界对算力重新分配、后训练能力的思考

o1 模型的亮点在于其性能会随着强化学习时间(训练时间的计算量)和思考时间(测试时间的计算量)的增加而不断提升,扩展这种方法的限制与传统LLM 预训练方法(通过增加参数量和数据量)的限制有着很大不同,后训练方法的重要性或将引发业界对算力分配、后训练能力的思考。

从快速反应走向深度思考,拓宽行业应用场景

o1 在训练过程中能够使其思维链进行高效思考,模拟了人类在面对复杂问题时的思考过程,这预示着AI 除了在快系统中可被应用(人脸识别等),在慢系统中的可用型或将得到提升。

快慢系统结合或将成为新的AI 发展战略,OpenAI、Google 占据前沿阵地Google DeepMind 在此前论文中提出测试时的计算比扩展模型参数更有效;AlphaGeometry 模型在国际数学奥林匹克(IMO)几何问题的基准测试中解决了25 个问题(总共30 个问题),AlphaGeometry 由神经语言模型和符号推导引擎组成,将快慢系统结合,一个系统提供快速、直观的想法,另一个系统则提供更深思熟虑、更理性的决策。

风险提示:AI 应用发展不及预期风险;海外大厂投资不及预期风险;中美摩擦升级风险。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈