5 月13 日,OpenAI 发布了最新旗舰模型GPT-4o。GPT-4o 增强了语音交互功能,最快232 毫秒响应音频输入,平均响应时间为320 毫秒,与人类相似,视频理解能力也大大增强。GPT-4o 的速度相比于GPT-4 Turbo 快两倍、成本降低50%,速率限制高5 倍。GPT-4o 已面向包括免费用户在内的所有用户开放使用,为每个用户都提供了GPT-4 级别的智能,并将推出桌面版ChatGPT,可以被轻松集成到用户的工作流程中。GPT-4o 可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
GPT-4o 通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT 模型通过3 个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此平均延迟较长,也会因此丢失语音中的大量信息,比如音调、背景音、歌声以及情感等。而此次GPT-4o 通过端到端模型进行训练,输入输出均由同一神经网络处理,因此速度快,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。
跨模态交互能力增强,大模型实用度与使用频率有望大幅提升。此前GPT 在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC 的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o 增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低,让大模型的实用度与使用频率得到大大提升与拓展。
跨模态能力增加,有助于大模型在C 端和B 端应用加速落地。我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备,其实用性也将得到大大提升。而在企业端,大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。
低延迟响应速度进一步加大对推理算力的需求。GPT-4o 在OpenAI 的优化下达到了惊人的低时延,拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准,我们认为,随着用户对于延迟的要求不断提升,对于推理侧算力的需求将进一步提升。
我们认为,OpenAI 推出GPT-4o 有望加速AI 相关应用落地,同时对于算力的需求也会随之大幅提升。
AI 应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办公(688111,增持)、泛微网络(603039,买入)、新致软件(688590,未评级)、彩讯股份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司
AI 算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司
其他工具:星环科技-U(688031,未评级)
风险提示
技术落地不及预期;政策监管风险