核心观点:
事件:当地时间5 月13 日,OpenAI 发布GPT-4o(数据来源:OpenAI)。
GPT-4o 是跨文本、视觉和音频端到端训练而来的新模型,所有模态的输入和输出都由同一神经网络处理。与现有大模型相比,GPT-4o 在各项能力测评的优势主要包括:文字推理能力大幅提升、语音翻译能力优于同行、多语言能力全面超过GPT-4、视觉理解能力优于同行。
GPT-4o 的推出加剧行业竞争,AI 软硬件基础设施的持续投入是保障竞争力的关键。我们认为,为追赶GPT-4o,各科技公司或尝试采用包含了文字、语音、图像各类训练数据为基础的统一神经网络技术类似路线训练AI 大模型。相较于语言类大模型,图片和视频往往比文字的数据量更大,采用这一技术路线训练模型所需算力更大,有望推动AI 芯片、AI 服务器和网络设备等算力基础设施的增长。此外,融合了文字、图片和音频多种类型数据进行训练和推理的难度更高,向量数据库具备将多种类型数据向量化后高速检索的能力可有效提升模型的反馈时间并提升回答准确率,预计在这一技术路线中扮演重要作用。
多模态交互能力、低交互时延、情绪感知及反馈等多种能力跃升,GPT成为应用超级入口的趋势愈加明显。在发布会及官网上,OPEN AI 展示了GPT-4o 在多种场景的能力,在整个展示过程中,GPT-4o 体现出了毫秒级实时交互延迟(和人类在语音沟通中的反映时间类似)及强大的情绪感知及反馈能力。我们认为,多模态的交互能力、低交互延迟及情绪感知是个人AI 助理的必备因素,从目前来看,GPT-4o 较GPT-3.5或GPT-4 又迈出了坚实的一步。GPT-4o 成为各类传统应用的超级入口的趋势愈加明显,即人类与各类传统应用的交互或能均通过GPT 更人性化、更便捷的实现,而各类传统应用的价值或将重估。
API 定价明显下降,所有人可免费使用GPT-4o,AI 工具及应用普及愈加现实。作为OPEN AI 目前公开发布的最先进的大模型,GPT-4o API定价也较此前版本大幅度下降,输出5 美元/M tokens(GPT-4 Turbo为10 美元,GPT-4 为30 美元),输出15 美元/M tokens(GPT-4 Turbo为30 美元,GPT-4 为60 美元)。对个人用户而言,所有人可免费受限使用GPT-4o,Plus 用户定价20 美元/月,可使用GPT-4o 的量是免费用户的5 倍。更低价格的API、更大规模的免费应用有望催生GPT 生态更快发展,加速大模型及产品的飞轮效应,加快AI 应用普及速度。
但同时,也需注意,这也将对部分传统应用价值形成挑战。
风险提示。技术迭代进展的不确定性;AIGC 商业化进展不及预期;相关公司业绩兑现节奏的不确定性;从ROI 的角度,商业化可持续性对投入实力的挑战加大。