软件及服务行业：AI动态跟踪：OPENAI引领AI交互新纪元发布突破性无延迟多模态GPT-4O模型

行业近况

5 月13 日，OpenAI发布新款旗舰模型GPT-4o（“o”代表“omni”，即“全能”之意），支持实时音频、图像、文本无延迟交互，较GPT-4 Turbo在多模态能力、使用成本、生成速率等方面显著优化。

GPT-4o无延迟语音交互功能亮眼，性价比优化赋能AI开发生态。GPT-4o通过大幅提升的响应速度（平均320 毫秒）和逼真的语态，使得与AI的交流速度几乎与人类对标1。GPT-4o在英文文本和代码能力方面和GPT4-Turbo持平，但在非英文文本、图像和音频理解能力等方面大幅跃升，且其API性能提升显著，生成速度是GPT-4 Turbo的2 倍，价格减半，而速率限制提升了5 倍2，为开发者提供了更高效、成本效益更高的服务。

GPT-4o多模态交互能力提升，可实现三模态无缝转换。GPT-4o具备卓越的多模态能力，基于端到端神经网络改进，实现了文本、音频和图像之间的无缝转换，助推人机交互维度进一步提升，其能够无延迟地在不同语言之间进行转换，并还能通过视频识别人类面部表情，进一步增强了AI的实用性和互动性。此外，我们认为OpenAI的免费开放策略，加上新UI和桌面应用的推出，或将赋能AI应用开发门槛进一步降低。

GPT-4o或已实现多模态架构重要升级，模型迭代助推复杂AI应用落地。从GPT-o的演示效果来看，我们判断其可能已经实现支持多种模态统一输入输出的模型架构，可能是通过对任意模态Tokenize化的方式来进行实现，这也是先前Gemini等其他模型都在追求的“上限更高”的多模态模型路线，我们在《人工智能十年展望（十七）：大模型兴起之后，多模态涌现之前》中也有所讨论。我们认为GPT-4o的多模态能力给予了其在人机交互以及复杂任务处理上更高的上限，或将有利于AI Agent、机器人、复杂AI终端等复杂AI应用场景的成熟迭代。

估值与建议

维持行业内覆盖公司的盈利预测、估值和目标价不变。我们预计GPT-4o发布短期或将对AI应用赛道带来情绪催化，持续推荐AI应用赛道中的各细分龙头，尤其是多模态和端侧AI相关应用领域，在前期调整较久的情况下建议积极关注。

风险

技术进展不及预期；应用落地不及预期；行业竞争加剧。

行情