2 月16 日OpenAI 推出文生视频模型Sora,可以根据文本指令创建现实且富有想象力的场景,能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节的复杂场景的高清视频,并且时长可以达到一分钟。Sora 的超预期表明Transformer 模型在视觉领域的有效,为视觉模型的加速迭代奠定基础。
Sora 模型展示效果惊艳,创立视觉模型里程碑。与之前的视觉模型不同,OpenAI 的 Sora 是视觉数据的通用模型,通过一次为模型提供多帧的预测,解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。
它可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。Sora 的核心优势:一致性、灵活性、稳定性。Sora 能够灵活的生成各种像素各种画幅的图像,同时能够根据图像生成视频或者将视频内容扩充出新的视频。与其他模型相比Sora 生成的时长达到1 分钟的情况下还能保持前后主题的一致性是之前视觉模型所不具备的。同时Sora 还涌现出对物理规律的理解能力,在没有人为约束的情况下生成的画面中满足物理学规则使得画面更加逼真。
视觉模型的GPT3 时刻,模型迭代进入加速期。Sora 之前,虽然大语言模型随着GPT 的成功逐渐成为主要研究方向,不过扩散模型仍在大语言模型占据主导地位。DALL·E 、Stable Diffusion 等广泛使用的视觉模型都采用扩散模型。2023 年谷歌提出大语言模型之所以在视频领域表现不佳的主要原因不在于模型本身而在于没有好的表达形式来转化视频,也证明了大语言模型在文生视频领域的可行性。Sora 的突破之处在于基于DiT 结构,结合了大语言模型和扩散模型的共同优点。使得Diffusion 模型也能够规模化,证明GTP4式的大力出奇迹也能在视觉领域出现同样的“涌现”效果。Sora 标志了扩散+语言大模型融合路线的成功,未来具有很大的迭代潜力,类似于GPT3 的里程碑意义,沿着这条道路持续迭代未来1-2 年内有望出现能生成效果更加逼真的视觉模型。
Sora 大幅拉动算力需求,拉动硬件建设投资。根据DiT 模型创立者谢赛宁博士粗略测算,Sora 模型的参数规模大约为30 亿。根据对可训练数据量的研究成果,海外大型视频网站每分钟大约上传500 小时视频内容。由此我们测算训练Sora 模型需要约7.09 万张H100 一个月的训练量。在推理侧,根据相关研究测算生成一张图的算力消耗约为256 个词的消耗。由此推算生成一个1 分钟时长短视频的算力消耗约是生成一次文字对话的千倍以上。中短期算力将持续处于短缺不能充分满足推理侧需求。
投资建议:Sora 打开AIGC 在视觉领域的应用空间,算力网络供给持续短缺拉动硬件基础设施建设需求。光模块环节我们重点推荐北美光模块核心供应商:【中际旭创】/【新易盛】,及其上游核心供应商【天孚通信】,及国产光芯片龙头【源杰科技】;交换机环节我们建议关注交换机国产替代龙头【紫光股份】/【锐捷网络】,同时建议关注国产交换机芯片龙头【盛科通信】,同时推荐国内ICT 巨头【中兴通讯】;视频编解码环节我们建议关注视频编解码优质公司【当虹科技】/【维海德】。
风险提示:核心计算参数假设不准确,Sora 模型落地进度不及预期,行业竞争格局恶化