行业近况
2024 年2 月OpenAI Sora发布标志着Transformer架构在AI+视频生成领域实现突破。近期,我们观察国内诸多厂商发布视频生成模型,在生成时长和生成质量上正逐步接近OpenAI Sora的水平。
评论
Sora效果惊艳但尚未大规模公测,国内模型公测效果优异。2024 年2 月15 日,OpenAI发布视频生成模型Sora,在技术层面采用了DiT(Diffusiontransformer)架构,模型展现了良好的规模效应。从演示效果来看其能够生成长达1 分钟的高清视频,在生成时长和生成质量上领先行业,但发布近半年仍未正式面向用户进行大规模公测。我们观察到2024 年以来国内诸多厂商发布视频生成模型并在近期进入集中公测阶段,从模型演示效果和我们的实测效果来看,国内厂商的视频生成时长和生成质量方面已经逐步接近Sora。
技术层面:DiT架构逐步成熟并实现技术平权,但仍需向更高效模型迭代。Sora通过DiT架构实现了视频生成模型优异的可扩展性,即能够通过增加参数规模和训练数据量来快速提升模型的性能表现。我们在报告《AI动态跟踪:从OpenAI Sora看视频生成模型技术进展》判断DiT架构有望成为视频生成模型的主流技术,而近期国内厂商发布的视频生成模型多以DiT架构为基础,我们认为DiT架构已逐步成熟并走向逐步平权。另一方面,我们认为视频生成模型仍有优化空间,更长视频的生成需要参数更大、层数更多模型支持;我们也判断融入音频模型实现音效生成也将成为未来视频生成模型的一大趋势。
商业层面:原生应用商业落地尝试,未来生成或更加平价高效。在商业化层面,我们认为多模态模型的商业化仍处于早期,部分原生视频生成应用如Vidu、PixVerse、可灵等面向C端采用订阅的模式按量收费,年费标准版会员4-5s视频生成价格分别折合为0.1/0.025/0.1 美元;而面向B端,各模型API调用价格暂未确定,仍处于商业落地早期。我们认为类似文字生成类模型,伴随架构持续成熟和模型持续涌现,视频生成有望更加平价高效,为AI应用落地带来更大的商业化空间。
估值与建议
维持覆盖公司的盈利预测、评级和目标价不变。我们认为国产类Sora模型快速涌现,多模态产业趋势持续向前。展望未来,我们认为海外和国内多模态模型能力有望持续进化,视频生成有望更长、更清晰、更加平价高效,为AI应用落地提供支撑。
风险
技术进展不及预期;商业化落地不及预期;行业竞争加剧。