传媒行业：豆包新发AI视频模型性能提升显著

字节新发布两款视频AI 大模型，性能显著提升9 月24 日，字节跳动旗下火山引擎在深圳举办AI 创新巡展，发布了豆包两款视频大模型PixelDance V1.4 与Seaweed，并同时面向企业市场开启邀测，公司预计在国庆节后上线火山方舟平台。根据火山引擎巡展发布的内容，我们看到豆包视频生成模型的技术创新体现在：1）通过高效的DiT 融合计算单元，可更充分地压缩编码视频与文本；2）使用了深度优化的Transformer结构，大幅提升了视频生成的泛化能力。我们认为，豆包新模型的发布意味着国产视频生成模型能力再进一步，同时能够在多个内容相关领域实现商业化，建议关注影视及IP 相关受益逻辑，及AI 应用投资机会。

问题#1：两款模型能力有何差别，分别用于什么场景？

1）PixelDance V1.4 基于DiT 结构，主要特点在于“叙事连贯性”，支持复杂的多主体互动和时序性动作，能生成高动态、炫酷运镜的视频，并且具备一致性多镜头生成能力，支持多种风格和比例，可生成10 秒的故事短片。

我们预计或将更侧重于需要叙事的短剧及微电影等行业的创作；2）Seaweed大模型基于Transformer 架构，主要特点在于“高质量视频效果”，能根据用户输入的高清图像分辨率进行适配和保真，Seaweed 可生成5 秒视频，并延长至20-30 秒。我们预计将提升营销、电商等场景制作素材的效率。

问题#2：这次的视频大模型有何不同？

对比Sora 及其他国产视频生成大模型，我们认为本次发布的视频生成模型最大的亮点在于：1）攻克多镜头切换的一致性难题，镜头切换时能保持主体、风格、氛围的一致，具备一键生成故事性多镜头短片能力；2）解锁了时序性多拍动作指令与多个主体间的交互能力，能在同一个视频画面中指定不同动作的主体，且主体间动作较为连贯。我们认为，此次发布的新模型实现了较大的技术突破，解决了此前视频生成模型中画面效果类似动态PPT，且人物间交互画面无法实现的痛点，实现了真正的视频生成。

问题#3：豆包大模型生态进程如何？

豆包音乐模型、豆包同声传译模型也在巡展中同时发布，此外豆包通用模型pro 和文生图模型、语音合成模型等垂类模型也迎来升级。我们看到随着大模型矩阵的持续完善，C 端应用也在快速落地，如豆包相关的模型技术已经首先应用到了旗下剪映、即梦AI 和醒图工具中。而据火山引擎巡展的数据，截至9 月，豆包语言模型的日均tokens 使用量超过1.3 万亿，多模态方面，日均生成图片5000 万张，日均处理语音85 万小时，相关数据表明C 端落地及渗透速度在持续加速。

问题#4：新视频模型的发布给传媒行业带来哪些机遇？

一方面，我们预计字节视频新模型将应用到内容创作相关领域，包括电商营销、动画教育、城市文旅、微电影和短剧等，提升内容生产效率与质量。可大幅降低制作门槛的同时拥有较高质量。我们认为拥有核心导演或创意人才及IP 资源的公司有望受益，建议关注标的：光线传媒、万达电影、芒果超媒等。另一方面，随着模型技术进步及相关人才的成长，AI 应用端有望加速落地，产业迎来催化。建议关注标的：昆仑万维、焦点科技等。

风险提示：竞争加剧风险，行业监管风险，模型技术进展不及预期风险。

行情