字节新发布两款视频AI 大模型,性能显著提升9 月24 日,字节跳动旗下火山引擎在深圳举办AI 创新巡展,发布了豆包两款视频大模型PixelDance V1.4 与Seaweed,并同时面向企业市场开启邀测,公司预计在国庆节后上线火山方舟平台。根据火山引擎巡展发布的内容,我们看到豆包视频生成模型的技术创新体现在:1)通过高效的DiT 融合计算单元,可更充分地压缩编码视频与文本;2)使用了深度优化的Transformer结构,大幅提升了视频生成的泛化能力。我们认为,豆包新模型的发布意味着国产视频生成模型能力再进一步,同时能够在多个内容相关领域实现商业化,建议关注影视及IP 相关受益逻辑,及AI 应用投资机会。
问题#1:两款模型能力有何差别,分别用于什么场景?
1)PixelDance V1.4 基于DiT 结构,主要特点在于“叙事连贯性”,支持复杂的多主体互动和时序性动作,能生成高动态、炫酷运镜的视频,并且具备一致性多镜头生成能力,支持多种风格和比例,可生成10 秒的故事短片。
我们预计或将更侧重于需要叙事的短剧及微电影等行业的创作;2)Seaweed大模型基于Transformer 架构,主要特点在于“高质量视频效果”,能根据用户输入的高清图像分辨率进行适配和保真,Seaweed 可生成5 秒视频,并延长至20-30 秒。我们预计将提升营销、电商等场景制作素材的效率。
问题#2:这次的视频大模型有何不同?
对比Sora 及其他国产视频生成大模型,我们认为本次发布的视频生成模型最大的亮点在于:1)攻克多镜头切换的一致性难题,镜头切换时能保持主体、风格、氛围的一致,具备一键生成故事性多镜头短片能力;2)解锁了时序性多拍动作指令与多个主体间的交互能力,能在同一个视频画面中指定不同动作的主体,且主体间动作较为连贯。我们认为,此次发布的新模型实现了较大的技术突破,解决了此前视频生成模型中画面效果类似动态PPT,且人物间交互画面无法实现的痛点,实现了真正的视频生成。
问题#3:豆包大模型生态进程如何?
豆包音乐模型、豆包同声传译模型也在巡展中同时发布,此外豆包通用模型pro 和文生图模型、语音合成模型等垂类模型也迎来升级。我们看到随着大模型矩阵的持续完善,C 端应用也在快速落地,如豆包相关的模型技术已经首先应用到了旗下剪映、即梦AI 和醒图工具中。而据火山引擎巡展的数据,截至9 月,豆包语言模型的日均tokens 使用量超过1.3 万亿,多模态方面,日均生成图片5000 万张,日均处理语音85 万小时,相关数据表明C 端落地及渗透速度在持续加速。
问题#4:新视频模型的发布给传媒行业带来哪些机遇?
一方面,我们预计字节视频新模型将应用到内容创作相关领域,包括电商营销、动画教育、城市文旅、微电影和短剧等,提升内容生产效率与质量。可大幅降低制作门槛的同时拥有较高质量。我们认为拥有核心导演或创意人才及IP 资源的公司有望受益,建议关注标的:光线传媒、万达电影、芒果超媒等。另一方面,随着模型技术进步及相关人才的成长,AI 应用端有望加速落地,产业迎来催化。建议关注标的:昆仑万维、焦点科技等。
风险提示:竞争加剧风险,行业监管风险,模型技术进展不及预期风险。