行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

传媒行业专题研究:VIDU-国内AI视频生成模型新突破

华泰证券股份有限公司 05-10 00:00

全球AI 大模型持续迭代,持续看好视频等多模态发展前景今年以来,全球AI 大模型端都持续迭代升级,包括海外的Sora、Llama3等,国内的Kimi、昆仑天工AI、阶跃星辰等。4 月27 日,北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。行业的发展进度有望不断催化传媒相关板块的发展,我们看好:1)AI 视频大模型依赖多样化训练数据,高质量视频素材库价值凸显;2)AI 大模型助力应用场景发展。我们推荐:昆仑万维、光线传媒、捷成股份、值得买。其他产业链标的包括华策影视、中文在线、中广天择、掌阅科技等。

Vidu:国内AI 视频生成模型新突破

Vidu 采用了团队原创的Diffusion 与Transformer 融合的架构U-ViT,能够一键生成长达16 秒、分辨率达到1080P 的高清视频内容,其拥有丰富的想象力,能够模拟真实物理世界,并具备多镜头生成、时空一致性高等特点。

核心团队来源于清华大学人工智能团队,首席科学家为清华人工智能研究院副院长朱军。公司的多模态大模型为全栈自研,能够融合文本、图像、3D、视频等多模态信息。除文生视频外,公司在文生图、3D 生成等多模态能力上均有所造诣。

Vidu 快速进化,与Sora 差距不断缩小

2024 年1 月,生数团队实现4 秒视频的生成,已可以达到Pika、Runway的效果,至3 月底实现8 秒视频生成,4 月实现16 秒视频生成,在3 个月内生成时长提升至4 倍,且据4 月27 日中关村论坛中生数领军人朱军的发言,Vidu 会以更快的速度迭代,与Sora 差距将越来越小。Vidu 生成视频的运动幅度较大。除Sora 外,目前文/图生视频较难做到让人物做出复杂动作,因此为了保证画面畸变最小,视频生成的策略为选择小幅度的运动,较难设计复杂动作,难以处理场景和人物的一致性问题。Vidu 在保证了时空一致性的前提下运动幅度较大。分辨率赶上第一梯队,但仍为固定比例尺寸。

Vidu 模型使用U-ViT 架构,多模态、效果好、成本低在U-ViT 前,Diffusion 模型中的主流主干(backbone)一直为基于CNN 的U-Net。U-ViT 是生数科技团队设计的一种简单通用的、基于ViT 的架构,使用Diffusion 生成图像,打响了扩散模型中CNN 被Transformer 取代的第一枪。模型首先对输入图像进行分割处理(分割为patch),与时间和条件一道表示为token 后通过Embedding 层,随后经过Transformer Block 后输出为token,并通过一个线性层转为图块,最后通过一个可选的3X3 卷积层输出为最终结果。此外,U-ViT 成本优势大幅领先,主要得益于ViT 架构的训练成本较低。

风险提示:竞争加剧,模型发展进度低于预期,政策监管风险等。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈