行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

智谱推出4K、60帧新清影 支持自动根据视频内容生成音效

中国证券网 11-08 17:23

金现代 --%

上证报中国证券网讯 让“默片Sora”进入“有声电影时代”,二级市场热度颇高的智谱再出新动作。11月8日,智谱宣布,基于CogVideoX模型的最新技术进展和最新推出的音效模型CogSound,视频生成产品清影迎来全面提升,主要变化包括视频时长延长、画面提升、自带音效以及更好模拟人体动作和物理世界。

根据智谱提供的Demo,新清影在5个方面实现了提升。在模型能力上,新清影在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。通过更强的人物面部表演细节、动作连贯性和物理特性模拟,新清影提高了视频的自然度和逼真度。

在画面上,新清影支持生成10s、4K、60帧超高清视频,视觉体验更佳,动态画面更加流畅。此外,新清影支持任意比例的图像生成视频,并且具备多通道生成能力,同一指令或图片可以一次性生成4个视频。

值得一提的是,新清影可以生成与画面匹配的音效,音效功能将在本月上线公测。智谱团队认为,真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成。因此,智谱打造了音效模型CogSound和音乐模型CogMusic。

在智谱展示的Demo中,针对巨轮撞向冰山、水下探险、动物进食等场景,CogSound能生成对应的复杂音效。CogSound基于GLM-4V的视频理解能力,能够准确识别并理解视频背后的语义和情感,在此基础上生成与之相匹配的音频内容,如爆炸、水流、乐器、动物叫声、交通工具声等。

“我们的理想状态是,只需一个好的创意,剩下的事AI都能辅助搞定,轻松将一个idea、一张图,变成一段自带bgm的影片。”智谱称。

在业内看来,音效模型的出现,能够实现视频与声音的同步创作。该模型在电影行业也具有广泛的应用前景,比如可以生成电影中的大规模战斗场景和灾难场景的声音,大大缩短了制作周期,降低了制作成本。

从长远来看,从脚本、视频画面到声音和音效,理想情况下传统视频制作步骤均可由大模型完成,从而实现全流程自动化。

智谱是最早布局多模态大模型技术的公司,从2021年开始,其在多模态文生图、文生视频领域先后研发了CogView(NeurIPS’21)、CogView2(NeurIPS’22)、CogVideo(ICLR’23)、RelayDiffusion(ICLR’24)等。

目前,智谱已经构建了独家、完善、原创的多模态模型矩阵。这包括语言模型、图像生成和理解模型、视频生成和理解模型和10月底刚刚发布的端到端情感语音模型GLM-4-Voice。随着音效模型CogSound的加入,多模态大模型家族在声音模态方面实现了人声、音效的多链路布局,健全了智谱基于图像、视频和声音的多模态模型矩阵。

二级市场方面,智谱概念因自主智能体AutoGLM成为近期市场热点,多家上市公司披露了与之的合作进展。11月7日,首都在线表示,公司和智谱是生态合作伙伴,双方明确将在智能算力集群、大模型商业化、一体机研发、国产GPU适配及地方智算中心建设等多个关键领域展开深度合作。公司已经获得了智谱“多元算力的适配权益”,后续公司将积极推动国产芯片和智谱大模型的适配,助力国产信创替代进程。此外公司将通过和智谱共同搭建生态的方式,促进智谱大模型在各行各业的应用落地。

11月4日,金现代表示,公司与智谱的合作主要体现在推进AI大模型落地应用方面。公司通过使用智谱ChatGLM4大模型以及依托自主研发的NLP、OCR、知识图谱等技术成果,积极推进AI技术在电力业务场景中的应用。

11月4日,彩讯股份表示,智谱是公司的战略合作伙伴,双方在大模型的行业落地以及AI应用层面均有合作。彩讯RichAICloud算力平台使智谱GLM-4等开源大模型推理速度提升,大幅降低了模型的部署成本,加速了产品的落地。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈