智谱推出4K、60帧新清影支持自动根据视频内容生成音效

上证报中国证券网讯让“默片Sora”进入“有声电影时代”，二级市场热度颇高的智谱再出新动作。11月8日，智谱宣布，基于CogVideoX模型的最新技术进展和最新推出的音效模型CogSound，视频生成产品清影迎来全面提升，主要变化包括视频时长延长、画面提升、自带音效以及更好模拟人体动作和物理世界。

根据智谱提供的Demo，新清影在5个方面实现了提升。在模型能力上，新清影在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。通过更强的人物面部表演细节、动作连贯性和物理特性模拟，新清影提高了视频的自然度和逼真度。

在画面上，新清影支持生成10s、4K、60帧超高清视频，视觉体验更佳，动态画面更加流畅。此外，新清影支持任意比例的图像生成视频，并且具备多通道生成能力，同一指令或图片可以一次性生成4个视频。

值得一提的是，新清影可以生成与画面匹配的音效，音效功能将在本月上线公测。智谱团队认为，真正的智能一定是多模态的，听觉、视觉、触觉等共同参与了人脑认知能力的形成。因此，智谱打造了音效模型CogSound和音乐模型CogMusic。

在智谱展示的Demo中，针对巨轮撞向冰山、水下探险、动物进食等场景，CogSound能生成对应的复杂音效。CogSound基于GLM-4V的视频理解能力，能够准确识别并理解视频背后的语义和情感，在此基础上生成与之相匹配的音频内容，如爆炸、水流、乐器、动物叫声、交通工具声等。

“我们的理想状态是，只需一个好的创意，剩下的事AI都能辅助搞定，轻松将一个idea、一张图，变成一段自带bgm的影片。”智谱称。

在业内看来，音效模型的出现，能够实现视频与声音的同步创作。该模型在电影行业也具有广泛的应用前景，比如可以生成电影中的大规模战斗场景和灾难场景的声音，大大缩短了制作周期，降低了制作成本。

从长远来看，从脚本、视频画面到声音和音效，理想情况下传统视频制作步骤均可由大模型完成，从而实现全流程自动化。

智谱是最早布局多模态大模型技术的公司，从2021年开始，其在多模态文生图、文生视频领域先后研发了CogView(NeurIPS’21)、CogView2(NeurIPS’22)、CogVideo(ICLR’23)、RelayDiffusion(ICLR’24)等。

目前，智谱已经构建了独家、完善、原创的多模态模型矩阵。这包括语言模型、图像生成和理解模型、视频生成和理解模型和10月底刚刚发布的端到端情感语音模型GLM-4-Voice。随着音效模型CogSound的加入，多模态大模型家族在声音模态方面实现了人声、音效的多链路布局，健全了智谱基于图像、视频和声音的多模态模型矩阵。

二级市场方面，智谱概念因自主智能体AutoGLM成为近期市场热点，多家上市公司披露了与之的合作进展。11月7日，首都在线表示，公司和智谱是生态合作伙伴，双方明确将在智能算力集群、大模型商业化、一体机研发、国产GPU适配及地方智算中心建设等多个关键领域展开深度合作。公司已经获得了智谱“多元算力的适配权益”，后续公司将积极推动国产芯片和智谱大模型的适配，助力国产信创替代进程。此外公司将通过和智谱共同搭建生态的方式，促进智谱大模型在各行各业的应用落地。

11月4日，金现代表示，公司与智谱的合作主要体现在推进AI大模型落地应用方面。公司通过使用智谱ChatGLM4大模型以及依托自主研发的NLP、OCR、知识图谱等技术成果，积极推进AI技术在电力业务场景中的应用。

11月4日，彩讯股份表示，智谱是公司的战略合作伙伴，双方在大模型的行业落地以及AI应用层面均有合作。彩讯RichAICloud算力平台使智谱GLM-4等开源大模型推理速度提升，大幅降低了模型的部署成本，加速了产品的落地。

行情