AGI 起于大语言模型,终于具身智能。AGI(Artificial General Intelligence),即通用人工智能,也称强人工智能,指的是具备与人类同等甚至超越人类的智能,能表现出正常人类所具有的所有智能行为。AGI 技术实现突破,离不开LLM 大模型和多模态能力,在两者结合下,AI 具备了创造力。具身智能是迈向通用人工智能(AGI)的重要一步,国内外大厂及高等学府均开展了具身智能的相关研究,如微软、谷歌、斯坦福、达闼机器人、智元机器人等。
人形机器人是AGI 最佳载体,业界研究进展加速。谷歌的RT-1 是迈向视觉语言动作(VLA)模型的一个尝试,通过吸收大量的真实数据,提升机器性能和泛化能力;RT-2 是全球首个控制机器人的VLA 模型,将视觉语言模型(VLM)与机器人操作能力结合,在泛化能力和涌现能力上均有明显提升。
GPT-4 是OpenAI 发布的最新GPT 系列模型,是一个大规模的多模态模型,已应用在Ameca 和Eureka 等机器人上;GPT-4V(ision)新增语言、图像交互功能。
Meta 和CMU 联合打造出RoboAgent,突破了缺乏足够庞大的数据集来训练通用智能体和缺乏能够生成此类数据的通用智能体的困境。特斯拉链接FSD和机器人的底层模块,使用端到端的神经网络,助力Optimus 在任务操作方面展现出先进性。
“机器人+大模型”是迈向AGI 时代的有效途径:人工智能大模型的语言处理能力可以被看作“大脑”,若想真正发挥通用人工智能的力量,未来的AGI 需要有具身实体。LLM 有助于实现任务级编程/交互,整个过程基本不需要或者仅需少量人类的介入和确认,降低了机器人的使用门槛。多模态大模型使得机器人开始理解如何合理使用多种输出能力来更好的完成任务。但我们离通用人工智能还很遥远,仍然存在许多尚未解决的重大问题,如多模态融合、安全性、高质量训练数据缺乏等。
投资建议:AGI 是人工智能未来发展的方向,LLM 和多模态推动AGI 实现技术上的突破,“机器人+大模型”为AGI 走进物理世界提供了更多的可能性。
随着谷歌、OpenAI、Meta 和特斯拉等科技大厂以及斯坦福等高等学府纷纷投入AGI 的研究中,“机器人+大模型”将会进入发展的快车道,带动机器人软件和硬件系统的迭代升级,具有较好的发展前景。建议关注机器人整机领域的公司,如三花智控、拓普集团、埃斯顿、亿嘉和、博实股份、德昌股份等。
风险提示:特斯拉人形机器人量产进展不及预期;国产化替代进展不及预期;制造业景气度恢复低于预期等。