电力设备行业点评报告：谷歌发布原生多模态大模型GEMINI 有望推动具身智能发展

美国当地时间12 月6 日，谷歌发布原生多模态大模型Gemini 1.0，其中Gemini Ultra 复杂度最高，能够处理最为困难的任务；Pro 能力稍弱，是一个可扩展至多任务的最佳模型；Nano 则是一款可以在手机端侧运行的模型。

投资要点

Google DeepMind 持续推进大模型发展

DeepMind 成立于2010 年，采用跨学科方法构建通用人工智能系统，并于2015 年推出了AlphaGo，是第一个击败围棋世界冠军的计算机程序；Google Brain 于2011 年启动，于2017 年推出了著名的Transformer 架构，后来Transformer也成了几乎所有大语言模型的基础模型，同时Brain 团队后续还在机器人领域中使用PaLM-SayCan 的大语言模型，并创造了机器人领域第一个视觉语言动作模型（RT-2）。谷歌于2023 年4 月将这两个世界领先的实验室合并成立了GoogleDeepMind，在此基础上谷歌一直持续推进大模型的发展。

继2022 年推出PaLM 模型之后，2023 年3 月谷歌推出了PaLM-E 具身多模态语言模型，由大语言模型PaLM（5400 亿参数）和视觉模型 ViT（220 亿参数）结合而成。

2023 年5 月，在谷歌I/O 2023 大会上，合并后的GoogleDeepMind 推出PaLM 2 模型，相较于其前身PaLM,PaLM 2 在高级推理、翻译和代码生成等任务上表现更加优秀。

此次推出的Gemini 是一款原生的多模态大模型，传统的多模态模型是将文字、图片、声音等模态经过处理之后的组合系统，他们的统一协调性并不强。而Gemini 是原生多模态架构，拥有无缝的跨模态的能力。目前Gemini Pro 已经上线谷歌Bard，支持文字与图片输入。

Gemini 在多项测试中表现较好，算力需求更上一层

Gemini 系列中最强的模型Gemini Ultra 在32 个基准测试中的30 个取得了行业最强的成绩，同时也是第一个在MMLU（著名的知识与逻辑测试）上达到人类专家水平（得分超过90%）的模型。除了文本，Gemini Ultra 在多模态的推理任务中同样有很大的突破，在最近的MMMU 基准测试中，它关于多学科任务的图片问题得到了62.4%，比此前的最佳模型（GPT4）高出5%以上。

Gemini 同样是以Transformer 模型为基础模型，训练GeminiUltra 在多个数据中心使用了大量的TPUv4 加速器，数量相较于此前谷歌旗舰模型PaLM-2 有了明显提升。

Gemini 将进一步推动具身智能发展

以chatgpt 为代表的语言类大模型展现出了庞大的先验知识库与强大的通识理解能力，但是大部分模型仍主要以单一文字模态为主。而对于具身智能而言，所需的模态不仅是文字，还有图片视频等，未来嗅觉、味觉、触觉、温度、湿度等同样是需要引入模型的模态。可以说多模态是人形机器人行业发展的必由之路。

此前谷歌发布的RT-2 模型，由大语言模型PaLM 与视觉模型ViT 结合而成，成功引入多模态训练，尽管也能够理解、执行任务，但其本质是不同模态的模型各自训练好之后的结合，而Gemini 是真正的端到端多模态，即在训练大模型的时候就同步穿插各种模态的数据，并且展现出优秀的能力，无需对多种模态进行拆分，预计以Gemini 为基础的机器人大模型也将逐步问世，这将推动具身智能的模型进一步发展。

我们看好Gemini 推出并应用于具身智能领域后对于机器人行业带来的板块效应，对电力设备板块维持“推荐”评级。

风险提示

机器人下游发展不及预期；算力与算法模型更新迭代不及预期；行业竞争加剧风险等。

行情