本报告导读:
随着大模型底层架构初步成熟,以大模型作为基础模型支撑AI产业应用逻辑已然明朗。在国内外各大模型百花齐放背景下,模型训练优化与产业落地将成为新战场。
摘要:
MaaS产业趋势明朗,海外大模型角逐激烈。Transformer基于“预训练”和“大规模”两个主要手段,使得千亿参数规模的大模型成为可能。同时,随着预训练模型趋向于大一统以及不同模态交互日益成熟,基于标准化的大模型,有助于为大范围产业化提供基础和可能,从而助力实现MaaS 生态;大型语言模型研究的发展有三条技术路线:Bert模式、GPT 模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的GPT 技术路线。同时,各个大语言模型路线各有聚焦,GPT 模式在生成类任务表现最优。OpenAI 正是基于Transformer基础模型推出了GPT 系列大模型,GPT 模型依托于Transformer 解除了顺序关联和对监督学习的依赖性的前提,同时对基础模型架构的更改最小,且进行了显著简化。最终GPT-4 的发布成为OpenAI 在深度学习扩展方面的里程碑,GPT-4 已经可被视为通用人工智能的早期版本,除了生成能力,GPT-4 还具有解释性、组合性和空间性能力。
国内大模型赶超迅速,各玩家布局各有侧重。百度经过11 年积累了全栈人工智能技术,从芯片层、框架层、模型层到应用层,实现AI应用场景全覆盖。同时,属国内独家的从软件到AI 芯片全栈打通的Paddle 训练框架生态,结合其传统业务优势,助力百度获得海量中文问答式搜索反馈数据,形成“数据飞轮”效应;腾讯自发布混元AI大模型以来,持续探索改进大模型优化策略,打造高效率开发工具,降低模型训练成本。而且混元商业化拓展迅速,大模型效益得到验证;阿里在国内率先探索通用统一大模型,快速提升参数量级,并实施开源来释放大模型应用潜力;华为依托昇腾AI 打造的全栈使能体系,聚焦以视觉为主的数字化场景,开启工业化AI 行业适配。
随着算力及硬件性能需求大幅提升,模型训练开始多路径优化。大模型海量参数训练所需算力日益攀升,长时间的GPU 集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求,而GPU 硬件发展的速度难以满足Transformer 模型规模发展的需求。因而国内外业界厂商纷纷提出各自的大模型训练提效方案。
投资建议:AI 的技术更迭以及应用场景的大幅拓展正推动着人工智能产业全新的发展,我们基于核心应用场景视角,推荐拥有垂直场景优势的科大讯飞、金山办公、凌志软件、杰创智能。
风险提示:大模型应用不及预期风险,竞争加剧风险。