从开源模型GPT-2 迈向通用模型的ChatGPT。自2017 年6 月,Google发布论文《Attentionisallyouneed》,首次提出Transformer 模型,成为GPT发展的基础;2018 年-2020 年,OpenAI 基于Transformer 模型发布多篇论文,并陆续提出GPT-1、GPT-2、GPT-3 的三类语言模型,并在2022 年2 月发布论文《Training language models to follow instructions with humanfeedback》(使用人类反馈指令流来训练语言模型),公布InstructionGPT 模型,随后在2022 年11 月30 日,OpenAI 推出ChatGPT 模型,并提供试用。仅仅不足6 年时间,ChatGPT 走完从理论到现实的历程,其核心催化在于算法+数据+算力的共振
模型的进步是算法+算力的加持下,通过海量参数带来从量变到质变的升华。GPT模型依托于Transformer 解除了顺序关联和依赖性的前提,提出一个建设性的主张:先通过大量的无监督预训练(Unsupervisedpre-training),再通过少量有监督微调(Supervisedfine-tunning),来修正其理解能力。整个算法模型包含三个步骤:1.人类反馈强化学习(RLHF);2.收集参照参数并训练奖励模型;3.使用PPO 算法进一步对GPT 实现的内容进行强化学习加成,从人类偏好学习模型解决了强化学习对奖励机制保持一致的高度依赖。而复盘技术路径,算法模型在2017 年时已被提出,从GPT-1 到ChatGPT 依然遵循Transformer 的框架。而真正带来升华的是在高性能算力加持下,通过优质数据的不断迭代演变而来。
高质量的数据资源是推动GPT 进化的重要抓手。从GPT-1 的1.17 亿参数到GPT-2 的15 亿参数,再到GPT-3 划时代的1750 亿参数,OpenAI 依托筛选过的优质数据形成参数量的阶梯式上升,最终带来GPT-3 乃至ChatGPT 具备理解上下文、连贯性等诸多先进特征。
在提出GPT-3 的论文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一万亿文字(参数)的数据库后,放弃直接使用海量数据训练模型,而是转向通过三种模式筛选优质数据进行训练,从而从万亿参数归纳出众人所熟知的1750 亿参数,其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。
根据OpenAI 的设计,在筛选出的优质数据下,最终训练出的GPT-3 成本极其高昂。即使在团队明确发现失误的前提下,依然无法承担二次训练的代价,其本质原因在于优质数据的来源是OpenAI 通过大量前期的工作筛选而成。通过梳理,筛选后的数据主要分为:1)过滤后的爬虫数据、2)WebText2 的数据集、3)一号图书馆数据、4)二号图书馆数据、5)英文版的维基百科等五种。而将五类数据映射至国内,我们发现在互联网高歌猛进的建设中,我国天然具备五类数据的优质土壤。
以百度、360 和科大讯飞为代表的通用模型中国队,同时具备模型+算力+数据的天然属性。在模型上,无论是GPT-3、亦或是ChatGPT,其底层的技术仍未跳出2017 年Transformer 模型的框架。1)三六零:根据2 月7 日,公司在互动平台上的回答,公司的搜索引擎团队及人工智能研究院从2020 年开始一直在包括类ChatGPT、文本生成图像等技术在内的AIGC 技术上有持续性的研发及算力投入,目前公司的类ChatGPT 技术的各项指标已实现强于GPT-2 的水平,并在中文语境下实际效果强于ChatGPT2;2)百度公众号宣布将在3 月上线类ChatGPT应用“文心一言”;3)在NLP 所在的认知智能领域,科大讯飞主导承建了认知智能全国重点实验室(科技部首批20 家标杆全国重点实验室之一),多年来始终保持关键核心技术处于世界前沿水平,并在去年获得CommonsenseQA2.0、OpenBookQA 等12 项认知智能领域权威评测的第一;4)浪潮信息发布的源1.0,作为人工智能巨量模型,单体模型参数量达到2457 亿,超越美国OpenAI 组织研发的GPT-3 模型,成为全球最大规模的中文语料AI 巨量模型。
结合OpenAI 以非盈利的模式下,仅仅在一年多便从GPT-2 升级到GPT-3,我们判断百度、三六零以及科大讯飞为代表中国队,在模型上的差距有望在一定时间内实现追平。
在算力上,OpenAI 的算力依托于微软为其推出的超级计算机,根据微软表示,最新与OpenAI 和合作研发的这款超级计算机居于世界Top5 之列。而根据2022年6 月1 日新华网的报道,2022 年上半年的全球超级计算机500 强榜单中,中国共有173 台超算上榜,上榜总数蝉联第一。同时,百度智能云落地新一代高性能AI 计算集群,成为领先的AI 原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI 模型的训练时间。经过百度内部NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下整体训练效率是普通GPU 集群的3.87 倍。我们认为,即使国内厂商在单颗芯片的算力上无法达到欧美水准,但通过组建多个算力集群叠加多员工迭代的加持上,将进一步抹平算力上的差距。以三六零为例,截至2022 年半年报,公司货币资金超200 亿,2021 年研发投入超30 亿,具备充足资金储备面对算力竞赛的格局。
三大巨头具备国内海量优质数据的优势。通过对GPT-3 的五类数据分类,以百度、360 和科大讯飞为代表的国内厂商,天然具备优质数据的储存。如百度和三六零同时具备类似CommonCrawl(filtered)的数据,对标Reddit 的百度知道和360 问答,以及对标维基百科的百度百科和360 百科。两者更是国内搜索引擎第一与第二的龙头厂商,根据2 月7 日三六零在互动平台的回答,目前360 搜索是 中国搜索引擎的Top2,市场份额为35%。海量数据存于自身,天然具备数据清洗和数据迭代的核心功能。而科大讯飞AI 训练模型依托自身在医疗领域和教育领域的领军地位,通过教育领域的成绩单和题库,以及医疗领域大量的处方单和病例等专业数据支撑自身专业AI 布局,形成专用领域数据闭环的功能。
投资建议:百度和360 作为国内前二的两大搜索引擎,具备海量通用数据之外,着重布局国家与科技巨头算力军备竞赛环节,均构建算法+数据+算力三大核心能力,或将成为国内通用算法的领军企业。科大讯飞通过在NLP 方面长期的技术优势构建讯飞开放平台,提供超过500 项AI 产品及方案,并链接500 万+合作伙伴共建人工智能生态;结合自身在教育、医疗、翻译、金融和司法等专业领域的数据积累,有望形成通用+专项模型的共振。在ChatGPT 带来业务逻辑质变重估的趋势下,充分看好三者在通用模型的核心竞争力,维持“推荐”评级:三六零、科大讯。由于2022 年疫情反复带来订单交付延期和费用率上升等原因,对应调整相关公司盈利预测,三六零:预计2022-2024 年归母净利润为-24.49/5.01/11.70 亿元,23-24 年对应PE 为104X/45X;科大讯飞:预计2022-2024 年归母净利润为5.57/17.32/27.59 亿元,23-24 年对应PE 为64X/40X。建议重点关注:百度集团-SW。
风险提示:技术落地不及预期,竞争格局加剧。