垂类大模型成 为AI 行业落地关键,行业数据的积累与大模型调优是“胜负手”
通用型大模型在带给用户广泛认知方面具有极大优势,但是在垂直领域层面,通用大模型需要根据行业数据进行调优,且存在数据安全性、结果的时效性和准确性等短板。
基于行业数据的“再训练”与“调优”,是构建出高品质行业大模型的关键,因此行业大模型落地需要两项关键能力:行业数据的积累与大模型调优。
其中,行业数据指的是在金融、传媒、政府、医疗等特定领域内的公开和非公开的知识、经验和数据。丰富的行业数据可以迅速提高行业大模型的学习能力,并将其与后来者的差距持续拉大,为厂商提供先发优势。
在垂类大模型落地方面,全球最大的财经咨询公司彭博社发布了专为金融领域打造的大语言模型Bloomberg GPT,大语言模型在金融这一垂直领域的迎来里程碑。同时,国内外厂商也纷纷发力垂类大模型。
数据&客户优势明显,领跑“专业大模型”
根据公司4 月26 日投资者关系活动记录表显示,2023 年开年公司启动了“209”工程,力争在短期内推出trsGPT 及基于trsGPT 生成的系列AIGC 产品,目前相关产品研发及测试工作正在进行中。公司正在研发的trsGPT 是在基础大模型之上进行训练和精调,研制面向政务、金融、媒体三个行业的专业大模型,提供公文辅助写作、投研自动报告生成、智能投研问答、新闻资讯知识型搜索、以文生图配稿等服务。关于trsGPT的预计推出时间,公司表示计划在今年上半年推出。
根据公司年报,公司已经在媒体、政府等行业深耕了20 年以上,在金融、安全行业也厚植了15 年以上,积累了一大批行业头部标杆和优质用户。
拓尔思2010 年自建大数据中心,以长期服务多行业用户持续累积的公开信源数据为基础,拥有了规模及质量均位列业界前茅的公开信源大数据。数据总量1400 亿条以上,每日新增数据量高达1 亿多条,秒级采集更新。数据采集覆盖面、数据存储量及日均增量都明显高于业内水平。
下游行业应用场景丰富:以文生图、知识搜索和辅助写作(媒体行业),政策研读和比对(政府行业),智能投研问答与产业报告生成(金融行业),公司同时具有客户、数据、行业Know-How 等多重优势,AI 时代快速发展可期。
根据公司年报数据,我们下调公司23-24 年营收15.06/19.48亿元的预测,新增25 年营收预测,至23-25 年营收预测12.20/15.44/19.35 亿元; 下调23-24 年每股收益(EPS)0.60/0.78 元的预测,新增25 年每股收益(EPS)预测,至23-25 年分别为0.43/0.63/0.83 元,对应2023 年5 月15 日26.88 元/股收盘价,PE 分别为61.8/42.8/32.6 倍,维持公司“买入”评级。
风险提示
疫情导致全球经济下行的风险,行业竞争加剧导致盈利水平下降,核心技术突破进程低于预期,公司核心人才团队流失风险。