证券代码:688787 证券简称:海天瑞声
北京海天瑞声科技股份有限公司
投资者关系活动记录表
编号:2024-021
投资者关系活动类别 □特定对象调研 □分析师会议 □媒体采访 □业绩说明会 □新闻发布会 □路演活动 □现场参观 √电话会议 □其他(请文字说明其他活动内容)
参与单位名称及人员姓名 中欧基金 冯炉丹
会议时间 2024年11月11日
会议地点 腾讯会议
上市公司接待人员姓名 董事会秘书 张哲
投资者关系活动主要内容介绍 1、请问公司三季度收入大幅增长的原因是什么? 2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要是受益于大模型技术的快速发展以及应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。由此带来,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长,整体上驱动公司营业收入同比显著增加。截至9月末,公司已为近20家境内外大模型企业、科研机构,在预训练、指令微调、偏好对齐等方面提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础。 2、公司前三季度净利润同比也呈现出比较好的增长,背后的原因除了收入增长外,公司是否做了其他的举措来控制费用? 2024年1-9月,归属于上市公司股东的净利润为378.87万元,同比增长3,590.86万元。背后的驱动因素,除了公司整体营业收入大幅增长外,前三季度具有高毛利特点的数据集产品收入占比有所提升,驱动公司整体毛利率增加至66.83%。此外,为进一步提升整体运营效率,公司进行了管理资源的合理配置和流程优化,使得管理费用有效降低;与此同时,公司DOTS一体化数据处理平台开发已达到阶段性成熟状态,相关投入强度呈现自然回落;同时,部分账龄较长的大额应收账款在报告期间完成回款,信用减值损失大幅降低,以上因素共同驱动公司前三季度净利润同比大幅增长。 3、看到公司前三季度境外收入快速增长,除了三季报里讲到的行业侧的多模态大模型的驱动外,公司本身在境外做了哪些布局和投入? 为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。 4、前三季度,公司在大模型领域进行了哪些投入? 公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。 5、三季报中有提到,境内、外客户购买了公司很多语音数据,请问公司在智能语音数据方面的储备和进展如何? 语音一直以来都是公司的优势领域,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。目前,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。 6、智能终端的AI agent出来之后,对数据需求有什么变化? 智能终端侧的AI agent将成为继智能驾驶之后又一个重要的AI落地场景,会带来新型的数据需求。首先,智能终端agent需要能够处理和理解来自终端场景的多样化数据,因此需要获取相册中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习,使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要大量的各类应用的操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和多风格语音数据的进一步需求。针对以上AI agent多样化的数据需求,海天瑞声均具备设计、采集、加工等数据服务能力。 7、强化学习阶段的数据需求,今年有什么变化趋势? 目前来看,随着各大模型的陆续上线,强化学习环节的整体数据需求在逐渐攀升,并在具体标注任务上呈现如下趋势: (1)逐渐向更多垂类拓展(例如,法律、金融、医疗); (2)强化学习标注的评价/评分指标变得更为丰富,会要求标注人员从更多维度对模型的问答进行评判和打分; (3)由单模态向多模态转变:23年主要的标注需求集中在文本类标注,今年开始逐步向多模态拓展(例如,文本-视频、文本-图像等)
附件清单(如有)
日期 2024年11月12日