行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

海天瑞声:投资者关系活动记录表-(2024年5月31日)

公告原文类别 2024-05-31 查看全文

证券代码:688787 证券简称:海天瑞声

北京海天瑞声科技股份有限公司

投资者关系活动记录表

编号:2024-009

投资者关系活动类别 √特定对象调研 □分析师会议 □媒体采访 □业绩说明会 □新闻发布会 □路演活动 □现场参观 □电话会议 □其他 (请文字说明其他活动内容)

参与单位名称及人员姓名 中信证券:杨泽原、马庆刘、韩林轩

会议时间 2024年5月29日

会议地点 公司会议室

上市公司接待人员姓名 证券事务代表:张哲 算法部总监:邵志明

投资者关系活动主要内容介绍 1、强化学习阶段的数据服务上,公司今年有何进展或者变化? 目前来看,随着各大模型的陆续上线,强化学习环节的整体数据需求在逐渐攀升,并在具体标注任务上呈现如下趋势: (1)逐渐向更多垂类拓展(例如,法律、金融、医疗); (2)强化学习标注的评价/评分指标变得更为丰富,会要求标注人员从更多维度对模型的问答进行评判和打分; (3)由单模态向多模态转变:23年主要的标注需求集中在文本类标注,今年开始逐步向多模态拓展(例如,文本-视频、文本-图像等) 2、大模型领域的数据标注是否用到了自动化的方式? 目前来看,大模型领域的标注任务主要集中在SFT(有监督微调)、以及RLHF(强化学习)等环节,具体标注方式包括分类、改写、评分、创作等,以上标注类型均为强人工依赖型标注,需要标注人员对问题或答案的质量、类型等进行逐一判断或拟写,目前部分相关项目已经引入了算法自动化预标注策略来提升人工标注与校对的效率。 3、大模型向多模态发展后,数据需求上会有什么变化? 大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。 4、公司如何看待合成数据这个技术?今后是否会对公司的业务产生不利影响? 在数据重要性凸显且数据需求快速增长的时代,合成数据可以认为是人工智能行业发展到一定阶段的必然产物。数据合成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。从目前数据服务行业来讲,以计算机视觉场景为例,合成数据主要应用于某些高危的、罕见的corner case的模拟训练当中,但合成数据毕竟是由机器生成的虚拟数据,其数据质量以及真实性仍无法替代真实场景数据,因此按照目前的技术路线,绝大多数企业仍在使用真实场景数据进行模型训练。但公司会紧密关注合成数据技术的发展,根据最新的行业动态及时调整公司业务布局。 5、版权数据持有方是否可以直接将数据卖给大模型厂商,海天瑞声在其中的价值是什么? 海天瑞声的价值主要体现在多版权数据的汇集、版权数据的清洗、以及基于客户大模型的后续服务。首先,海天瑞声可以汇聚不同版权方的数据,针对客户需求进行不同版权数据的提供。同时,海天瑞声可以针对客户具体定制化需求,对版权数据进行精细化清洗。虽然版权数据本身已为高质量数据,但仍无法直接用于模型训练,需经过高质量清洗后才能使用。例如,通常需将版权数据中重复数据以及不符合法律法规的相关内容进行清洗,以更好帮助大模型节约训练算力以及使大模型在训练后具备良好的法律道德价值观。 6、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别? 大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。 此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。

附件清单(如有)

日期 2024年5月31日

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈