行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

计算机行业:浅析AI大模型训练数据来源与版权挑战

广发证券股份有限公司 07-19 00:00

核心观点:

AI 大模型训练数据来源广泛。在算力可获得性提升以及算法同质化趋势下,训练数据成为影响大模型性能的重要因素。区别于传统 AI 模型,大语言模型通常使用公共文本数据集的混合体作为预训练语料库,而多模态大模型则需要大规模的图片和音视频等多模态数据。这些训练数据的来源广泛,包含公开渠道、企业自研、直接购买与合作交换等。

内容持有者对AI 厂商态度各异。部分内容持有者针对 AI 平台提出了各种维权诉求,已有数十起版权诉讼正在进行中。同时,另一部分内容持有者则选择了授权合作道路。版权纠纷实质上是商业利益之争,内容持有者具体选择诉讼还是合作取决于其商业模式、内容独特性和行业结构等因素。作家和艺术家们普遍倾向于抵制 AI 公司并控诉其侵权行为,而新闻媒体在版权斗争中则难以形成统一阵线。

确保训练数据的合法来源对于 AIGC 发展非常关键。我们在去年的《从 Adobe 看 AIGC 如何重塑创意工具行业》报告中提到,训练数据的版权问题是AIGC 商业化落地的重要阻碍。因此,只有解决了这一问题,才能在确保合法的前提下,推动生成式 AI 的商业落地。

从 2023 年下半年开始,AI 数据版权诉讼开始进入白热化阶段,而内容合作则于 2024 年上半年加速,表明过去一年中版权问题已经成为 AI 领域的焦点,并且相关法律问题正在被逐步揭示与尝试解决。

2024 年有望成为 AI 训练数据版权之争的关键年。关于 AI 训练数据版权诉讼,国内外尚未达成判例,重点案例的判决将对未来行业发展产生重要意义,需持续关注。同时,越来越多的公司正在明确其立场,显示出行业整体对于训练数据版权问题重视程度的提升。2024年有望成为 AI 数据版权之争的关键年,将会有更多诉讼、谈判和合作展开,但未来授权合作或快于法律变革与监管介入。

当内容合作商对于训练数据版权的立场明确后,大模型研发的不确定性将被消除,应用发展也将进一步加速。训练数据作为成本项,与下游应用的商业化推广密切相关,二者相辅相成。若数据合作显著加速,这将标志着 AIGC 应用即将迎来商业化落地的飞跃。

投资建议:在众多种类应用中,创意工具软件与办公软件更为受益,标的方面, 建议关注万兴科技( 300624.SZ ) 、美图公司(01357.HK,广发传媒覆盖)、金山办公(688111.SH)等。

风险提示:内容价值难以准确量化;行业竞争加剧;数据侵权阻碍下游应用发展。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈