事件:美国时间3 月21 日,美国社交媒体平台Reddit 正式上市。
Reddit 平台积累形成的语料库对LLM 训练具备高价值。Reddit 以“贴吧”的产品形态呈现,用户可以在平台发布帖子,也可以在帖子下留言评论参与讨论,因此形成了庞大的语料数据库。由于大语言模型的训练和能力提升需要大量优质数据,Reddit 认为其数据将成为LLM 训练的关键因素。我们认为,Reddit 数据的价值主要体现在:(1)数据规模庞大。根据招股书,23Q4 Reddit 日活跃独立用户数(DAUq,Unique)7310 万人,庞大的用户生态形成了丰富的语料数据。(2)数据持续更新。Reddit 每天新增的实时内容使语料库能反映最新语言趋势和知识。
(3)数据高质量。基于体育、电影、新闻、时尚和最新趋势等内容持续产出数据,且不同活跃社区各有语言特色,进一步保障数据丰富性。
Reddit 已通过数据授权(Data Licensing)贡献新增收入。根据招股书,Reddit 已将数据授权给第三方使用进行变现,大模型训练是重要场景之一。根据招股书,今年1 月,Reddit 已签订部分数据授权协议,合同总价值2.03 亿美元,为期2-3 年,预计今年收入将至少确认6640万美元。根据路透社,今年2 月,Reddit 和谷歌达成每年价值约6000万美元的数据授权协议,用于谷歌大模型训练。我们认为,这表明了大模型厂商的数据需求和付费意愿,数据版权的商业价值得到实际兑现。
海外已有判例支持版权方在大模型训练中维权,内容版权价值确认强化。根据CNBC,3 月20 日,法国监管机构对谷歌处以2.5 亿欧元罚款,原因是谷歌Gemini 大模型训练中,使用了出版商和新闻机构的内容,但并未告知。我们认为,该判例确认和强化了数据版权价值,为版权方的以判促谈或维权提供有力支撑,版权价值重估有望更快落地。
投资建议:我们认为,Reddit 在数据授权业务的进展,一方面再次说明了版权内容在大模型训练中发挥的重要性,另一方面印证了版权的商业化价值将在大模型时代进一步抬升,文字、图片、视频等版权内容均有望迎来进一步的价值重估。建议关注拥有优质网文/图片/视频版权的公司,其中网文内容关注中文在线、掌阅科技、阅文集团等;出版内容版权关注中国科传、中国出版、新经典、中信出版、读客文化、果麦文化、凤凰传媒、中南传媒等;视频/影视版权内容关注光线传媒、芒果超媒、华策影视、上海电影、捷成股份、新媒股份、中广天泽、欢瑞世纪、华数传媒等;图片版权内容关注视觉中国;动漫形象IP 关注汤姆猫、奥飞娱乐、风语筑等。
风险提示:模型迭代效果不及预期、商业化不及预期、内容伦理风险。