Kimi 上下文长度10 倍增长,引领国内大模型长上下文迭代新方向大模型的长上下文支持能力已经成为重要的迭代方向。海外相对超前,Anthropic Claude 3 模型标配200K 上下文,并可向特定客户提供1M 长度;Google Gemini 1.5 Pro 标配支持1M 上下文长度,内部已实现10M。国产大模型初创公司中,月之暗面的Kimi 智能助手在23 年10 月即实现了20万字上下文,并在24 年3 月进一步迭代成为200 万字。同月,阿里通义千问宣布文档解析功能支持1000 万字;百度文心一言将在4 月的更新中支持200 万字以上的长文本能力;360 智脑开始内测500 万字长文本处理功能。
长上下文已成为全球大模型迭代重要方向,关注其他国产模型厂商进展。
大模型长上下文,主要通过优化Transformer 架构实现目前,全球大模型仍然以Transformer 解码器为主要架构基础。在此基础上,可以通过改进解码器架构来实现长上下文,主要改进方法包括:1)高效的注意力机制:降低计算成本,在训练时实现更长的序列长度,相应的推理时序列长度也就更长;2)实现长期记忆:设计显式记忆机制,以解决上下文记忆的局限性。3)改进位置编码:对现有的位置编码进行改进,实现上下文外推。4)对上下文进行处理:用额外的上下文预/后处理,确保每次调用中输入给LLM 的输入始终满足最大长度要求。
国内大模型厂商可能采取了多种路线混合优化方法实现长上下文长上下文作为核心技术,各厂商选择不公开。以月之暗面为例,其创始人杨植麟主要的学术论文Transformer-XL 和XL-Net,均探讨了长上下文的实现方法,且前者属于长期记忆力的优化,后者属于特殊目标函数的优化。百度的ERNIE-Doc 则同时采用了长期记忆力和特殊目标函数的优化方法。阿里Qwen-7B 则使用了优化的位置编码算法extended RoPE。所以我们推测,国内模型厂商之所以能够在短期内实践出长上下文方法,或是在原有积累的基础上进行了算法迭代,采取多方法的混合优化,实现快速超车。
长上下文的通用性将解决多类场景需求,带来应用突破机会具有长上下文的大模型通用性更强,用户将特定领域的知识通过上下文的方式输入到模型中,模型即可以通过上下文学习掌握相应内容,一定程度上代替模型的微调。此外,长上下文模型能适应虚拟角色的个性化信息记忆、开发者的长prompt 输入、AI Agent 的多轮调用需求,以及金融、法律等垂直客户长文档输入需求等多种场景,有望为AI+应用带来新的突破机会。
关注大模型长文本潜在受益产业链
长文本应用场景:1)文本工具:金山办公、福昕软件;2)法律文案:华宇软件、通达海;3)业务流程:泛微网络、致远互联;4)其他文本:汉仪股份、汉王科技。专业领域+多任务+多模态场景:1)金融领域:同花顺、恒生电子;2)医疗领域:嘉和美康;3)电商领域:光云科技。AI 算力:浪潮信息、神州数码、海光信息。
风险提示:宏观经济波动,技术进步不及预期。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。