📢 Gate广场专属 #WXTM创作大赛# 正式开启!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),总奖池 70,000 枚 WXTM 等你赢!
🎯 关于 MinoTari (WXTM)
Tari 是一个以数字资产为核心的区块链协议,由 Rust 构建,致力于为创作者提供设计全新数字体验的平台。
通过 Tari,数字稀缺资产(如收藏品、游戏资产等)将成为创作者拓展商业价值的新方式。
🎨 活动时间:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 参与方式:
在 Gate广场发布与 WXTM 或相关活动(充值 / 交易 / CandyDrop)相关的原创内容
内容不少于 100 字,形式不限(观点分析、教程分享、图文创意等)
添加标签: #WXTM创作大赛# 和 #WXTM#
附本人活动截图(如充值记录、交易页面或 CandyDrop 报名图)
🏆 奖励设置(共计 70,000 枚 WXTM):
一等奖(1名):20,000 枚 WXTM
二等奖(3名):10,000 枚 WXTM
三等奖(10名):2,000 枚 WXTM
📋 评选标准:
内容质量(主题相关、逻辑清晰、有深度)
用户互动热度(点赞、评论)
附带参与截图者优先
📄 活动说明:
内容必须原创,禁止抄袭和小号刷量行为
获奖用户需完成 Gate广场实名
大模型长文本能力突破40万token 推动行业应用新发展
大模型正在以惊人速度突破长文本技术
大模型的长文本能力正在飞速提升。从最初的4000 token到现在的40万token,这一能力的增长可谓"肉眼可见"。
长文本处理似乎已成为大模型厂商的新"标配"。国外方面,OpenAI通过多次升级将GPT-4的上下文长度提升至3.2万token。Anthropic则一举将其模型的上下文长度扩展到10万token。LongLLaMA更是将这一数字推高至25.6万token。
国内也不甘落后。某大模型初创公司推出的智能助手可支持输入20万汉字,约合40万token。另有研究团队开发的新技术LongLoRA,能将7B模型的文本长度拓展到10万token。
目前,包括OpenAI、Anthropic、Meta等在内的众多顶级大模型公司和机构都将拓展上下文长度作为重点升级方向。这些公司无一例外都备受资本青睐。
那么,大模型公司为何如此重视长文本技术?上下文长度扩大100倍意味着什么?
表面上看,这意味着模型可处理的输入文本越来越长,阅读能力越来越强。从最初只能读懂短文,到现在可以轻松理解一本长篇小说。
更深层次看,长文本技术正在推动大模型在金融、法律、科研等专业领域的应用落地。长文档摘要、阅读理解、问答等能力是这些领域智能化升级的关键。
不过,需要注意的是,支持更长的上下文输入并不等同于模型效果更好。研究表明,模型对上下文内容的使用才是关键。
目前,国内外对文本长度的探索还远未达到极限。40万token或许只是一个开始。
为何要"卷"长文本?
某大模型公司创始人表示,正是由于输入长度受限,才造成了许多大模型应用落地的困境。这也是众多公司聚焦长文本技术的原因所在。
例如,在虚拟角色场景中,由于长文本能力不足,虚拟角色会遗忘重要信息。在开发剧本杀类游戏时,输入prompt长度不够,只能削减规则和设定,影响游戏效果。在法律、金融等专业领域,深度内容分析和生成也常常受挫。
长文本技术在通往未来Agent和AI原生应用的道路上也扮演着重要角色。Agent需要依靠历史信息进行规划决策,AI原生应用则需要上下文来保持连贯、个性化的用户体验。
该创始人认为,大模型的上限由单步能力和执行步骤数共同决定。单步能力与参数量相关,而执行步骤数即上下文长度。
长文本技术可以解决大模型早期被诟病的一些问题,增强某些功能,同时也是推进产业应用落地的关键技术。这标志着通用大模型发展进入了从LLM到Long LLM的新阶段。
某公司新发布的智能助手展示了Long LLM阶段大模型的一些升级功能:
这些例子表明,对话机器人正朝着专业化、个性化、深度化方向发展,这或许是撬动产业应用和超级APP落地的新抓手。
不过,目前市面上的长文本对话场景仍有优化空间。如不支持联网获取最新信息、无法暂停修改生成过程、偶尔会出现胡说八道等情况。
长文本的"不可能三角"困境
长文本技术面临文本长短、注意力和算力的"不可能三角"困境:
这主要源于大多数模型基于Transformer结构。其中的自注意力机制使计算量随上下文长度呈平方级增长。
一些研究表明,过长的上下文会导致相关信息占比下降,加剧注意力分散。这构成了文本长短与注意力的矛盾。
同时,突破更长的文本技术就不得不消耗更多算力。但在实际部署中,企业端往往无法提供足够算力支持。这又形成了文本长短与算力的矛盾。
目前主要有三种解决方案:
第一种方案是给模型开"外挂",将长文本切分为多个短文本处理。
第二种方案是重构自注意力计算方式,如LongLoRA技术将长文本分组计算。
第三种方案专注于模型优化,如LongLLaMA通过微调实现更长序列的外推。
长文本的"不可能三角"困境暂时还无解,但也明确了探索路径:在文本长短、注意力和算力三者间寻找最佳平衡点,既处理足够信息,又兼顾注意力计算与算力成本限制。