📢 Gate廣場專屬 #WXTM创作大赛# 正式開啓!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),總獎池 70,000 枚 WXTM 等你贏!
🎯 關於 MinoTari (WXTM)
Tari 是一個以數字資產爲核心的區塊鏈協議,由 Rust 構建,致力於爲創作者提供設計全新數字體驗的平台。
通過 Tari,數字稀缺資產(如收藏品、遊戲資產等)將成爲創作者拓展商業價值的新方式。
🎨 活動時間:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 參與方式:
在 Gate廣場發布與 WXTM 或相關活動(充值 / 交易 / CandyDrop)相關的原創內容
內容不少於 100 字,形式不限(觀點分析、教程分享、圖文創意等)
添加標籤: #WXTM创作大赛# 和 #WXTM#
附本人活動截圖(如充值記錄、交易頁面或 CandyDrop 報名圖)
🏆 獎勵設置(共計 70,000 枚 WXTM):
一等獎(1名):20,000 枚 WXTM
二等獎(3名):10,000 枚 WXTM
三等獎(10名):2,000 枚 WXTM
📋 評選標準:
內容質量(主題相關、邏輯清晰、有深度)
用戶互動熱度(點讚、評論)
附帶參與截圖者優先
📄 活動說明:
內容必須原創,禁止抄襲和小號刷量行爲
獲獎用戶需完成 Gate廣場實名
大模型長文本能力突破40萬token 推動行業應用新發展
大模型正在以驚人速度突破長文本技術
大模型的長文本能力正在飛速提升。從最初的4000 token到現在的40萬token,這一能力的增長可謂"肉眼可見"。
長文本處理似乎已成爲大模型廠商的新"標配"。國外方面,OpenAI通過多次升級將GPT-4的上下文長度提升至3.2萬token。Anthropic則一舉將其模型的上下文長度擴展到10萬token。LongLLaMA更是將這一數字推高至25.6萬token。
國內也不甘落後。某大模型初創公司推出的智能助手可支持輸入20萬漢字,約合40萬token。另有研究團隊開發的新技術LongLoRA,能將7B模型的文本長度拓展到10萬token。
目前,包括OpenAI、Anthropic、Meta等在內的衆多頂級大模型公司和機構都將拓展上下文長度作爲重點升級方向。這些公司無一例外都備受資本青睞。
那麼,大模型公司爲何如此重視長文本技術?上下文長度擴大100倍意味着什麼?
表面上看,這意味着模型可處理的輸入文本越來越長,閱讀能力越來越強。從最初只能讀懂短文,到現在可以輕鬆理解一本長篇小說。
更深層次看,長文本技術正在推動大模型在金融、法律、科研等專業領域的應用落地。長文檔摘要、閱讀理解、問答等能力是這些領域智能化升級的關鍵。
不過,需要注意的是,支持更長的上下文輸入並不等同於模型效果更好。研究表明,模型對上下文內容的使用才是關鍵。
目前,國內外對文本長度的探索還遠未達到極限。40萬token或許只是一個開始。
爲何要"卷"長文本?
某大模型公司創始人表示,正是由於輸入長度受限,才造成了許多大模型應用落地的困境。這也是衆多公司聚焦長文本技術的原因所在。
例如,在虛擬角色場景中,由於長文本能力不足,虛擬角色會遺忘重要信息。在開發劇本殺類遊戲時,輸入prompt長度不夠,只能削減規則和設定,影響遊戲效果。在法律、金融等專業領域,深度內容分析和生成也常常受挫。
長文本技術在通往未來Agent和AI原生應用的道路上也扮演着重要角色。Agent需要依靠歷史信息進行規劃決策,AI原生應用則需要上下文來保持連貫、個性化的用戶體驗。
該創始人認爲,大模型的上限由單步能力和執行步驟數共同決定。單步能力與參數量相關,而執行步驟數即上下文長度。
長文本技術可以解決大模型早期被詬病的一些問題,增強某些功能,同時也是推進產業應用落地的關鍵技術。這標志着通用大模型發展進入了從LLM到Long LLM的新階段。
某公司新發布的智能助手展示了Long LLM階段大模型的一些升級功能:
這些例子表明,對話機器人正朝着專業化、個性化、深度化方向發展,這或許是撬動產業應用和超級APP落地的新抓手。
不過,目前市面上的長文本對話場景仍有優化空間。如不支持聯網獲取最新信息、無法暫停修改生成過程、偶爾會出現胡說八道等情況。
長文本的"不可能三角"困境
長文本技術面臨文本長短、注意力和算力的"不可能三角"困境:
這主要源於大多數模型基於Transformer結構。其中的自注意力機制使計算量隨上下文長度呈平方級增長。
一些研究表明,過長的上下文會導致相關信息佔比下降,加劇注意力分散。這構成了文本長短與注意力的矛盾。
同時,突破更長的文本技術就不得不消耗更多算力。但在實際部署中,企業端往往無法提供足夠算力支持。這又形成了文本長短與算力的矛盾。
目前主要有三種解決方案:
第一種方案是給模型開"外掛",將長文本切分爲多個短文本處理。
第二種方案是重構自注意力計算方式,如LongLoRA技術將長文本分組計算。
第三種方案專注於模型優化,如LongLLaMA通過微調實現更長序列的外推。
長文本的"不可能三角"困境暫時還無解,但也明確了探索路徑:在文本長短、注意力和算力三者間尋找最佳平衡點,既處理足夠信息,又兼顧注意力計算與算力成本限制。