Большие модели преодолели способность обработки длинного текста в 400000 токенов, что стимулирует новое развитие отраслевых приложений.

robot
Генерация тезисов в процессе

Большие модели с удивительной скоростью преодолевают технологии длинного текста

Способности больших моделей к обработке длинных текстов быстро улучшаются. С первоначальных 4000 токенов до текущих 400000 токенов, рост этой способности можно назвать "на глаз".

Обработка длинных текстов, похоже, стала новым "стандартом" для производителей крупных моделей. За границей OpenAI многократно обновлял GPT-4, увеличив длину контекста до 32 000 токенов. Anthropic же сразу увеличил длину контекста своей модели до 100 000 токенов. LongLLaMA даже поднял эту цифру до 256 000 токенов.

В стране тоже не отстают. Умный помощник, разработанный стартапом с большим модельным подходом, поддерживает ввод 200 000 иероглифов, что соответствует примерно 400 000 токенам. Также исследовательская группа разработала новую технологию LongLoRA, которая может расширить длину текста модели 7B до 100 000 токенов.

В настоящее время многие ведущие компании и организации в области больших моделей, включая OpenAI, Anthropic и Meta, делают акцент на расширении длины контекста как на ключевом направлении обновлений. Эти компании без исключения пользуются большим вниманием со стороны капитала.

Так почему компании, занимающиеся большими моделями, придают такое значение технологиям длинного текста? Что означает увеличение длины контекста в 100 раз?

На первый взгляд, это означает, что модель может обрабатывать все более длинные текстовые входы и обладает все лучшими способностями к чтению. Сначала она могла понимать только короткие тексты, а теперь легко может осваивать целый роман.

С более глубокой точки зрения, технологии длинного текста способствуют внедрению больших моделей в профессиональных областях, таких как финансы, право и научные исследования. Способности к аннотации длинных документов, пониманию текста и вопросам и ответам являются ключевыми для интеллектуального обновления этих областей.

Однако следует отметить, что поддержка более длинного контекстного ввода не равноценна улучшению работы модели. Исследования показывают, что использование контекстного содержания является ключевым.

В настоящее время исследования длины текста как в стране, так и за границей все еще далеки от предела. 400000 токенов, возможно, всего лишь начало.

Зачем "скручивать" длинные тексты?

Основатель одной крупной компании по разработке моделей заявил, что именно из-за ограниченной длины ввода возникли трудности с внедрением многих приложений на базе больших моделей. Это также является причиной, по которой многие компании сосредоточены на технологиях работы с длинными текстами.

Например, в сценах с виртуальными персонажами из-за недостатка способности к обработке длинных текстов виртуальные персонажи могут забывать важную информацию. При разработке игр в жанре "скриптовый убийца" длины ввода подсказок недостаточно, что вынуждает сокращать правила и установки, что влияет на игровой процесс. В таких профессиональных областях, как право и финансы, глубокий анализ и генерация контента также часто сталкиваются с трудностями.

Технология длинных текстов также играет важную роль на пути к будущим приложениям Agent и AI. Agent должен полагаться на историческую информацию для принятия решений и планирования, в то время как AI-приложения требуют контекста для поддержания согласованного и персонализированного пользовательского опыта.

Основатель считает, что пределы больших моделей определяются как одностепенной способностью, так и количеством выполняемых шагов. Одностепенная способность связана с количеством параметров, а количество выполняемых шагов - это длина контекста.

Длинные текстовые технологии могут решить некоторые проблемы, которые ранее критиковали большие модели, улучшить определенные функции и одновременно являются ключевыми технологиями для продвижения применения в промышленности. Это знаменует собой переход к новой фазе развития универсальных больших моделей от LLM к Long LLM.

Новый интеллектуальный помощник, выпущенный некоторой компанией, демонстрирует некоторые обновленные функции модели Long LLM на стадии большого моделирования:

  • Извлечение, обобщение и анализ ключевой информации из сверхдлинного текста
  • Прямое преобразование текста в код, даже возможность воспроизведения процесса генерации кода на основе статьи
  • Реализовать ролевую игру, вести диалог один на один с публичными личностями

Эти примеры показывают, что чат-боты развиваются в направлении специализации, персонализации и глубины, что может стать новым рычагом для внедрения в промышленное применение и реализации суперприложений.

Однако в настоящее время в сценариях длинных текстовых диалогов на рынке все еще есть пространство для оптимизации. Например, отсутствие поддержки подключения к сети для получения последней информации, невозможность приостановить и изменить процесс генерации, а также время от времени возникают случаи бессмысленной болтовни.

Дилемма "невозможного треугольника" длинного текста

Долгосрочные текстовые технологии сталкиваются с трудностями «невозможного треугольника» длины текста, внимания и вычислительной мощности:

  • Чем длиннее текст, тем сложнее сосредоточить достаточное внимание.
  • Ограниченное внимание, короткие тексты трудно полностью интерпретировать сложную информацию
  • Обработка длинных текстов требует значительных вычислительных ресурсов, что увеличивает стоимость

Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. Механизм самовнимания приводит к тому, что вычислительная нагрузка растет в квадрате с увеличением длины контекста.

Некоторые исследования показывают, что слишком длинный контекст приводит к снижению доли релевантной информации и усиливает рассеяние внимания. Это создает противоречие между длиной текста и вниманием.

В то же время, для突破 более длинных текстов необходимо потреблять больше вычислительной мощности. Однако в реальной эксплуатации компании часто не могут предоставить достаточную поддержку вычислительной мощности. Это создает противоречие между длиной текста и вычислительной мощностью.

В настоящее время существует три основных решения:

  1. Используйте внешние инструменты для обработки длинного текста
  2. Оптимизация вычислений механизма самообращения
  3. Общие методы оптимизации модели

Первый вариант заключается в том, чтобы дать модели "читающий модуль", разбивая длинный текст на несколько коротких.

Второй вариант заключается в переработке способа вычисления самовнимания, например, технология LongLoRA группирует длинные тексты для вычислений.

Третий вариант сосредоточен на оптимизации модели, например, LongLLaMA достигает экстраполяции более длинных последовательностей через дообучение.

Долгий текст "треугольника невозможности" пока не имеет решения, но также четко определил путь исследования: найти оптимальный баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации, а также учитывать ограничения вычислительных затрат и внимания.

TOKEN3.63%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Поделиться
комментарий
0/400
UncleWhalevip
· 07-25 17:35
Бык叉 тоже не является долгосрочным решением.
Посмотреть ОригиналОтветить0
ApeShotFirstvip
· 07-24 15:51
gm, 40w токен действительно ape
Посмотреть ОригиналОтветить0
FOMOSapienvip
· 07-23 07:50
400000 токенов сможет покрыть такие большие расходы?
Посмотреть ОригиналОтветить0
SocialFiQueenvip
· 07-22 20:30
Четыреста тысяч токенов - это о чем? За продление нужно будет есть землю.
Посмотреть ОригиналОтветить0
MidnightSellervip
· 07-22 20:30
40w, и действительно довольно умный
Посмотреть ОригиналОтветить0
LiquidityHuntervip
· 07-22 20:25
400000 токенов... Тьфу, вычислительная мощность расходов будет ужасной.
Посмотреть ОригиналОтветить0
NewDAOdreamervip
· 07-22 20:21
токен обновил максимум, прокатимся
Посмотреть ОригиналОтветить0
GovernancePretendervip
· 07-22 20:08
Вычислительная мощность сгорает, но нужно продолжать бороться!
Посмотреть ОригиналОтветить0
PermabullPetevip
· 07-22 20:04
Четыреста тысяч токенов? Прямо возьмите и займитесь торговлей криптовалютой.
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить