Великі моделі здатні обробляти текстові документи обсягом понад 400 000 токенів, що сприяє новому розвитку галузевих застосувань.

robot
Генерація анотацій у процесі

Великі моделі прориваються в технології довгих текстів з вражаючою швидкістю

Здатність великих моделей до обробки довгих текстів стрімко зростає. Від початкових 4000 токенів до теперішніх 400000 токенів, зростання цієї здатності можна назвати "наочним".

Обробка довгих текстів, здається, стала новим "стандартом" для виробників великих моделей. За кордоном OpenAI кілька разів оновлював GPT-4, збільшивши довжину контексту до 32 тисяч токенів. Anthropic в один момент розширив довжину контексту своєї моделі до 100 тисяч токенів. LongLLaMA навіть підвищив це число до 256 тисяч токенів.

В країні також не відстають. Один стартап, що працює над великими моделями, представив інтелектуального помічника, який може підтримувати введення 200 000 ієрогліфів, що відповідає приблизно 400 000 токенів. Інша дослідницька команда розробила нову технологію LongLoRA, яка може розширити довжину тексту 7B моделі до 100 000 токенів.

Наразі численні провідні компанії та установи з великими моделями, включаючи OpenAI, Anthropic, Meta та інші, зосереджують увагу на розширенні довжини контексту як на ключовому напрямку оновлення. Ці компанії без винятку користуються великою прихильністю з боку капіталу.

Отже, чому компанії з великими моделями приділяють таку увагу технології довгих текстів? Що означає розширення довжини контексту в 100 разів?

На перший погляд, це означає, що модель може обробляти все довші вхідні тексти та має все кращі навички читання. Від початкової здатності розуміти лише короткі тексти до теперішньої здатності легко розуміти цілу повість.

Глибше дивлячись, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, юридичній, науковій та інших професійних сферах. Здатності до підсумовування довгих документів, розуміння прочитаного, відповіді на запитання є ключовими для інтелектуального оновлення в цих сферах.

Проте слід зазначити, що підтримка довшого контекстного вводу не є рівнозначною кращим результатам моделі. Дослідження показують, що використання моделі контекстного змісту є ключовим.

Наразі дослідження довжини тексту в Україні та за кордоном ще далеко досягли межі. 400 тисяч токенів, можливо, лише початок.

Чому потрібно "скручувати" довгі тексти?

Засновник однієї великої компанії з моделювання заявив, що саме через обмеження довжини вводу виникають труднощі впровадження багатьох великих моделей. Це також причина, чому багато компаній зосереджуються на технологіях роботи з довгими текстами.

Наприклад, у сценах віртуальних персонажів, через недостатню здатність до обробки довгих текстів, віртуальні персонажі забувають важливу інформацію. При розробці ігор жанру «сценарний детектив», якщо довжини запиту недостатньо, доводиться скорочувати правила та налаштування, що впливає на якість гри. У професійних сферах, таких як право або фінанси, глибокий аналіз та генерація контенту також часто стикаються з труднощами.

Технологія довгих текстів також відіграє важливу роль на шляху до майбутніх додатків Agent та AI. Agent потребує історичної інформації для прийняття рішень, тоді як AI-додатки потребують контексту для підтримки цілісного та персоналізованого користувацького досвіду.

Цей засновник вважає, що межа великої моделі визначається здатністю до одного кроку та кількістю виконавчих кроків. Здатність до одного кроку пов'язана з кількістю параметрів, а кількість виконавчих кроків – це довжина контексту.

Технології довгих текстів можуть вирішити деякі проблеми, які раніше критикували великі моделі, посилити певні функції, а також є ключовими технологіями для впровадження промислових застосувань. Це означає, що розвиток універсальних великих моделей вступає в нову стадію від LLM до Long LLM.

Новий розумний помічник, випущений певною компанією, продемонстрував деякі вдосконалені функції великої моделі Long LLM.

  • Витягнення, підсумовування та аналіз ключової інформації з наддовгих текстів
  • Пряме перетворення тексту в код, навіть можливість відтворення процесу генерації коду на основі статті
  • Реалізуйте рольову гру, спілкуючись один на один з публічними особами

Ці приклади свідчать про те, що діалогові роботи розвиваються в напрямку спеціалізації, індивідуалізації та поглиблення, що, можливо, стане новим важелем для впровадження промислових застосувань та супер-додатків.

Проте, на сьогоднішній день у довгих текстових діалогах все ще є простір для оптимізації. Наприклад, відсутність підтримки підключення до Інтернету для отримання останньої інформації, неможливість призупинити та змінити процес генерації, а також випадкові випадки безглуздих висловлювань.

Дилема "неможливого трикутника" довгих текстів

Технології довгих текстів стикаються з "неможливим трикутником": довжина тексту, увага та обчислювальна потужність.

  • Чим довший текст, тим важче зосередити достатню увагу
  • Обмежена увага, короткі тексти важко повністю інтерпретувати складну інформацію
  • Обробка довгих текстів потребує значних обчислювальних потужностей, що підвищує витрати

В основному це пов'язано з тим, що в основі більшості моделей лежать конструкції трансформерів. Механізм самоуваги призводить до того, що кількість обчислень зростає квадратно зі збільшенням довжини контексту.

Деякі дослідження показують, що занадто довгий контекст може призвести до зниження частки релевантної інформації, що посилює розподіл уваги. Це створює суперечність між довжиною тексту та увагою.

Водночас, для досягнення технології обробки довших текстів необхідно буде витратити більше обчислювальної потужності. Але в реальних умовах, підприємства часто не можуть надати достатню підтримку в обчислювальній потужності. Це створює протиріччя між довжиною тексту та обчислювальною потужністю.

В даний час існує три основних рішення:

  1. Використання зовнішніх інструментів для обробки довгих текстів
  2. Оптимізація обчислення механізму самостійної уваги
  3. Загальні методи оптимізації моделей

Перший варіант - це надати моделі "чіт", розділивши довгі тексти на кілька коротких для обробки.

Другий варіант полягає у реконструкції способу обчислення самостійної уваги, наприклад, технологія LongLoRA групує довгі тексти для обчислень.

Третій варіант зосереджується на оптимізації моделі, наприклад, LongLLaMA досягає екстраполяції довших послідовностей через доопрацювання.

Довгий текст "неможливого трикутника" поки що не має розв'язку, але чітко визначено шлях дослідження: знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, одночасно обробляючи достатньо інформації та враховуючи обмеження обчислювальної вартості.

TOKEN2.7%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • Поділіться
Прокоментувати
0/400
UncleWhalevip
· 07-25 17:35
бик叉 також не є довготривалим планом
Переглянути оригіналвідповісти на0
ApeShotFirstvip
· 07-24 15:51
gm,40w токен дійсно ape
Переглянути оригіналвідповісти на0
FOMOSapienvip
· 07-23 07:50
400 тисяч токенів зможе покрити такі великі витрати?
Переглянути оригіналвідповісти на0
SocialFiQueenvip
· 07-22 20:30
Чотириста тисяч токенів – це що? Для продовження підписки доведеться їсти землю.
Переглянути оригіналвідповісти на0
MidnightSellervip
· 07-22 20:30
40w, та й справді досить розумний
Переглянути оригіналвідповісти на0
LiquidityHuntervip
· 07-22 20:25
400 тисяч токенів... Тс-тс, Обчислювальна потужність буде жахливою.
Переглянути оригіналвідповісти на0
NewDAOdreamervip
· 07-22 20:21
токен досяг нового рекорду, підіймемося
Переглянути оригіналвідповісти на0
GovernancePretendervip
· 07-22 20:08
Обчислювальна потужність горить, але потрібно продовжувати боротьбу!
Переглянути оригіналвідповісти на0
PermabullPetevip
· 07-22 20:04
Чотириста тисяч токенів? Прямо візьміть і торгуйте криптовалютою.
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріпити