DeepSeek: Парадигмальный сдвиг, что это значит для человечества

Deepseek China SecurityФАЙЛ - Приложение DeepSeek на смартфоне видно на экране смартфона в Пекине, 28 января 2025 года. (AP Фото/Энди Вонг, Файл)Авторское право 2025 Ассошиэйтед Пресс. Все права защищеныКит, которым является DeepSeek, был невидим до 20 января 2025 года. Затем Синий Кит появляется на весь мир 20 января. Этот удар вызвал шоковые волны по всему миру.

Выпуск DeepSeek-R1 немедленно обрушил рыночную капитализацию нескольких аппаратных и программных компаний, которые были поддержаны тем, что инвесторы считали американским исключительностью. Удержание последних чипов и интеллектуальной собственности в области ИИ от Китая считалось стратегией, которой нужно следовать. Но это было ошибочно. Именно из этого и складывается возможность обойти конкурентов. Особенно для таких производителей и дизайнеров, как Китай. Иронично, но последние модели от DeepSeek бесплатны для использования. Они даже запускают их на своих серверах бесплатно.

Развитие универсальных больших языковых моделей через увеличение параметров и обучающих данных привело к многим прорывам. Выпуск ChatGPT-3.5 и 4.0 в 2022-23 годах открыл универсальный потенциал ИИ для широкой публики. Этот подход также значительно увеличил затраты, так как требования к вычислениям и данным способствовали созданию более мощных процессоров. В конце 2023 и 2024 года, а также сейчас, строительство энергозатратных дата-центров считалось единственным способом повышения производительности моделей. Ограничение доступа к вычислениям и последним чипам считалось средством сдерживания Китая как источника этих мощных моделей. С помощью DeepSeek эта парадигма была изменена.

Компании, такие как Nvidia, чьи акции сильно пострадали от объявления, с тех пор восстановились и процветают. Уроки были упущены глобальными рынками. Худшее может еще впереди, так как компании, поддерживаемые ростом ИИ и его использованием, будут возвращены на землю в результате сочетания новых методов и уменьшения вычислительных ресурсов, необходимых для обучения и вывода.

Затопленные расходы и расходы на переключение с их собственными мощными экономическими сторонниками мешают долгосрочному взгляду и запирают американский ИИ на их путях. Успех порождает самодовольство и приверженность модели, которая принесла успех. В ИИ, быстро развивающейся области, застревание на алгоритмах, процессах и практике является смертельным. DeepSeek показал, что просто наращивание вычислительных мощностей и данных не приводит к экспоненциальному прогрессу. Это урок из многих областей, который часто игнорируется с помощью слишком употребляемого, но неверного изречения "На этот раз все по-другому." Инновации следуют привычным паттернам; медленно, а затем быстро.

БОЛЬШЕ ДЛЯ ВАС## Эффективность

Затраты на обучение и эксплуатацию DeepSeek значительно ниже, чем у других моделей. Соотношение на недавней презентации показало 6 миллионов долларов для DeepSeek против 600 миллионов долларов для Llama (, открытой модели от Meta). Одна сотая от стоимости. Затраты на другие модели, включая ChatGPT, еще выше. Экономия средств является результатом реализации собственных открытий DeepSeek в области обучения с подкреплением и обучения с использованием дистилляции. Более того, модель очень эффективна в генерации китайского языка. На протяжении последних трех месяцев значительное количество китайских компаний присоединилось к революции ИИ, подписавшись на DeepSeek. В качестве национального чемпиона государственная промышленная политика поддерживает DeepSeek.

RL как метод обучения был изобретен в Университете Амхерста. Лауреаты премии Тьюринга 2024 года, Эндрю Барто и Ричард Саттон, были изобретателями классических техник обучения с подкреплением. Для LLM и других больших моделей такой подход попадает под контролируемое обучение. Модель уточняется с помощью обратной связи, классически от людей, называемой RLHF (Обучение с подкреплением с человеческой обратной связью). Это называется контролируемой донастройкой. Люди являются супервизорами. Статья, выпущенная создателями DeepSeek R1, подробно описывает, каким образом они модифицировали RL.

Все, что связано с людьми в процессе на большом масштабе, требует много денег. Устранение человека из процесса делает обучение дешевле. Одна версия модели используется для тонкой настройки другой. Другими словами, одна модель функционирует как супервизор, а другая обучается. Появление новых компаний с моделями, такими как MiniMax-M1, еще больше подчеркивает этот сдвиг. Такие технологии превзойдут модели, созданные с использованием традиционного масштабирования.

DeepSeek-R1 оказался эффективным благодаря своей эволюции, использующей несколько стратегий. Комбинация новых методов, основанных на существующих техниках, сделала обучение и вывод эффективными по времени и ресурсам. Более подробную информацию можно найти в этой статье. Вкратце, все аспекты создания и работы больших языковых моделей были изменены, улучшены или переработаны для снижения затрат и экономии времени.

МиниМакс-М1

MiniMax-M1 утверждает, что снизил стоимость обучения DeepSeek-R1 на 90%. Они обучали свою модель за 500 тыс. долларов. В отличие от этого, стоимость DeepSeek-R1 составила 6 млн долларов, а LLaMa – 600 млн долларов. Существуют сомнения в цифрах, опубликованных как DeepSeek, так и MiniMax.

Эффективность была улучшена за счет дальнейшей доработки RL с использованием так называемого lightning attention. Это в основном касается детерминистских задач, таких как математическое и логическое рассуждение, а также задач с длинным контекстом, таких как кодирование. Minimax также доступен через HuggingFace, хост открытых ИИ.

Конфиденциальность

Существует беспокойство о том, что DeepSeek собирает личные данные для собственного использования. Это явление широко распространено в мире ИИ и социальных сетей в целом. То, что делает обмен личными данными с DeepSeek или другими частными компаниями таким проблематичным, это тот факт, что они будут использоваться для улучшения моделей. В случае с DeepSeek или другими компаниями, основанными в Китае, существует страх, что данные могут попасть к китайскому правительству. Частные ИИ-компании, даже те, что находятся в Соединенных Штатах, делают то же самое, за исключением того, что они будут делиться этими данными с правительством США, если их заставит закон. На данном этапе такой сценарий вызывает большее беспокойство. Четвертая поправка будет проигнорирована, если правительство сможет обыскивать не только наши личности и наши дома, но и наши умы без ордера.

Чтобы узнать больше о рисках DeepSeek, прочитайте этот анализ от Hidden Layer. Поскольку бизнес-модель Hidden Layer основана на таких анализах, лучше всего внимательно изучить анализ и сравнить с их работой над другими открытыми моделями.

Открытые AI модели

Open Source International (OSI) имеет определение Open Source AI. На данный момент это 1.0, подлежит пересмотру. Как и определение Open Source для программного обеспечения, оно позволяет пользователям использовать, наблюдать, изменять и распространять без каких-либо ограничений. Модели ИИ сильно зависят от их обучающих данных. Использование ИИ включает в себя вывод, потребление ресурсов. Расходы на обучение отделены от расходов на вывод. В классическом определении программного обеспечения с открытым исходным кодом исходный код доступен любому пользователю для использования, наблюдения, изменения и распространения. В строгой интерпретации открытого исходного кода ИИ исходный код должен включать данные, использованные для обучения модели. Однако это может быть непрактично, и это не является частью определения OSI Open Source AI.

Это кардинально отличается от рекомендаций OSI для программного обеспечения с открытым исходным кодом. Другим отличием является наблюдаемость весов модели и гиперпараметров. Во время фазы обучения веса модели уточняются. Веса модели воплощают модель в её текущей форме, кристаллизуя все обучение, которое модель прошла. Гиперпараметры контролируют начальную конфигурацию учебной установки. В открытой модели веса модели и параметры модели должны быть открытыми.

Модели ИИ с открытым исходным кодом могут называться моделями с открытыми весами. Многие модели из Китая являются моделями с открытыми весами, включая Qwen (От AliBababa). Этот конкурс также заставил OpenAI выпустить модель с открытыми весами. Это базовая модель gpt-oss с двумя вариантами.

Будущее

Мы еще не углублялись в технологии, стоящие за созданием мультимодальных подсказок и мультимодальной генерации. Под мультимодальным мы понимаем не только текст, но и изображения, аудио, а также видео. MiniMax и DeepSeek обладают этими возможностями. Очевидно, что ограничение доступа к аппаратному обеспечению и знаниям не может остановить истинные инновации. Такие ограничения также приводят к множественным парадигмальным сменам, делая разработку ИИ более дешевой с меньшими аппаратными и энергетическими ресурсами, создавая демократизированное и децентрализованное будущее, где мы могли бы донастраивать и запускать модели на товарном оборудовании. Эти разработки вселяют надежду на то, что мы сможем контролировать и направлять эти возможности на помощь человечеству, а не на вред себе.

H3.22%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить