Мережа відіграє ключову роль в епоху великих моделей ШІ
У епоху великих моделей прискорюється ітерація мережевих пристроїв, таких як оптичні модулі та комутатори, і виникає бум попиту. У цій статті з принципів обговорюється, чому мережа стала важливою складовою епохи ШІ, а також обговорюються можливості інновацій та інвестицій у мережевому сегменті в майбутньому.
Джерела мережевих вимог
Розрив між обсягом моделі та максимальними можливостями однієї карти збільшується, переходячи до навчання на багатьох серверах, що формує базу важливості мережі.
Мережа більше використовується для синхронізації параметрів моделі між відеокартами, підвищуючи вимоги до щільності та ємності.
Час тренування = обсяг даних x кількість параметрів / швидкість обчислень. Швидкість обчислень = швидкість одного пристрою x кількість пристроїв x ефективність паралелізму. Збільшення кількості пристроїв та ефективності паралелізму стає ключовим.
Складна синхронізація декількох карт: після кожного обчислення потрібно вирівнювати, операції All-to-All є поширеними, високі вимоги до передачі та обміну.
Високі витрати на відмови: навчання триває кілька місяців, при перервах потрібно повертатися до точки зупинки для повторного навчання, стабільність мережі є надзвичайно важливою.
Напрямки мережевих інновацій
Комунікаційні засоби: оновлення оптичних, мідних та кремнієвих матеріалів, розвиток технологій зниження витрат, таких як LPO, LRO, кремнієва оптика тощо.
Мережеві протоколи: конкуренція між протоколами зв'язку між сегментами та між вузлами.
Мережева архітектура: еволюція архітектури Leaf Spine до нових архітектур, таких як Dragonfly, rail-only тощо.
Інвестиційні поради
Основна ланка системи зв'язку: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.
Інновації в системах зв'язку: YOFC, Tetherlight, Yuanjie Technology, Centec Communications-U, Cambrian, Taclink.
Попередження про ризики
Попит на ІІ не виправдав очікувань
Закон масштабу втратив силу
Посилення конкуренції в галузі
Розуміння важливості мережі
Важливість комунікації в епоху ШІ проявляється в:
Кількість графічних карт і ефективність з'єднання визначають час навчання, час є ключовим конкурентним ресурсом.
Після кожного обчислення на кожному шарі під час навчання необхідно вирівнювати параметри, що висуває надзвичайно високі вимоги до мережі.
Витрати на мережеві збої високі, перерви можуть серйозно вплинути на ефективність навчання та витрати.
Масштаб кластера досягає десятків тисяч, кількість підключених компонентів - сотні тисяч, вимоги до стабільності системи високі.
Розуміння напрямків інновацій в мережі
Зниження витрат, відкритість і баланс масштабів обчислювальної потужності є основними темами.
Інновації в комунікаційних середовищах: прогрес у світлових, мідних, кремнієвих середовищах, нові технології LPO, LRO, кремнієва оптика тощо.
Інновації комунікаційного протоколу: внутрішній (, як NVLINK ), і міжвузловий (, який конкурує з протоколом IB та Ethernet ).
Оновлення мережевої архітектури: еволюція архітектури Leaf-Spine до нових архітектур, таких як Dragonfly, Rail-only тощо.
Від хмарних обчислень до епохи ШІ, зростає важливість комунікацій
Вибуховий попит на мережеві з'єднання з боку ШІ, масштаб параметрів розширюється, внаслідок чого одна карта не може витримати.
Час тренування = обсяг даних x кількість параметрів / швидкість обчислень, накопичення обчислювальної потужності стає ключовим.
Швидкість обчислення = швидкість одного пристрою x кількість пристроїв x ефективність паралелізму, кількість пристроїв і ефективність паралелізму стають однаково важливими.
Мережа стала ключовою для збільшення кількості пристроїв і паралельної ефективності, придбання Mellanox компанією NVIDIA є прикладом цього.
Співпраця кількох карт у навчанні великих моделей
Паралельність даних: зберігайте повну модель на кожному GPU, розділіть дані для навчання.
Модельне паралелізування: розподіл моделі на різні графічні процесори, включаючи тензорне паралелізування та конвеєрне паралелізування.
Багатовимірне змішане паралельне: поєднання кількох паралельних методів, поділ на кілька етапів для навчання.
Усі паралельні способи повинні синхронізувати параметри, що ставить різні вимоги до мережі.
Основний компонент багатокарткової взаємозв'язку: точність синхронізації
Зворотне мовлення для вирівнювання параметрів, затримка All-to-All є ключовим показником.
Синхронізація включає синхронне паралельне, асинхронне паралельне, All-Reduce тощо.
Алгоритми оптимізації, такі як Ring All-Reduce, можуть знизити пропускну здатність та затримку.
Потрібна підтримка мережевого обладнання, такого як NVLink, IB-протокол тощо.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
20 лайків
Нагородити
20
6
Поділіться
Прокоментувати
0/400
LiquidityOracle
· 07-23 17:49
Мережева карта знову заробить багато грошей!
Переглянути оригіналвідповісти на0
ValidatorVibes
· 07-23 12:27
децентралізовані мережеві вузькі місця... як і з eth2.0 знову, чесно кажучи
Переглянути оригіналвідповісти на0
TokenVelocityTrauma
· 07-21 02:49
Світловий модуль справді класний, заробив на ньому багато.
В епоху великих моделей ШІ попит на мережеве обладнання вибухає. Розгляд майбутніх інновацій та інвестиційних можливостей.
Мережа відіграє ключову роль в епоху великих моделей ШІ
У епоху великих моделей прискорюється ітерація мережевих пристроїв, таких як оптичні модулі та комутатори, і виникає бум попиту. У цій статті з принципів обговорюється, чому мережа стала важливою складовою епохи ШІ, а також обговорюються можливості інновацій та інвестицій у мережевому сегменті в майбутньому.
Джерела мережевих вимог
Розрив між обсягом моделі та максимальними можливостями однієї карти збільшується, переходячи до навчання на багатьох серверах, що формує базу важливості мережі.
Мережа більше використовується для синхронізації параметрів моделі між відеокартами, підвищуючи вимоги до щільності та ємності.
Час тренування = обсяг даних x кількість параметрів / швидкість обчислень. Швидкість обчислень = швидкість одного пристрою x кількість пристроїв x ефективність паралелізму. Збільшення кількості пристроїв та ефективності паралелізму стає ключовим.
Складна синхронізація декількох карт: після кожного обчислення потрібно вирівнювати, операції All-to-All є поширеними, високі вимоги до передачі та обміну.
Високі витрати на відмови: навчання триває кілька місяців, при перервах потрібно повертатися до точки зупинки для повторного навчання, стабільність мережі є надзвичайно важливою.
Напрямки мережевих інновацій
Комунікаційні засоби: оновлення оптичних, мідних та кремнієвих матеріалів, розвиток технологій зниження витрат, таких як LPO, LRO, кремнієва оптика тощо.
Мережеві протоколи: конкуренція між протоколами зв'язку між сегментами та між вузлами.
Мережева архітектура: еволюція архітектури Leaf Spine до нових архітектур, таких як Dragonfly, rail-only тощо.
Інвестиційні поради
Основна ланка системи зв'язку: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.
Інновації в системах зв'язку: YOFC, Tetherlight, Yuanjie Technology, Centec Communications-U, Cambrian, Taclink.
Попередження про ризики
Розуміння важливості мережі
Важливість комунікації в епоху ШІ проявляється в:
Кількість графічних карт і ефективність з'єднання визначають час навчання, час є ключовим конкурентним ресурсом.
Після кожного обчислення на кожному шарі під час навчання необхідно вирівнювати параметри, що висуває надзвичайно високі вимоги до мережі.
Витрати на мережеві збої високі, перерви можуть серйозно вплинути на ефективність навчання та витрати.
Масштаб кластера досягає десятків тисяч, кількість підключених компонентів - сотні тисяч, вимоги до стабільності системи високі.
Розуміння напрямків інновацій в мережі
Зниження витрат, відкритість і баланс масштабів обчислювальної потужності є основними темами.
Інновації в комунікаційних середовищах: прогрес у світлових, мідних, кремнієвих середовищах, нові технології LPO, LRO, кремнієва оптика тощо.
Інновації комунікаційного протоколу: внутрішній (, як NVLINK ), і міжвузловий (, який конкурує з протоколом IB та Ethernet ).
Оновлення мережевої архітектури: еволюція архітектури Leaf-Spine до нових архітектур, таких як Dragonfly, Rail-only тощо.
Від хмарних обчислень до епохи ШІ, зростає важливість комунікацій
Вибуховий попит на мережеві з'єднання з боку ШІ, масштаб параметрів розширюється, внаслідок чого одна карта не може витримати.
Час тренування = обсяг даних x кількість параметрів / швидкість обчислень, накопичення обчислювальної потужності стає ключовим.
Швидкість обчислення = швидкість одного пристрою x кількість пристроїв x ефективність паралелізму, кількість пристроїв і ефективність паралелізму стають однаково важливими.
Мережа стала ключовою для збільшення кількості пристроїв і паралельної ефективності, придбання Mellanox компанією NVIDIA є прикладом цього.
Співпраця кількох карт у навчанні великих моделей
Паралельність даних: зберігайте повну модель на кожному GPU, розділіть дані для навчання.
Модельне паралелізування: розподіл моделі на різні графічні процесори, включаючи тензорне паралелізування та конвеєрне паралелізування.
Багатовимірне змішане паралельне: поєднання кількох паралельних методів, поділ на кілька етапів для навчання.
Усі паралельні способи повинні синхронізувати параметри, що ставить різні вимоги до мережі.
Основний компонент багатокарткової взаємозв'язку: точність синхронізації
Зворотне мовлення для вирівнювання параметрів, затримка All-to-All є ключовим показником.
Синхронізація включає синхронне паралельне, асинхронне паралельне, All-Reduce тощо.
Алгоритми оптимізації, такі як Ring All-Reduce, можуть знизити пропускну здатність та затримку.
Потрібна підтримка мережевого обладнання, такого як NVLink, IB-протокол тощо.
Системна інженерія: моніторинг - підсумок - інноваційна ітерація
Потрібно в режимі реального часу моніторити потік даних та оперативну ситуацію.
Програмне та апаратне перехоплення є основними засобами моніторингу, такими як Wireshark та ін.
Технології послідовного та паралельного з'єднання апаратних засобів, такі як DPI/DFI, можуть забезпечити безвідмовний моніторинг.
Постійно оптимізувати стабільність і ефективність системи на основі результатів моніторингу.
Конкуренція та ітерація комунікаційних протоколів
Внутрішня комунікація вузла: PCIe, NVLink, Infinity Fabric тощо.
Зв'язок між вузлами: InfiniBand проти родини протоколів RoCE Ethernet.
RDMA стає невід'ємною вимогою для підключення AI-кластерів.
Протокол IB від NVIDIA проти суперетерового альянсу під керівництвом AMD.
Інноваційні напрямки мережевого обладнання
Середовище передачі: боротьба між світлом, міддю та кремнієм, співвідношення ціни та якості та стабільність є ключовими.
Комутатори: зростання оптичних комутаторів, інновації в чіпах електричних комутаторів.
Мережева архітектура: розвиток архітектури Leaf Spine до Dragonfly, Rail-only тощо.
Кластер дата-центрів: міждатацентричне з'єднання стає новою фокусною точкою.
Інвестиційні пропозиції
Зосередьтеся на базовому апаратному забезпеченні, такому як комутатори та оптичні модулі.
Відстеження можливостей, що виникають завдяки новим технологіям, таким як LPO, CPO, спеціальні оптичні волокна тощо.
Зосередьте увагу на можливостях прискорення еволюції вітчизняних комутаторів.
Попередження про ризики