A explosão da demanda por dispositivos de rede na era dos grandes modelos de IA: explorando oportunidades de inovação e investimento no futuro.

A rede desempenha um papel crucial na era dos grandes modelos de IA

Na era dos grandes modelos, a iteração de dispositivos de rede como módulos de luz e switches acelera, e a demanda explode. Este artigo parte dos princípios para explorar por que as redes se tornaram uma parte importante da era da IA, e discute as inovações e oportunidades de investimento no lado da rede no futuro.

Fonte de Demanda da Rede

  1. A diferença entre o volume do modelo e o limite de uma única placa está a aumentar, direcionando-se para o treinamento em clusters de múltiplos servidores, formando a base da importância da rede.

  2. A rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, aumentando os requisitos de densidade e capacidade.

  3. O tempo de treinamento = escala de dados x número de parâmetros / taxa de cálculo. Taxa de cálculo = taxa por dispositivo x número de dispositivos x eficiência paralela. Aumentar o número de dispositivos e a eficiência paralela torna-se crucial.

  4. Sincronização de múltiplas placas é complexa: cada cálculo precisa ser alinhado, operações All-to-All são comuns, exigindo alta capacidade de transmissão e troca.

  5. Custo de falha elevado: o treinamento dura meses, interrupções exigem retornar ao ponto de interrupção para re-treinar, a estabilidade da rede é crucial.

Direção de Inovação em Rede

  1. Meios de comunicação: atualização de meios ópticos, de cobre e de silício, desenvolvimento de tecnologias de redução de custos como LPO, LRO, silício óptico, etc.

  2. Protocolo de rede: competição entre protocolos de comunicação entre segmentos e protocolos de comunicação entre nós.

  3. Arquitetura de rede: A arquitetura Leaf-Spine evolui para novas arquiteturas como Dragonfly, rail-only, entre outras.

Sugestões de investimento

Elementos centrais do sistema de comunicação: Zhongji Xuchuang, New易盛, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.

Inovação em sistemas de comunicação: Chongfu Fiber, Taichengguang, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekeli.

Aviso de Risco

  1. A demanda por IA não atendeu às expectativas
  2. Lei de escalabilidade falhou
  3. A concorrência na indústria aumenta

Reconhecimento da Importância da Rede

A importância da comunicação na era da IA reflete-se em:

  1. O número de placas gráficas e a eficiência de conexão determinam o tempo de treinamento, e o tempo é um recurso chave na competição.

  2. Após cada operação em cada camada durante o treinamento, é necessário alinhar os parâmetros, o que exige muito da rede.

  3. O custo das falhas de rede é elevado, e as interrupções podem afetar gravemente a eficiência e o custo do treinamento.

  4. A escala do cluster atinge dezenas de milhares de cartões, com centenas de milhares de componentes conectados, exigindo alta estabilidade do sistema.

Reconhecimento da Direção da Inovação na Rede

  1. Reduzir custos, abertura e equilíbrio da escala de capacidade de computação são os principais tópicos.

  2. Inovação nos meios de comunicação: progresso em meios de luz, cobre e silício, novas tecnologias como LPO, LRO e silício fotônico.

  3. Inovação nos protocolos de comunicação: competição entre ( como NVLINK) dentro dos nós e ( IB vs Ethernet) entre os nós.

  4. Atualização da arquitetura de rede: A arquitetura Leaf-Spine evolui para novas arquiteturas como Dragonfly e Rail-only.

Da computação em nuvem à era da IA, a importância da comunicação aumentou

  1. A explosão da demanda de conexão de rede para IA e a expansão da escala de parâmetros levaram a um único cartão a não conseguir suportar.

  2. O tempo de treinamento = tamanho dos dados x quantidade de parâmetros / taxa de cálculo, a empilhamento de poder computacional torna-se a chave.

  3. Taxa de cálculo = taxa por dispositivo x número de dispositivos x eficiência paralela, o número de dispositivos e a eficiência paralela tornam-se igualmente importantes.

  4. A rede tornou-se a chave para aumentar o número de dispositivos e a eficiência paralela, a aquisição da Mellanox pela Nvidia é uma consideração para isso.

Colaboração multi-gpu no treinamento de grandes modelos

  1. Paralelismo de dados: cada GPU mantém o modelo completo, dividindo os dados para treinamento.

  2. Paralelismo de modelo: dividir o modelo em diferentes GPUs, incluindo paralelismo de tensor e paralelismo em pipeline.

  3. Hibridização multidimensional em paralelo: combina várias formas de paralelismo, dividindo vários Estágios para treinamento.

  4. Todas as formas de paralelismo exigem sincronização de parâmetros, apresentando diferentes exigências para a rede.

Núcleo de Interconexão Multicartão: Taxa de Sincronização Precisa

  1. A transmissão reversa realiza o alinhamento de parâmetros, a latência All-to-All é um indicador chave.

  2. Os métodos de sincronização incluem sincronização paralela, sincronização assíncrona, All-Reduce, entre outros.

  3. Algoritmos de otimização como Ring All-Reduce podem reduzir a largura de banda e a latência.

  4. Necessita de suporte de hardware de rede, como NVLink, protocolos IB, etc.

Engenharia de Sistemas: Monitorização - Resumo - Inovação Iterativa

  1. É necessário monitorizar em tempo real o fluxo de dados e a situação operacional.

  2. A captura de pacotes de hardware e software é o principal meio de monitorização, como o Wireshark, entre outros.

  3. As tecnologias de serialização e paralelização de hardware como DPI/DFI podem realizar monitoramento sem perdas.

  4. Otimizar continuamente a estabilidade e a eficiência do sistema com base nos resultados da monitorização.

Competição e iteração de protocolos de comunicação

  1. Comunicação entre nós: PCIe, NVLink, Infinity Fabric, etc.

  2. Comunicação entre nós: InfiniBand vs o conjunto de protocolos RoCE Ethernet.

  3. RDMA tornou-se uma necessidade essencial para a conexão de clusters de IA.

  4. Protocolo IB da Nvidia vs Aliança Ultra Ethernet liderada pela AMD.

Inovação em hardware de rede

  1. Meios de transmissão: a competição entre luz, cobre e silício, custo-benefício e estabilidade são fundamentais.

  2. Switch: A ascensão dos switches ópticos e a inovação dos chips de switches elétricos.

  3. Arquitetura de rede: A arquitetura Leaf-Spine evolui para Dragonfly, Rail-only e outros.

  4. Cluster de Data Centers: A interconexão entre data centers torna-se um novo foco.

Sugestões de Investimento

  1. Focar em hardware básico como switches, módulos ópticos, etc.

  2. Acompanhar as oportunidades trazidas por novas tecnologias como LPO, CPO e fibras ópticas especiais.

  3. Focar nas oportunidades de evolução acelerada dos switches nacionais.

Aviso de Risco

  1. A demanda por IA não atendeu às expectativas
  2. A lei de escalonamento falhou
  3. A concorrência na indústria aumenta
ETH-5.03%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • Partilhar
Comentar
0/400
LiquidityOraclevip
· 07-23 17:49
A placa de rede vai fazer um grande lucro novamente.
Ver originalResponder0
ValidatorVibesvip
· 07-23 12:27
gargalos de rede descentralizada... assim como o eth2.0 tudo de novo, para ser honesto
Ver originalResponder0
TokenVelocityTraumavip
· 07-21 02:49
O módulo de luz é realmente bom, ganhei muito.
Ver originalResponder0
AirdropF5Brovip
· 07-21 02:49
Qualquer ação, Tudo em módulo óptico!
Ver originalResponder0
SingleForYearsvip
· 07-21 02:39
Quando é que vou conseguir ganhar dinheiro?
Ver originalResponder0
SneakyFlashloanvip
· 07-21 02:26
Os chips devem ser comprados da NVIDIA
Ver originalResponder0
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)