L'explosion de la demande d'équipements réseau à l'ère des grands modèles d'IA : Exploration des opportunités d'innovation et d'investissement futures.
Le réseau joue un rôle clé à l'ère des grands modèles d'IA
À l'ère des grands modèles, l'itération des équipements réseau tels que les modules optiques et les commutateurs s'accélère, la demande explose. Cet article part des principes pour explorer pourquoi le réseau est devenu un maillon essentiel de l'ère de l'IA, et discute des opportunités d'innovation et d'investissement futures du côté du réseau.
Source de la demande réseau
L'écart entre le volume du modèle et la limite d'une seule carte s'élargit, se dirigeant vers un entraînement multi-serveurs en grappe, constituant la base de l'importance du réseau.
Le réseau est davantage utilisé pour synchroniser les paramètres du modèle entre les cartes graphiques, ce qui augmente les exigences en matière de densité et de capacité.
Temps d'entraînement = taille des données x nombre de paramètres / taux de calcul. Taux de calcul = taux par appareil x nombre d'appareils x efficacité parallèle. Augmenter le nombre d'appareils et l'efficacité parallèle devient essentiel.
Synchronisation multiple cartes complexe : chaque fois après le calcul, il faut aligner, l'opération All-to-All est courante, exige des exigences élevées en matière de transmission et d'échange.
Coût de défaillance élevé : l'entraînement dure plusieurs mois, une interruption nécessite de revenir au point d'arrêt pour réentraîner, la stabilité du réseau est essentielle.
Direction de l'innovation Internet
Support de communication : mise à jour des supports en lumière, cuivre et silicium, développement des technologies de réduction des coûts telles que LPO, LRO et silicium-photonique.
Protocoles réseau : concurrence entre les protocoles de communication entre les segments et entre les nœuds.
Architecture du réseau : l'architecture Leaf Spine évolue vers de nouvelles architectures comme Dragonfly, rail-only, etc.
Conseils d'investissement
Éléments clés du système de communication : Zhongji Xuchuang, NewEase, Tianfu Communication, Industrial Fulian, Invec, HuDian Co.
Innovations dans les systèmes de communication : Changfei Optical Fiber, Taicheng Guang, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekoli.
Avertissement de risque
La demande en IA est inférieure aux attentes
La loi d'échelle échoue
Intensification de la concurrence dans l'industrie
Importance de la reconnaissance du réseau
L'importance de la communication à l'ère de l'IA se manifeste par :
Le nombre de cartes graphiques et l'efficacité de connexion déterminent le temps d'entraînement, le temps étant une ressource clé dans la compétition.
Après chaque opération dans l'entraînement, il est nécessaire d'aligner les paramètres, ce qui impose des exigences très élevées au réseau.
Le coût des pannes réseau est élevé, les interruptions peuvent gravement affecter l'efficacité et le coût de l'entraînement.
L'échelle du cluster atteint dix mille cartes, avec des centaines de milliers de composants connectés, et les exigences de stabilité du système sont élevées.
Compréhension des directions d'innovation réseau
Réduction des coûts, ouverture et équilibre de l'échelle de calcul sont les principaux sujets.
Innovation des supports de communication : progrès des supports en lumière, en cuivre et en silicium, nouvelles technologies telles que LPO, LRO, et la photonique au silicium.
Innovation des protocoles de communication : compétition entre les protocoles NVLINK( et IB entre les nœuds et Ethernet) au sein des nœuds.
Mise à jour de l'architecture réseau : l'architecture Leaf-Spine évolue vers de nouvelles architectures telles que Dragonfly, Rail-only, etc.
De l'informatique en nuage à l'ère de l'IA, l'importance des communications s'accroît
L'explosion de la demande de connexion réseau pour l'IA et l'expansion de l'échelle des paramètres entraînent une incapacité des cartes uniques à supporter.
Temps d'entraînement = taille des données x nombre de paramètres / vitesse de calcul, la puissance de calcul empilée devient essentielle.
Taux de calcul = taux d'un appareil x nombre d'appareils x efficacité parallèle, le nombre d'appareils et l'efficacité parallèle deviennent également importants.
Le réseau devient la clé pour augmenter le nombre d'appareils et l'efficacité parallèle, l'acquisition de Mellanox par Nvidia en est un exemple.
Coopération multi-cartes dans l'entraînement de grands modèles
Parallélisme des données : chaque GPU conserve le modèle complet et divise les données pour l'entraînement.
Parallélisme de modèle : diviser le modèle sur différents GPU, y compris le parallélisme de tenseurs et le parallélisme en pipeline.
Parallélisme hybride multidimensionnel : combiner plusieurs méthodes de parallélisme et diviser en plusieurs étapes pour l'entraînement.
Divers modes parallèles nécessitent une synchronisation des paramètres, ce qui impose différentes exigences au réseau.
Noyau de connexion multi-cartes : précision de synchronisation
L'alignement des paramètres par diffusion inversée, le délai All-to-All est un indicateur clé.
Les méthodes de synchronisation comprennent la synchronisation parallèle, la synchronisation asynchrone, All-Reduce, etc.
Les algorithmes d'optimisation tels que Ring All-Reduce peuvent réduire la bande passante et la latence.
Besoin d'un support matériel réseau, comme NVLink, protocole IB, etc.
Ingénierie des systèmes : Surveillance - Résumé - Itération de l'innovation
Il est nécessaire de surveiller en temps réel le flux de données et la situation opérationnelle.
La capture de paquets matériel et logiciel est le principal moyen de surveillance, comme Wireshark, etc.
Les technologies de connexion série et parallèle telles que DPI/DFI peuvent réaliser une surveillance sans perte.
Optimiser en permanence la stabilité et l'efficacité du système en fonction des résultats de surveillance.
Compétition et itération des protocoles de communication
Communication intra-nœud : PCIe, NVLink, Infinity Fabric, etc.
Communication entre nœuds : InfiniBand vs famille de protocoles Ethernet RoCE.
RDMA est devenu une nécessité pour la connexion des clusters AI.
Protocole IB d'NVIDIA vs Alliance Ultra Ethernet dirigée par AMD.
Direction d'innovation en matériel réseau
Supports de transmission : la compétition entre la lumière, le cuivre et le silicium, le rapport qualité-prix et la stabilité sont essentiels.
Commutateur : émergence des commutateurs optiques, innovation des puces de commutation électrique.
Architecture réseau : l'architecture en feuille évolue vers Dragonfly, Rail-only, etc.
Cluster de centres de données : l'interconnexion entre centres de données devient un nouveau point focal.
Conseils d'investissement
Se concentrer sur les équipements de base tels que les commutateurs et les modules optiques.
Suivre les opportunités offertes par les nouvelles technologies telles que LPO, CPO et les fibres optiques spéciales.
Suivez les opportunités d'évolution accélérée des commutateurs nationaux.
Avertissement de risque
La demande en IA est inférieure aux attentes
Échec de la loi d'échelle
Intensification de la concurrence dans l'industrie
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
20 J'aime
Récompense
20
6
Partager
Commentaire
0/400
LiquidityOracle
· 07-23 17:49
La carte réseau va encore faire un gros bénéfice.
Voir l'originalRépondre0
ValidatorVibes
· 07-23 12:27
goulots d'étranglement de réseau décentralisé... tout comme eth2.0 encore une fois, à vrai dire
Voir l'originalRépondre0
TokenVelocityTrauma
· 07-21 02:49
Le module optique est vraiment bon, j'ai gagné énormément.
Voir l'originalRépondre0
AirdropF5Bro
· 07-21 02:49
Quel action acheter ? All in sur les modules optiques !
L'explosion de la demande d'équipements réseau à l'ère des grands modèles d'IA : Exploration des opportunités d'innovation et d'investissement futures.
Le réseau joue un rôle clé à l'ère des grands modèles d'IA
À l'ère des grands modèles, l'itération des équipements réseau tels que les modules optiques et les commutateurs s'accélère, la demande explose. Cet article part des principes pour explorer pourquoi le réseau est devenu un maillon essentiel de l'ère de l'IA, et discute des opportunités d'innovation et d'investissement futures du côté du réseau.
Source de la demande réseau
L'écart entre le volume du modèle et la limite d'une seule carte s'élargit, se dirigeant vers un entraînement multi-serveurs en grappe, constituant la base de l'importance du réseau.
Le réseau est davantage utilisé pour synchroniser les paramètres du modèle entre les cartes graphiques, ce qui augmente les exigences en matière de densité et de capacité.
Temps d'entraînement = taille des données x nombre de paramètres / taux de calcul. Taux de calcul = taux par appareil x nombre d'appareils x efficacité parallèle. Augmenter le nombre d'appareils et l'efficacité parallèle devient essentiel.
Synchronisation multiple cartes complexe : chaque fois après le calcul, il faut aligner, l'opération All-to-All est courante, exige des exigences élevées en matière de transmission et d'échange.
Coût de défaillance élevé : l'entraînement dure plusieurs mois, une interruption nécessite de revenir au point d'arrêt pour réentraîner, la stabilité du réseau est essentielle.
Direction de l'innovation Internet
Support de communication : mise à jour des supports en lumière, cuivre et silicium, développement des technologies de réduction des coûts telles que LPO, LRO et silicium-photonique.
Protocoles réseau : concurrence entre les protocoles de communication entre les segments et entre les nœuds.
Architecture du réseau : l'architecture Leaf Spine évolue vers de nouvelles architectures comme Dragonfly, rail-only, etc.
Conseils d'investissement
Éléments clés du système de communication : Zhongji Xuchuang, NewEase, Tianfu Communication, Industrial Fulian, Invec, HuDian Co.
Innovations dans les systèmes de communication : Changfei Optical Fiber, Taicheng Guang, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekoli.
Avertissement de risque
Importance de la reconnaissance du réseau
L'importance de la communication à l'ère de l'IA se manifeste par :
Le nombre de cartes graphiques et l'efficacité de connexion déterminent le temps d'entraînement, le temps étant une ressource clé dans la compétition.
Après chaque opération dans l'entraînement, il est nécessaire d'aligner les paramètres, ce qui impose des exigences très élevées au réseau.
Le coût des pannes réseau est élevé, les interruptions peuvent gravement affecter l'efficacité et le coût de l'entraînement.
L'échelle du cluster atteint dix mille cartes, avec des centaines de milliers de composants connectés, et les exigences de stabilité du système sont élevées.
Compréhension des directions d'innovation réseau
Réduction des coûts, ouverture et équilibre de l'échelle de calcul sont les principaux sujets.
Innovation des supports de communication : progrès des supports en lumière, en cuivre et en silicium, nouvelles technologies telles que LPO, LRO, et la photonique au silicium.
Innovation des protocoles de communication : compétition entre les protocoles NVLINK( et IB entre les nœuds et Ethernet) au sein des nœuds.
Mise à jour de l'architecture réseau : l'architecture Leaf-Spine évolue vers de nouvelles architectures telles que Dragonfly, Rail-only, etc.
De l'informatique en nuage à l'ère de l'IA, l'importance des communications s'accroît
L'explosion de la demande de connexion réseau pour l'IA et l'expansion de l'échelle des paramètres entraînent une incapacité des cartes uniques à supporter.
Temps d'entraînement = taille des données x nombre de paramètres / vitesse de calcul, la puissance de calcul empilée devient essentielle.
Taux de calcul = taux d'un appareil x nombre d'appareils x efficacité parallèle, le nombre d'appareils et l'efficacité parallèle deviennent également importants.
Le réseau devient la clé pour augmenter le nombre d'appareils et l'efficacité parallèle, l'acquisition de Mellanox par Nvidia en est un exemple.
Coopération multi-cartes dans l'entraînement de grands modèles
Parallélisme des données : chaque GPU conserve le modèle complet et divise les données pour l'entraînement.
Parallélisme de modèle : diviser le modèle sur différents GPU, y compris le parallélisme de tenseurs et le parallélisme en pipeline.
Parallélisme hybride multidimensionnel : combiner plusieurs méthodes de parallélisme et diviser en plusieurs étapes pour l'entraînement.
Divers modes parallèles nécessitent une synchronisation des paramètres, ce qui impose différentes exigences au réseau.
Noyau de connexion multi-cartes : précision de synchronisation
L'alignement des paramètres par diffusion inversée, le délai All-to-All est un indicateur clé.
Les méthodes de synchronisation comprennent la synchronisation parallèle, la synchronisation asynchrone, All-Reduce, etc.
Les algorithmes d'optimisation tels que Ring All-Reduce peuvent réduire la bande passante et la latence.
Besoin d'un support matériel réseau, comme NVLink, protocole IB, etc.
Ingénierie des systèmes : Surveillance - Résumé - Itération de l'innovation
Il est nécessaire de surveiller en temps réel le flux de données et la situation opérationnelle.
La capture de paquets matériel et logiciel est le principal moyen de surveillance, comme Wireshark, etc.
Les technologies de connexion série et parallèle telles que DPI/DFI peuvent réaliser une surveillance sans perte.
Optimiser en permanence la stabilité et l'efficacité du système en fonction des résultats de surveillance.
Compétition et itération des protocoles de communication
Communication intra-nœud : PCIe, NVLink, Infinity Fabric, etc.
Communication entre nœuds : InfiniBand vs famille de protocoles Ethernet RoCE.
RDMA est devenu une nécessité pour la connexion des clusters AI.
Protocole IB d'NVIDIA vs Alliance Ultra Ethernet dirigée par AMD.
Direction d'innovation en matériel réseau
Supports de transmission : la compétition entre la lumière, le cuivre et le silicium, le rapport qualité-prix et la stabilité sont essentiels.
Commutateur : émergence des commutateurs optiques, innovation des puces de commutation électrique.
Architecture réseau : l'architecture en feuille évolue vers Dragonfly, Rail-only, etc.
Cluster de centres de données : l'interconnexion entre centres de données devient un nouveau point focal.
Conseils d'investissement
Se concentrer sur les équipements de base tels que les commutateurs et les modules optiques.
Suivre les opportunités offertes par les nouvelles technologies telles que LPO, CPO et les fibres optiques spéciales.
Suivez les opportunités d'évolution accélérée des commutateurs nationaux.
Avertissement de risque