Jaringan memainkan peran kunci di era model AI besar
Era model besar, modul optik, sakelar, dan perangkat jaringan lainnya mengalami percepatan iterasi, kebutuhan meledak. Artikel ini membahas dari prinsip, mengapa jaringan menjadi bagian penting dalam era AI, dan mendiskusikan inovasi dan peluang investasi di sisi jaringan di masa depan.
Sumber Permintaan Jaringan
Perbedaan antara volume model dan batas maksimum per kartu semakin besar, beralih ke pelatihan kluster multi-server, membentuk dasar pentingnya jaringan.
Jaringan lebih banyak digunakan untuk menyinkronkan parameter model antar kartu grafis, dengan peningkatan permintaan terhadap kepadatan dan kapasitas.
Waktu pelatihan = skala data x jumlah parameter / laju komputasi. Laju komputasi = laju per perangkat x jumlah perangkat x efisiensi paralel. Memperbesar jumlah perangkat dan efisiensi paralel menjadi kunci.
Sinkronisasi multi-kartu yang kompleks: setelah setiap perhitungan perlu diselaraskan, operasi All-to-All umum, dengan tuntutan tinggi untuk pengiriman dan pertukaran.
Biaya kegagalan tinggi: Pelatihan berlangsung selama berbulan-bulan, interupsi memerlukan kembali ke titik henti untuk pelatihan ulang, stabilitas jaringan sangat penting.
Arah Inovasi Jaringan
Medium komunikasi: pembaruan medium cahaya, tembaga, silikon, perkembangan teknologi pengurangan biaya seperti LPO, LRO, dan silikon optik.
Protokol Jaringan: Persaingan antara protokol komunikasi antar chip dan protokol komunikasi antar node.
Arsitektur Jaringan: Evolusi arsitektur leaf-spine menjadi arsitektur baru seperti Dragonfly dan rail-only.
Saran Investasi
Sistem komunikasi inti: Zhongji Xuchuang, Xinyi Sen, Tianfu Communication, Industrial Fulin, Yingweik, Hudian Co.
Jumlah kartu grafis dan efisiensi koneksi menentukan waktu pelatihan, waktu adalah sumber daya kunci dalam persaingan.
Setiap lapisan dalam pelatihan perlu menyelaraskan parameter setelah perhitungan, yang sangat menuntut jaringan.
Biaya kegagalan jaringan tinggi, gangguan akan berdampak serius pada efisiensi dan biaya pelatihan.
Skala kluster mencapai puluhan ribu, jumlah komponen yang terhubung mencapai ratusan ribu, dengan tuntutan stabilitas sistem yang tinggi.
Pemahaman tentang Arah Inovasi Jaringan
Pengurangan biaya, keterbukaan, dan keseimbangan skala daya komputasi adalah isu utama.
Inovasi media komunikasi: kemajuan media cahaya, tembaga, dan silikon, teknologi baru seperti LPO, LRO, dan silikon fotonik.
Inovasi Protokol Komunikasi: Dalam node ( seperti NVLINK ) dan antar node ( persaingan protokol IB vs Ethernet ).
Pembaruan Arsitektur Jaringan: Arsitektur Leaf-Spine berkembang menuju arsitektur baru seperti Dragonfly, Rail-only, dll.
Dari komputasi awan ke era AI, pentingnya komunikasi meningkat
Permintaan konektivitas jaringan untuk AI meledak, dan skala parameter yang membengkak menyebabkan satu kartu tidak dapat menampung.
Waktu pelatihan = skala data x jumlah parameter / kecepatan komputasi, kekuatan komputasi yang terakumulasi menjadi kunci.
Kecepatan perhitungan = kecepatan per perangkat x jumlah perangkat x efisiensi paralel, jumlah perangkat dan efisiensi paralel menjadi sama pentingnya.
Jaringan menjadi kunci untuk meningkatkan jumlah perangkat dan efisiensi paralel, akuisisi Mellanox oleh Nvidia adalah mempertimbangkan hal ini.
Kerja sama multi-kartu dalam pelatihan model besar
Paralel data: setiap GPU menyimpan model lengkap, membagi data untuk pelatihan.
Paralel model: membagi model ke GPU yang berbeda, termasuk paralel tensor dan paralel pipeline.
Penggabungan Paralel Multidimensi: Menggabungkan berbagai cara paralel, membagi beberapa Stage untuk pelatihan.
Berbagai metode paralel perlu melakukan sinkronisasi parameter, yang mengajukan persyaratan berbeda terhadap jaringan.
Inti Konektivitas Multi-Kartu: Tingkat Akurasi Sinkronisasi
Penyiaran terbalik untuk penyelarasan parameter, keterlambatan All-to-All adalah indikator kunci.
Metode sinkronisasi termasuk sinkronisasi paralel, sinkronisasi asinkron, All-Reduce, dll.
Algoritma optimasi seperti Ring All-Reduce dapat mengurangi bandwidth dan latensi.
Memerlukan dukungan perangkat keras jaringan, seperti NVLink, protokol IB, dll.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
20 Suka
Hadiah
20
6
Bagikan
Komentar
0/400
LiquidityOracle
· 07-23 17:49
Kartu jaringan akan mendapatkan keuntungan besar lagi.
Lihat AsliBalas0
ValidatorVibes
· 07-23 12:27
bottleneck jaringan terdesentralisasi... seperti eth2.0 lagi sejujurnya
Lihat AsliBalas0
TokenVelocityTrauma
· 07-21 02:49
Modul cahaya sangat menarik, menghasilkan banyak uang.
Era model besar AI memicu ledakan permintaan perangkat jaringan. Membahas peluang inovasi dan investasi di masa depan.
Jaringan memainkan peran kunci di era model AI besar
Era model besar, modul optik, sakelar, dan perangkat jaringan lainnya mengalami percepatan iterasi, kebutuhan meledak. Artikel ini membahas dari prinsip, mengapa jaringan menjadi bagian penting dalam era AI, dan mendiskusikan inovasi dan peluang investasi di sisi jaringan di masa depan.
Sumber Permintaan Jaringan
Perbedaan antara volume model dan batas maksimum per kartu semakin besar, beralih ke pelatihan kluster multi-server, membentuk dasar pentingnya jaringan.
Jaringan lebih banyak digunakan untuk menyinkronkan parameter model antar kartu grafis, dengan peningkatan permintaan terhadap kepadatan dan kapasitas.
Waktu pelatihan = skala data x jumlah parameter / laju komputasi. Laju komputasi = laju per perangkat x jumlah perangkat x efisiensi paralel. Memperbesar jumlah perangkat dan efisiensi paralel menjadi kunci.
Sinkronisasi multi-kartu yang kompleks: setelah setiap perhitungan perlu diselaraskan, operasi All-to-All umum, dengan tuntutan tinggi untuk pengiriman dan pertukaran.
Biaya kegagalan tinggi: Pelatihan berlangsung selama berbulan-bulan, interupsi memerlukan kembali ke titik henti untuk pelatihan ulang, stabilitas jaringan sangat penting.
Arah Inovasi Jaringan
Medium komunikasi: pembaruan medium cahaya, tembaga, silikon, perkembangan teknologi pengurangan biaya seperti LPO, LRO, dan silikon optik.
Protokol Jaringan: Persaingan antara protokol komunikasi antar chip dan protokol komunikasi antar node.
Arsitektur Jaringan: Evolusi arsitektur leaf-spine menjadi arsitektur baru seperti Dragonfly dan rail-only.
Saran Investasi
Sistem komunikasi inti: Zhongji Xuchuang, Xinyi Sen, Tianfu Communication, Industrial Fulin, Yingweik, Hudian Co.
Inovasi sistem komunikasi: Changfei Fiber, Taicheng Optical, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekoli.
Peringatan Risiko
Pentingnya Memahami Jaringan
Pentingnya komunikasi di era AI tercermin dalam:
Jumlah kartu grafis dan efisiensi koneksi menentukan waktu pelatihan, waktu adalah sumber daya kunci dalam persaingan.
Setiap lapisan dalam pelatihan perlu menyelaraskan parameter setelah perhitungan, yang sangat menuntut jaringan.
Biaya kegagalan jaringan tinggi, gangguan akan berdampak serius pada efisiensi dan biaya pelatihan.
Skala kluster mencapai puluhan ribu, jumlah komponen yang terhubung mencapai ratusan ribu, dengan tuntutan stabilitas sistem yang tinggi.
Pemahaman tentang Arah Inovasi Jaringan
Pengurangan biaya, keterbukaan, dan keseimbangan skala daya komputasi adalah isu utama.
Inovasi media komunikasi: kemajuan media cahaya, tembaga, dan silikon, teknologi baru seperti LPO, LRO, dan silikon fotonik.
Inovasi Protokol Komunikasi: Dalam node ( seperti NVLINK ) dan antar node ( persaingan protokol IB vs Ethernet ).
Pembaruan Arsitektur Jaringan: Arsitektur Leaf-Spine berkembang menuju arsitektur baru seperti Dragonfly, Rail-only, dll.
Dari komputasi awan ke era AI, pentingnya komunikasi meningkat
Permintaan konektivitas jaringan untuk AI meledak, dan skala parameter yang membengkak menyebabkan satu kartu tidak dapat menampung.
Waktu pelatihan = skala data x jumlah parameter / kecepatan komputasi, kekuatan komputasi yang terakumulasi menjadi kunci.
Kecepatan perhitungan = kecepatan per perangkat x jumlah perangkat x efisiensi paralel, jumlah perangkat dan efisiensi paralel menjadi sama pentingnya.
Jaringan menjadi kunci untuk meningkatkan jumlah perangkat dan efisiensi paralel, akuisisi Mellanox oleh Nvidia adalah mempertimbangkan hal ini.
Kerja sama multi-kartu dalam pelatihan model besar
Paralel data: setiap GPU menyimpan model lengkap, membagi data untuk pelatihan.
Paralel model: membagi model ke GPU yang berbeda, termasuk paralel tensor dan paralel pipeline.
Penggabungan Paralel Multidimensi: Menggabungkan berbagai cara paralel, membagi beberapa Stage untuk pelatihan.
Berbagai metode paralel perlu melakukan sinkronisasi parameter, yang mengajukan persyaratan berbeda terhadap jaringan.
Inti Konektivitas Multi-Kartu: Tingkat Akurasi Sinkronisasi
Penyiaran terbalik untuk penyelarasan parameter, keterlambatan All-to-All adalah indikator kunci.
Metode sinkronisasi termasuk sinkronisasi paralel, sinkronisasi asinkron, All-Reduce, dll.
Algoritma optimasi seperti Ring All-Reduce dapat mengurangi bandwidth dan latensi.
Memerlukan dukungan perangkat keras jaringan, seperti NVLink, protokol IB, dll.
Rekayasa Sistem: Pemantauan - Ringkasan - Iterasi Inovasi
Perlu memantau aliran data dan situasi operasional secara real-time.
Tangkap paket perangkat keras dan perangkat lunak adalah metode pemantauan utama, seperti Wireshark dan lain-lain.
Teknologi penghubungan seri dan paralel seperti DPI/DFI dapat mencapai pemantauan tanpa kerugian.
Secara terus-menerus mengoptimalkan stabilitas dan efisiensi sistem berdasarkan hasil pemantauan.
Persaingan dan Iterasi Protokol Komunikasi
Komunikasi dalam node: PCIe, NVLink, Infinity Fabric, dll.
Komunikasi antar node: InfiniBand vs keluarga protokol RoCE Ethernet.
RDMA menjadi kebutuhan mendasar untuk koneksi kluster AI.
Protokol IB NVIDIA vs Aliansi Super Ethernet yang dipimpin oleh AMD.
Inovasi Arah Perangkat Keras Jaringan
Media transmisi: persaingan antara cahaya, tembaga, dan silikon, di mana rasio biaya dan stabilitas adalah kuncinya.
Switch: Kebangkitan switch optik, inovasi chip switch listrik.
Arsitektur Jaringan: Evolusi arsitektur Leaf Spine ke Dragonfly, Rail-only, dan lainnya.
Kluster pusat data: interkoneksi antar pusat data menjadi fokus baru.
Saran Investasi
Perhatikan perangkat keras dasar seperti switch dan modul optik.
Melacak peluang yang dihadirkan oleh teknologi baru seperti LPO, CPO, dan serat optik khusus.
Perhatikan kesempatan evolusi cepat switch buatan dalam negeri.
Peringatan Risiko