
- Sistem ini menghubungkan fasilitas yang jauh untuk menjalankan beban kerja pelatihan besar secara terus menerus
- Serat berkecepatan tinggi menjaga GPU tetap aktif dengan menghindari kemacetan data yang lambat
- Kepadatan chip dua tingkat meningkatkan daya komputasi sekaligus menurunkan latensi antar rak
Microsoft telah meluncurkan pabrik super AI pertamanya, yang menghubungkan AI besar pusat data di Wisconsin dan Atlanta melalui jaringan fiber khusus yang dirancang untuk pergerakan data pelatihan berkecepatan tinggi.
Desainnya menempatkan chip berdekatan di dua lantai untuk meningkatkan kepadatan dan mengurangi kelambatan.
Ia juga menggunakan sistem kabel dan cairan ekstensif yang diatur untuk mengatur berat dan panas yang dihasilkan oleh sekelompok besar perangkat keras.
Jaringan yang dibangun untuk pelatihan model skala besar
Di sebuah postingan blog,Microsoft mengatakan konfigurasi ini akan mendukung beban kerja AI yang besar yang berbeda dari tugas-tugas yang lebih kecil dan lebih terisolasi yang umum terjadi di lingkungan cloud.
“Ini tentang membangun jaringan terdistribusi yang dapat bertindak sebagai superkomputer virtual untuk mengatasi tantangan terbesar dunia,” kata Alistair Speirs, manajer umum Microsoft yang berfokus pada infrastruktur Azure.
“Alasan kami menyebut pabrik ini sebagai pabrik super AI adalah karena pabrik ini menjalankan satu pekerjaan kompleks di jutaan perangkat keras… bukan hanya satu situs yang melatih model AI, namun merupakan jaringan situs yang mendukung satu pekerjaan tersebut.”
Sistem AI WAN memindahkan informasi sejauh ribuan mil menggunakan fiber khusus, sebagian baru dibangun dan sebagian digunakan kembali dari akuisisi sebelumnya.
Protokol dan arsitektur jaringan telah disesuaikan untuk memperpendek jalur dan menjaga pergerakan data dengan penundaan minimal.
Microsoft mengklaim hal ini memungkinkan situs yang jauh untuk bekerja sama dalam proses pelatihan model yang sama hampir secara real-time, dengan setiap lokasi menyumbangkan bagian komputasinya.
Fokusnya adalah mempertahankan aktivitas berkelanjutan di sejumlah besar GPU agar tidak ada unit yang jeda saat menunggu hasil dari lokasi lain.
“Memimpin dalam AI bukan hanya tentang menambahkan lebih banyak GPU – ini tentang membangun infrastruktur yang membuat mereka bekerja sama sebagai satu sistem,” kata Scott Guthrie, wakil presiden eksekutif Cloud + AI Microsoft.
Microsoft menggunakan tata letak Fairwater untuk mendukung sistem rak dengan throughput tinggi, termasuk Nvidia Unit GB200 NVL72 dirancang untuk menskalakan cluster GPU Blackwell yang sangat besar.
Perusahaan memasangkan perangkat keras ini dengan sistem pendingin cair yang mengirimkan cairan panas ke luar gedung dan mengembalikannya pada suhu yang lebih rendah.
Microsoft menyatakan bahwa pendinginan operasional hampir tidak menggunakan air baru, selain penggantian berkala bila diperlukan untuk pengendalian kimia.
Situs Atlanta mencerminkan tata letak Wisconsin, memberikan arsitektur yang konsisten di berbagai wilayah seiring dengan semakin banyaknya fasilitas yang online.
“Untuk meningkatkan kemampuan AI, Anda perlu memiliki infrastruktur yang semakin besar untuk melatihnya,” kata Mark Russinovich, CTO, deputi CISO, dan rekan teknis, Microsoft Azure.
“Jumlah infrastruktur yang dibutuhkan saat ini untuk melatih model-model ini bukan hanya satu pusat data, bukan dua, tapi kelipatannya.”
Perusahaan memposisikan situs-situs ini sebagai situs yang dibuat khusus untuk pelatihan tingkat lanjut alat AImengutip peningkatan jumlah parameter dan kumpulan data pelatihan yang lebih besar sebagai tekanan utama yang mendorong ekspansi.
Fasilitasnya mencakup penyimpanan exabytes dan jutaan CPU inti untuk mendukung tugas seputar alur kerja pelatihan utama.
Microsoft menyarankan bahwa skala ini diperlukan bagi mitra seperti OpenAI dan Tim Superintelligence AI miliknya untuk melanjutkan pengembangan model.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



