Beranda News Bagaimana ‘Inferensi’ mendorong persaingan ke dominasi chip AI Nvidia

Bagaimana ‘Inferensi’ mendorong persaingan ke dominasi chip AI Nvidia

5
0

Penantang Nvidia mengambil kesempatan baru untuk memecahkan dominasi chip kecerdasan buatan setelah start-up Cina Deepseek mempercepat pergeseran dalam persyaratan komputasi AI.

R1 Deepseek dan model yang disebut “penalaran” lainnya, seperti O3 Openai dan Claude 3.7 Anthropic, mengkonsumsi lebih banyak sumber daya komputasi daripada sistem AI sebelumnya pada saat pengguna membuat permintaan mereka, proses yang disebut “inferensi”.

Itu telah membalik fokus permintaan untuk komputasi AI, yang sampai saat ini dipusatkan pada pelatihan atau membuat model. Inferensi diharapkan menjadi bagian yang lebih besar dari kebutuhan teknologi karena permintaan tumbuh di antara individu dan bisnis untuk aplikasi yang melampaui chatbots populer saat ini, seperti ChatGPT atau XAI’s GROK.

Di sinilah pesaing NVIDIA-yang berkisar dari start-up pembuat chip AI seperti cerebras dan Groq hingga prosesor akselerator khusus dari perusahaan teknologi besar termasuk Google, Amazon, Microsoft dan Meta-memfokuskan upaya mereka untuk mengganggu perusahaan semikonduktor paling berharga di dunia.

“Pelatihan membuat AI dan inferensi menggunakan AI,” kata Andrew Feldman, kepala eksekutif cerebras. “Dan penggunaan AI telah melewati atap. . . Kesempatan saat ini untuk membuat chip yang jauh lebih baik untuk inferensi daripada untuk pelatihan lebih besar dari sebelumnya. ”

Nvidia mendominasi pasar untuk kelompok komputasi besar seperti fasilitas XAI Elon Musk di Memphis atau proyek Stargate Openai dengan SoftBank. Tetapi para investornya mencari kepastian bahwa ia dapat terus menjual saingannya di pusat data yang jauh lebih kecil yang sedang dibangun yang akan fokus pada inferensi.

Vipul Ved Prakash, Kepala Eksekutif dan Co-Founder dari Together AI, penyedia cloud yang berfokus pada AI yang bernilai $ 3,3 miliar bulan lalu dalam putaran yang dipimpin oleh General Catalyst, mengatakan Inference adalah “fokus besar” untuk bisnisnya. “Saya percaya menjalankan inferensi pada skala akan menjadi beban kerja terbesar di internet di beberapa titik,” katanya.

Analis di Morgan Stanley telah memperkirakan lebih dari 75 persen daya dan permintaan komputasi untuk pusat data di AS akan menjadi inferensi di tahun -tahun mendatang, meskipun mereka memperingatkan “ketidakpastian yang signifikan” tentang bagaimana transisi akan terjadi.

Namun, itu berarti investasi senilai ratusan miliar dolar dapat mengalir menuju fasilitas inferensi dalam beberapa tahun ke depan, jika penggunaan AI terus tumbuh pada kecepatan saat ini.

Analis di Barclays memperkirakan pengeluaran modal untuk inferensi di “Frontier AI” – merujuk pada sistem terbesar dan paling canggih – akan melebihi pelatihan selama dua tahun ke depan, melonjak dari $ 122,6 miliar pada tahun 2025 hingga $ 208,2 miliar pada tahun 2026.

Sementara Barclays memprediksi NVIDIA akan memiliki “pada dasarnya pangsa pasar 100 persen” dalam pelatihan AI Frontier, itu akan melayani hanya 50 persen komputasi inferensi “dalam jangka panjang”. Itu membuat saingan perusahaan dengan hampir $ 200 miliar dalam pengeluaran chip untuk bermain pada tahun 2028.

“Ada tarikan besar ke arah yang lebih baik, lebih cepat, lebih efisien (chips),” kata Walter Goodwin, pendiri chip start-up fractile yang berbasis di Inggris. Penyedia komputasi awan sangat ingin “sesuatu yang memotong ketergantungan berlebihan” pada Nvidia, tambahnya.

Kepala eksekutif NVIDIA Jensen Huang bersikeras chip perusahaannya sama kuatnya dengan kesimpulan seperti halnya untuk pelatihan, karena ia melihat peluang pasar baru yang besar.

Chip Blackwell terbaru perusahaan AS dirancang untuk menangani inferensi dengan lebih baik dan banyak dari pelanggan produk yang paling awal menggunakannya untuk melayani, daripada melatih, sistem AI. Popularitas perangkat lunaknya, berdasarkan arsitektur CUDA miliknya, di antara pengembang AI juga menyajikan penghalang yang tangguh bagi para pesaing.

“Jumlah komputasi inferensi yang dibutuhkan sudah 100x lebih” daripada ketika model bahasa besar dimulai, kata Huang pada panggilan pendapatan bulan lalu. “Dan itu baru permulaan.”

Biaya untuk melayani tanggapan dari LLMS telah turun dengan cepat selama dua tahun terakhir, didorong oleh kombinasi chip yang lebih kuat, sistem AI yang lebih efisien dan persaingan intens antara pengembang AI seperti Google, OpenAi dan Anthropic.

“Biaya untuk menggunakan tingkat AI yang diberikan sekitar 10x setiap 12 bulan, dan harga yang lebih rendah menyebabkan lebih banyak penggunaan,” kata Sam Altman, kepala eksekutif Openai, dalam sebuah posting blog bulan lalu.

Model V3 dan R1 Deepseek, yang memicu kepanikan pasar saham pada bulan Januari sebagian besar karena apa yang dianggap sebagai biaya pelatihan yang lebih rendah, telah membantu menurunkan biaya inferensi lebih lanjut, berkat inovasi arsitektur start-up Cina dan efisiensi pengkodean.

Pada saat yang sama, jenis pemrosesan yang diperlukan oleh tugas inferensi – yang dapat mencakup persyaratan memori yang jauh lebih besar untuk menjawab pertanyaan yang lebih lama dan lebih kompleks – membuka pintu untuk alternatif unit pemrosesan grafis NVIDIA, yang kekuatannya terletak pada penanganan volume yang sangat besar dari perhitungan yang sama.

“Kinerja inferensi pada perangkat keras Anda adalah fungsi seberapa cepat Anda dapat (memindahkan data) ke dan dari memori,” kata Cerebras’s Feldman, yang chipnya telah digunakan oleh AI start-up Prancis Mistral untuk mempercepat kinerja chatbot, Le Chat.

Kecepatan sangat penting untuk melibatkan pengguna, kata Feldman. “Salah satu hal yang ditunjukkan Google (pencarian) 25 tahun yang lalu adalah bahwa bahkan mikrodetik (penundaan) mengurangi perhatian pemirsa,” katanya. “Kami memproduksi jawaban untuk LE Chat kadang -kadang sedetik sementara (Openai’s) O1 akan mengambil 40.”

NVIDIA mempertahankan chipnya sama kuatnya dengan inferensi seperti untuk pelatihan, menunjuk ke peningkatan 200 kali lipat dalam kinerja inferensi selama dua tahun terakhir. Dikatakan ratusan juta pengguna mengakses produk AI melalui jutaan GPUs -nya hari ini.

“Arsitektur kami disewakan dan mudah digunakan dalam semua cara yang berbeda,” kata Huang bulan lalu, untuk membangun model besar atau melayani aplikasi AI dengan cara baru.

Prakash, yang perusahaannya menganggap Nvidia sebagai investor, mengatakan bersama -sama menggunakan chip NVIDIA yang sama untuk inferensi dan pelatihan hari ini, yang “cukup berguna”.

Tidak seperti GPU “tujuan umum” Nvidia, akselerator inferensi bekerja paling baik ketika mereka disetel ke jenis model AI tertentu. Dalam industri yang bergerak cepat, itu bisa membuktikan masalah bagi start-up chip yang bertaruh pada arsitektur AI yang salah.

“Saya pikir satu keuntungan dari komputasi tujuan umum adalah bahwa ketika arsitektur model berubah, Anda hanya memiliki lebih banyak fleksibilitas,” kata Prakash, sementara juga menambahkan: “Perasaan saya adalah akan ada campuran silikon yang kompleks selama tahun -tahun mendatang.”

Pelaporan tambahan oleh Michael Acton di San Francisco

Sumber