Perusahaan -perusahaan intelijen buatan terkemuka termasuk Openai, Microsoft dan Meta beralih ke proses yang disebut “Distilasi” dalam perlombaan global untuk membuat model AI yang lebih murah bagi konsumen dan bisnis untuk diadopsi.
Teknik yang menarik perhatian luas setelah Deepseek China menggunakannya untuk membangun model AI yang kuat dan efisien berdasarkan sistem sumber terbuka yang dirilis oleh pesaing Meta dan Alibaba. Breakthrough mengguncang kepercayaan pada kepemimpinan AI Silicon Valley, memimpin investor Wall Street untuk menghapus miliaran dolar bernilai dari saham teknologi besar AS.
Melalui distilasi, perusahaan mengambil model bahasa besar – dijuluki model “guru” – yang menghasilkan kata berikutnya yang mungkin dalam sebuah kalimat. Model guru menghasilkan data yang kemudian melatih model “siswa” yang lebih kecil, membantu untuk dengan cepat mentransfer pengetahuan dan prediksi model yang lebih besar ke yang lebih kecil.
Sementara distilasi telah banyak digunakan selama bertahun-tahun, kemajuan baru-baru ini telah membuat para pakar industri percaya bahwa proses ini akan semakin menjadi keuntungan bagi para pemula yang mencari cara yang hemat biaya untuk membangun aplikasi berdasarkan teknologi.
“Distilasi cukup ajaib,” kata Olivier Godement, kepala produk untuk platform Openai. “Ini adalah proses pada dasarnya mengambil model perbatasan pintar yang sangat besar dan menggunakan model itu untuk mengajarkan model yang lebih kecil. . . Sangat mampu dalam tugas -tugas tertentu yang sangat murah dan sangat cepat untuk dieksekusi. ”
Model bahasa besar seperti Openai’s GPT-4, Google Gemini dan Llama Meta membutuhkan sejumlah besar data dan daya komputasi untuk mengembangkan dan memelihara. Sementara perusahaan belum mengungkapkan angka yang tepat untuk berapa biaya untuk melatih model besar, kemungkinan ratusan juta dolar.
Berkat distilasi, pengembang dan bisnis dapat mengakses kemampuan model -model ini di sebagian kecil dari harga, memungkinkan pengembang aplikasi untuk menjalankan model AI dengan cepat pada perangkat seperti laptop dan smartphone.
Pengembang dapat menggunakan platform OpenAI untuk distilasi, belajar dari model bahasa besar yang mendukung produk seperti chatgpt. Pendukung terbesar Openai, Microsoft, menggunakan GPT-4 untuk menyaring keluarga bahasa kecil model PHI sebagai bagian dari kemitraan komersial setelah menginvestasikan hampir $ 14 miliar ke perusahaan.
Namun, start-up yang berbasis di San Francisco mengatakan mereka percaya bahwa Deepseek menyuling model Openai untuk melatih pesaingnya, sebuah langkah yang akan bertentangan dengan ketentuan layanannya. Deepseek belum mengomentari klaim tersebut.
Sementara distilasi dapat digunakan untuk membuat model berkinerja tinggi, para ahli menambahkan mereka lebih terbatas.
“Distilasi menghadirkan trade-off yang menarik; Jika Anda membuat model lebih kecil, Anda pasti mengurangi kemampuan mereka, ”kata Ahmed Awadallah dari Microsoft Research, yang mengatakan model suling dapat dirancang agar sangat pandai dalam merangkum email, misalnya,” tetapi itu benar -benar tidak akan baik dalam hal lain. “
David Cox, wakil presiden untuk model AI di IBM Research, mengatakan sebagian besar bisnis tidak memerlukan model besar untuk menjalankan produk mereka, dan yang disuling cukup kuat untuk tujuan seperti chatbots layanan pelanggan atau berjalan pada perangkat yang lebih kecil seperti ponsel.
“Kapan saja Anda bisa (membuatnya lebih murah) dan memberi Anda kinerja yang tepat, ada sedikit alasan untuk tidak melakukannya,” tambahnya.
Itu menghadirkan tantangan bagi banyak model bisnis perusahaan AI terkemuka. Bahkan jika pengembang menggunakan model suling dari perusahaan seperti OpenAi, harganya jauh lebih murah, lebih murah untuk dibuat, dan, oleh karena itu, menghasilkan lebih sedikit pendapatan. Pembuat model seperti OpenAi sering mengenakan biaya lebih sedikit untuk penggunaan model suling karena mereka membutuhkan lebih sedikit beban komputasi.
Namun, bobot Openai berpendapat bahwa model bahasa besar masih akan diperlukan untuk “tugas intelijen dan taruhan tinggi” di mana “bisnis bersedia membayar lebih untuk tingkat akurasi dan keandalan yang tinggi”. Dia menambahkan bahwa model besar juga akan diperlukan untuk menemukan kemampuan baru yang kemudian dapat disuling menjadi yang lebih kecil.
Namun, perusahaan ini bertujuan untuk mencegah model -model besar dari disuling untuk melatih pesaing. Openai memiliki tim yang memantau penggunaan dan dapat menghapus akses ke pengguna yang diduga menghasilkan data dalam jumlah besar untuk mengekspor dan melatih saingan, karena tampaknya telah dilakukan dengan akun yang diyakini terkait dengan Deepseek. Namun banyak dari tindakan ini terjadi secara surut.
“Openai telah berusaha untuk melindungi dari distilasi untuk waktu yang lama, tetapi sangat sulit untuk menghindarinya sama sekali,” kata Douwe Kiela, kepala eksekutif AI kontekstual, alat pengambilan informasi pembangunan start-up untuk perusahaan.
Distilasi juga merupakan kemenangan bagi advokat model terbuka, di mana teknologi ini tersedia secara bebas untuk dibangun oleh pengembang. Deepseek telah membuat model terbaru juga terbuka untuk pengembang.
“Kami akan menggunakan (distilasi) dan memasukkannya ke dalam produk kami segera,” kata Yann Lecun, Kepala Ilmuwan AI Meta. “Itulah gagasan open source. Anda mendapat untung dari semua orang dan kemajuan orang lain selama proses itu terbuka. ”
Distilasi juga berarti bahwa pembuat model dapat menghabiskan miliaran dolar untuk memajukan kemampuan sistem AI tetapi masih menghadapi pesaing yang sering menyusul dengan cepat, seperti yang ditunjukkan oleh rilis Deepseek baru-baru ini. Ini menimbulkan pertanyaan tentang keunggulan penggerak pertama dalam membangun LLM ketika kemampuan mereka dapat direplikasi dalam hitungan bulan.
“Di dunia di mana segala sesuatunya bergerak begitu cepat. . . Anda benar -benar dapat menghabiskan banyak uang, melakukannya dengan cara yang sulit, dan kemudian sisa lapangan tepat di tumit Anda, ”kata Cox IBM. “Jadi ini adalah lanskap bisnis yang menarik dan rumit.”
Pelaporan tambahan Michael Acton di San Francisco