Perusahaan generatif-AI telah menjual narasi kemajuan yang belum pernah terjadi sebelumnya dan tak ada habisnya. Baru minggu lalu, openai diperkenalkan GPT-4.5 sebagai “model terbesar dan terbaik untuk mengobrol.” Sebelumnya di bulan Februari, Google ditelepon Versi terbaru Gemini “Model AI Terbaik Dunia.” Dan pada bulan Januari, perusahaan Cina Deekseek disebut -sebut Model R1 -nya sama kuatnya dengan model O1 Openai – yang disebut Sam Altman sebagai “model paling cerdas di dunia” bulan sebelumnya.
Namun ada bukti yang berkembang itu kemajuan adalah melambat turun dan bahwa chatbot bertenaga LLM mungkin sudah mendekati puncaknya. Ini meresahkan, mengingat bahwa janji kemajuan telah menjadi masalah politik; Sejumlah besar tanah, kekuasaan, dan uang telah dialokasikan untuk mendorong teknologi ke depan. Berapa banyak yang sebenarnya membaik? Seberapa baik yang bisa didapatnya? Ini adalah pertanyaan penting, dan mereka hampir tidak mungkin dijawab karena tes yang mengukur kemajuan AI tidak berfungsi. (Atlantik memasuki kemitraan perusahaan dengan OpenAI pada tahun 2024. Divisi editorial Atlantik beroperasi secara mandiri dari divisi bisnis.)
Tidak seperti program komputer konvensional, AI generatif dirancang bukan untuk menghasilkan jawaban yang tepat untuk pertanyaan tertentu, tetapi untuk menggeneralisasi. Sebuah chatbot harus dapat menjawab pertanyaan yang belum dilatih secara khusus untuk menjawab, seperti siswa manusia yang belajar tidak hanya fakta bahwa 2 x 3 = 6 tetapi juga bagaimana melipatgandakan dua angka. Model yang tidak dapat melakukan ini tidak akan mampu “beralasan” atau memberikan kontribusi yang berarti bagi sains, seperti yang dijanjikan perusahaan AI. Generalisasi bisa rumit untuk diukur, dan lebih rumit masih membuktikan bahwa model menjadi lebih baik dalam hal itu. Untuk mengukur keberhasilan pekerjaan mereka, perusahaan mengutip tes benchmark standar industri setiap kali mereka merilis model baru. Tes tersebut seharusnya berisi pertanyaan yang belum dilihat model, menunjukkan bahwa mereka tidak hanya menghafal fakta.
Namun selama dua tahun terakhir, para peneliti telah menerbitkan studi Dan Eksperimen menunjukkan bahwa chatgpt, deepseek, llama, mistral, gemma google ( “Akses terbuka” Sepupu produk Gemini -nya), Microsoft’s Phi, dan Qwen Alibaba telah dilatih pada teks tes benchmark populer, mencemari legitimasi skor mereka. Pikirkan seperti siswa manusia yang mencuri dan menghafal tes matematika, membodohi gurunya dengan berpikir dia belajar bagaimana melakukan pembagian yang panjang.
Masalahnya dikenal sebagai kontaminasi benchmark. Sangat luas sehingga satu buletin industri menyimpulkan pada bulan Oktober bahwa “Tes benchmark tidak ada artinya. ” Namun terlepas dari bagaimana didirikan Masalahnya adalah, perusahaan AI terus mengutip tes ini sebagai indikator utama kemajuan. (Seorang juru bicara untuk Google DeepMind mengatakan kepada saya bahwa perusahaan menangani masalah dengan serius dan terus mencari cara baru untuk mengevaluasi modelnya. Tidak ada perusahaan lain yang disebutkan dalam artikel ini mengomentari masalah ini.)
Kontaminasi tolok ukur tidak selalu disengaja. Sebagian besar tolok ukur diterbitkan di internet, dan model dilatih pada petak besar teks yang dipanen dari internet. Kumpulan data pelatihan berisi begitu banyak teks, pada kenyataannya, bahwa menemukan dan memfilter tolok ukur adalah sangat sulit. Saat Microsoft meluncurkan model bahasa baru pada bulan Desember, seorang peneliti di tim membual Tentang “agresif” membasmi tolok ukur dalam data pelatihannya – namun model yang menyertainya teknis laporan mengakui bahwa metode tim “tidak efektif melawan semua skenario.”
Salah satu tolok ukur yang paling umum dikutip disebut pemahaman bahasa multitask besar. Ini terdiri dari sekitar 16.000 pertanyaan pilihan ganda 57 subjektermasuk anatomi, filsafat, pemasaran, nutrisi, agama, matematika, dan pemrograman. Selama setahun terakhir, Openai, Google, Microsoft, MetaDan Deepseek telah mengiklankan skor model mereka di MMLU, namun para peneliti telah menunjukkan bahwa model dari semua perusahaan ini telah dilatih atas pertanyaannya.
Bagaimana para peneliti tahu bahwa model “tertutup”, seperti Openai, telah dilatih pada tolok ukur? Teknik mereka pintar, dan mengungkapkan hal -hal menarik tentang cara kerja model bahasa yang besar.
Satu tim peneliti mengambil pertanyaan dari MMLU dan diminta Chatgpt bukan untuk jawaban yang benar tetapi untuk spesifik salah Opsi pilihan ganda. ChatGPT dapat memberikan teks yang tepat dari jawaban yang salah pada MMLU 57 persen dari waktu, sesuatu yang mungkin tidak bisa dilakukan kecuali dilatih pada tes, karena opsi dipilih dari jumlah jawaban yang salah.
Tim peneliti lain dari Microsoft dan Universitas Xiamen, di Cina, diselidiki Kinerja GPT-4 tentang pertanyaan dari kompetisi pemrograman yang diselenggarakan di Codeforces situs web. Kompetisi secara luas dianggap sebagai cara bagi pemrogram untuk mempertajam keterampilan mereka. Bagaimana GPT-4 melakukannya? Cukup baik tentang pertanyaan yang diterbitkan secara online sebelum September 2021. Pada pertanyaan yang diterbitkan setelah tanggal itu, kinerjanya merosot. Versi GPT-4 itu terlatih Hanya pada data dari sebelum September 2021, membuat para peneliti menyarankan bahwa mereka telah menghafal pertanyaan dan “meragukan kemampuan penalaran aktualnya,” menurut para peneliti. Memberikan lebih banyak dukungan untuk hipotesis ini, peneliti lain telah menunjukkan bahwa kinerja GPT-4 pada pertanyaan pengkodean adalah Lebih baik untuk pertanyaan yang lebih sering muncul di internet. (Semakin sering model melihat teks yang sama, semakin besar kemungkinan menghafalnya.)
Bisakah masalah benchmark-kontaminasi diselesaikan? Beberapa saran telah dibuat oleh perusahaan AI dan peneliti independen. Salah satunya adalah Perbarui tolok ukur terus -menerus dengan pertanyaan berdasarkan sumber informasi baru. Ini dapat mencegah jawaban dari muncul dalam data pelatihan, tetapi juga merusak konsep patokan: tes standar yang memberikan hasil yang konsisten dan stabil untuk tujuan perbandingan. Pendekatan lain diambil oleh situs web yang disebut Chatbot Arenayang mengadu llms satu sama lain, gaya gladiator, dan memungkinkan pengguna memilih model mana yang memberikan jawaban yang lebih baik untuk pertanyaan mereka. Pendekatan ini kebal terhadap masalah kontaminasi, tetapi subyektif dan sama -sama tidak stabil. Yang lain telah menyarankan penggunaan satu llm hakim kinerja orang lain, suatu proses tidak sepenuhnya dapat diandalkan. Tidak satu pun dari metode ini memberikan pengukuran percaya diri dari kemampuan LLMS untuk menggeneralisasi.
Meskipun perusahaan AI sudah mulai berbicara tentang “model penalaran,” teknologi ini sebagian besar sama seperti ketika ChatGPT dirilis pada November 2022. LLMS masih merupakan algoritma prediksi kata: mereka menyatukan tanggapan berdasarkan karya yang ditulis oleh penulis, sarjana, dan blogger. Dengan penggunaan santai, chatgpt tampaknya “mencari tahu” jawaban atas pertanyaan Anda. Tetapi apakah itu yang terjadi, atau sangat sulit untuk mengajukan pertanyaan yang tidak ada dalam pelatihan korpora yang tak terduga?
Sementara itu, industri AI sedang berjalan dengan jelas ke merah. Perusahaan AI belum menemukan cara untuk mendapat untung dari Building Foundation Models. Mereka bisa menggunakan cerita yang bagus tentang kemajuan.