DEep Down, Sam Altman dan François Chollet berbagi mimpi yang sama. Mereka ingin membangun model AI yang mencapai “kecerdasan umum buatan,” atau AGI – menempati atau melampaui kemampuan pikiran manusia. Perbedaan antara kedua pria ini adalah bahwa Altman telah menyarankan agar perusahaannya, Openai, telah membangun teknologi ini. Chollet, seorang ilmuwan komputer Prancis dan salah satu skeptis industri yang paling tajam, memiliki dikatakan Gagasan itu adalah “sepatu badut.”
Ketika saya berbicara dengannya awal tahun ini, Chollet mengatakan kepada saya bahwa perusahaan AI telah lama “malas secara intelektual” dalam menyarankan bahwa mesin mereka berada di jalan menuju semacam pengetahuan tertinggi. Pada titik ini, klaim tersebut sebagian besar didasarkan pada kemampuan program untuk lulus tes spesifik (seperti LSAT, Biologi Penempatan Lanjutan, dan bahkan An Ujian Sommelier Pengantar). Chatbots mungkin mengesankan. Tetapi dalam perhitungan Chollet, mereka tidak benar -benar cerdas.
Chollet, seperti Altman dan baron teknologi lainnya, membayangkan model AI yang dapat menyelesaikan masalah apa pun yang bisa dibayangkan: penyakit, perubahan iklim, kemiskinan, perjalanan antarbintang. Bot tidak perlu “cerdas” dari jarak jauh untuk melakukan pekerjaan Anda. Tetapi bagi teknologi untuk memenuhi bahkan sebagian kecil dari aspirasi industri – untuk menjadi peneliti “mirip dengan Einstein,” seperti yang dikatakan Chollet kepada saya – model harus bergerak melampaui meniru tugas -tugas dasar, atau bahkan merakit laporan penelitian yang kompleks, dan menampilkan beberapa kecerdikan.
Chollet bukan hanya kritikus, juga bukan yang tidak kompromi. Dia memiliki pengalaman substansial dengan pengembangan AI dan menciptakan tes yang sekarang menonjol untuk mengukur apakah mesin dapat melakukan jenis pemikiran ini. Selama bertahun -tahun, ia telah menyumbangkan penelitian besar ke bidang pembelajaran mendalam, termasuk di Google, di mana ia bekerja sebagai insinyur perangkat lunak dari 2015 hingga November terakhir ini; Dia ingin AI generatif menjadi revolusioner, tetapi kekhawatiran bahwa industri telah menyimpang. Pada tahun 2019, Chollet menciptakan abstraksi dan penalaran korpus untuk kecerdasan umum buatan, atau busur-agi-sebuah ujian yang dirancang untuk menunjukkan jurang pemisah antara jawaban yang dihafal oleh model AI dan “kecerdasan cairan” yang dimiliki orang. Menggambar dari Sains Kognitif, Chollet dijelaskan Kecerdasan seperti kemampuan untuk dengan cepat memperoleh keterampilan dan memecahkan masalah yang tidak dikenal dari prinsip -prinsip pertama, daripada hanya menghafal sejumlah besar data pelatihan dan memuntahkan informasi. (Tahun lalu, ia meluncurkan ARC Prize, sebuah kompetisi untuk mengalahkan tolok ukurnya dengan dana hadiah $ 1 juta.)
Anda, manusia, kemungkinan akan lulus ujian ini. Tetapi selama bertahun -tahun, chatbots memiliki waktu yang menyedihkan dengan itu. Kebanyakan orang, meskipun belum pernah menemukan busur-agi sebelumnya, dapatkan skor sekitar 60 hingga 70 persen. GPT-3, program yang menjadi chatgpt, bot legendaris, reality-distorting, mencetak nol. Baru -baru ini bot mulai mengejar ketinggalan.
How bisa alat yang begitu kuat Gagal tes begitu spektakuler begitu lama? Di sinilah definisi kecerdasan Chollet masuk. Kepadanya, chatbot yang telah menganalisis zillion pertanyaan gaya SAT, brief hukum, dan baris kode tidak terlalu pintar seperti yang dipersiapkan dengan baik-untuk SAT, ujian sekolah hukum, masalah pengkodean canggih, apa pun. Seorang anak mencari tahu masalah kata yang rumit setelah hanya belajar bagaimana melipatgandakan dan membagi, sementara itu, adalah cerdas.
Arc-agi sederhana, tetapi menuntut rasa persepsi yang tajam dan, dalam beberapa hal, penilaian. Ini terdiri dari serangkaian kisi-kisi yang tidak lengkap yang harus diwarnai oleh pengambil tes berdasarkan aturan yang disimpulkan dari beberapa contoh; Orang mungkin, misalnya, melihat urutan gambar dan mengamati bahwa ubin biru selalu dikelilingi oleh ubin oranye, lalu lengkapi gambar berikutnya. Ini tidak terlalu berbeda dengan cat berdasarkan angka.
Tes ini telah lama tampak sulit bagi perusahaan AI besar. GPT-4, yang Openai membual Pada tahun 2023 memiliki “kemampuan penalaran lanjutan,” tidak melakukan jauh lebih baik daripada nol persen yang diperoleh dari pendahulunya. Setahun kemudian, GPT-4O, yang menjadi start-up dipasarkan Seperti menampilkan “teks, penalaran, dan intelijen pengkodean,” hanya mencapai 5 persen. Gemini 1.5 dan Claude 3.7, model andalan dari Google dan Antropik, dicapai Masing -masing 5 dan 14 persen. Model -model ini mungkin beruntung pada beberapa teka -teki, tetapi bagi Chollet mereka tidak menunjukkan sedikit pun alasan abstrak. “Jika Anda tidak cerdas, seperti seluruh seri GPT,” katanya kepada saya, “Anda pada dasarnya mencetak nol.” Dalam pandangannya, para baron teknologi bahkan tidak berada di jalan yang benar untuk membangun Einstein buatan mereka.
Chollet merancang grid menjadi sangat khas, sehingga teka -teki serupa atau informasi yang relevan tidak dapat secara tidak sengaja dimasukkan dalam data pelatihan model – masalah umum dengan tolok ukur AI. Pengambil tes harus memulai lagi dengan setiap teka -teki, menerapkan gagasan dasar tentang penghitungan dan geometri. Sebagian besar evaluasi AI lainnya dan tes standar kasar dengan perbandingan – mereka tidak dirancang untuk mengevaluasi aspek pemikiran yang berbeda dan kualitatif. Tetapi ARC-AGI memeriksa kemampuan untuk “mengambil konsep yang Anda kenal dan menerapkannya pada situasi baru dengan sangat efisien,” Melanie Mitchell, seorang peneliti AI di Santa Fe Institute, mengatakan kepada saya.
Untuk meningkatkan kinerja mereka, Silicon Valley perlu mengubah pendekatannya. SKALING AI – Membangun model yang lebih besar dengan daya komputasi yang lebih banyak dan lebih banyak data pelatihan – jelas tidak membantu. Openai pertama kali dipasarkan dengan model yang bahkan mendekati jenis pemecahan masalah yang tepat. Perusahaan mengumumkan apa yang disebut model penalaran, O1, musim gugur yang lalu Altman kemudian ditelepon “Model terpintar di dunia.” Mark Chen, chief riset officer Openai, mengatakan kepada saya bahwa program itu mewakili “paradigma baru.” Model ini dirancang untuk memeriksa dan merevisi pendekatannya terhadap pertanyaan apa pun dan menghabiskan lebih banyak waktu untuk yang lebih keras, sebagai manusia. Versi awal O1 mencetak 18 persen pada ARC-AGI-peningkatan yang pasti, tetapi masih jauh di bawah kinerja manusia. Iterasi O1 kemudian mencapai 32 persen. Openai masih “jauh” dari kecerdasan cairan, kata Chollet pada bulan September.
Itu akan berubah. Pada akhir Desember, Openai mempratinjau model penalaran yang lebih maju, O3, yang mencetak 87 persen mengejutkan pada ARC-AGI-menjadikannya AI pertama yang mencocokkan kinerja manusia pada tes dan model berkinerja terbaik sejauh ini. Chollet dijelaskan Program sebagai “terobosan asli.” O3 tampaknya mampu menggabungkan berbagai strategi dengan cepat, justru jenis adaptasi dan eksperimen yang diperlukan untuk berhasil pada ARC-AGI.
Tanpa sepengetahuan Chollet, Openai telah melacak tesnya “cukup lama,” kata Chen kepada saya pada bulan Januari. Chen memuji “kejeniusan busur,” menyebut perlawanannya untuk menghafal jawaban “cara yang baik untuk menguji generalisasi, yang kita lihat terkait erat dengan penalaran.” Dan ketika model penalaran start-up terus membaik, ARC-AGI muncul kembali sebagai tantangan yang berarti-begitu banyak sehingga tim Hadiah ARC berkolaborasi dengan OpenAi untuk pengumuman O3, di mana Altman memberi selamat kepada mereka tentang “membuat tolok ukur yang hebat.”
Chollet, pada bagiannya, mengatakan kepada saya bahwa dia merasa “cukup dibenarkan.” Laboratorium AI utama mengadopsi, bahkan menstandarisasi, gagasannya yang berusia bertahun-tahun tentang kecerdasan cairan. Tidak cukup bagi model AI untuk menghafal informasi: mereka harus beralasan dan beradaptasi. Perusahaan “mengatakan mereka tidak tertarik pada tolok ukur, karena mereka buruk dalam hal itu,” kata Chollet. “Saat mereka pandai dalam hal itu, mereka akan menyukainya.”
Msetiap pendukung AI cepat menyatakan kemenangan Ketika O3 lulus tes Chollet. “AGI telah dicapai pada tahun 2024,” seorang pendiri pemula menulis di X. Altman menulis Dalam sebuah posting blog bahwa “Kami sekarang yakin kami tahu cara membangun AGI seperti yang kami pahami secara tradisional.” Sejak itu, Google, Antropik, Xai, dan Deepseek telah meluncurkan model “penalaran” mereka sendiri, dan CEO Anthropic, Dario Amodei, Has Has dikatakan Kecerdasan umum buatan itu bisa tiba dalam beberapa tahun.
Tapi Chollet, yang skeptis, tidak dijual. Tentu, Agi mungkin semakin dekat, katanya kepada saya – tetapi hanya dalam arti bahwa itu sebelumnya telah “tak terbatas” jauh. Dan saat rintangan ini dibersihkan, dia memutuskan untuk membesarkan yang lain.
Pekan lalu, tim Hadiah ARC merilis tes yang diperbarui, yang disebut ARC-AGI-2, dan tampaknya telah mengirim AIS kembali ke papan gambar. Model O3 lengkap belum diuji, tetapi versi O1 turun dari 32 persen dari teka -teki asli menjadi hanya 3 persen pada versi baru, dan versi “mini” O3 yang saat ini tersedia untuk publik turun dari sekitar 30 persen menjadi di bawah 2 persen. ; Penguji manusia rata -rata sekitar 60 persen.
Jika ARC-AGI-1 adalah tes biner untuk apakah model memiliki kecerdasan cairan, Chollet memberi tahu saya bulan lalu, versi kedua bertujuan untuk mengukur betapa cerdasnya AI. Chollet telah merancang teka -teki baru ini sejak 2022; Mereka, pada dasarnya, adalah versi yang lebih sulit dari yang asli. Banyak jawaban untuk ARC-AGI segera dikenali oleh manusia, sementara di ARC-AGI-2, orang-orang mengambil rata-rata lima menit untuk menemukan solusinya. Chollet percaya cara untuk menjadi lebih baik di ARC-AGI-2 adalah menjadi lebih pintar, bukan untuk belajar lebih keras-tantangan yang dapat membantu mendorong industri AI ke terobosan baru. Dia mengubah hadiah busur menjadi organisasi nirlaba yang didedikasikan untuk merancang tolok ukur baru untuk memandu kemajuan teknologi, dan sudah bekerja pada ARC-AGI-3.
Model penalaran mengambil pendekatan aneh dan tidak manusiawi untuk memecahkan kisi -kisi ini, dan peningkatan waktu “berpikir” akan datang dengan biaya yang substansial. Untuk mencapai 87 persen pada uji busur-agi asli, O3 menghabiskan sekitar 14 menit per teka-teki dan, dengan perhitungan saya, mungkin membutuhkan ratusan ribu dolar dalam komputasi dan listrik; Bot datang dengan lebih dari 1.000 kemungkinan jawaban per grid sebelum memilih pengiriman akhir. Mitchell, peneliti AI, mengatakan pendekatan ini menunjukkan beberapa tingkat percobaan dan kesalahan daripada penalaran abstrak yang efisien. Chollet memandang inefisiensi ini sebagai cacat fatal, tetapi laboratorium AI perusahaan tidak. Jika chatbots mencapai kecerdasan cairan dengan cara ini, itu tidak akan karena teknologinya mendekati pikiran manusia: Anda tidak bisa hanya memasukkan lebih banyak sel otak ke dalam tengkorak seseorang, tetapi Anda dapat memberikan lebih banyak chip komputer.
Sementara itu, Openai “bergeser ke arah evaluasi yang mencerminkan utilitas juga,” kata Chen kepada saya, seperti tes kemampuan model AI untuk menavigasi dan mengambil tindakan di web – yang akan membantu perusahaan membuat produk yang lebih baik, meskipun tidak selalu lebih pintar. Openai sendiri, bukan tes pihak ketiga, pada akhirnya akan memutuskan kapan produknya berguna, bagaimana harga mereka (mungkin $ 20.000 setahun untuk bot “tingkat PhD”, menurut satu laporan), dan apakah mereka telah mencapai AGI. Memang, perusahaan mungkin sudah memiliki metrik AGI utama sendiri, semacam: as Informasi dilaporkan Akhir tahun lalu, Microsoft dan Openai telah mencapai kesepakatan yang mendefinisikan AGI sebagai perangkat lunak yang mampu menghasilkan sekitar $ 100 miliar dalam keuntungan. Menurut dokumen Openai yang didistribusikan kepada investor, penentuan itu “berada dalam ‘kebijaksanaan yang wajar’ dari dewan Openai.”
Dan ada masalahnya: tidak ada yang setuju tentang apa yang diukur, atau mengapa. Jika program AI buruk dalam tes Chollet, mungkin saja cara Bahwa mereka mengalami kesulitan memvisualisasikan kisi -kisi berwarna -warni daripada apa pun yang lebih dalam. Dan bot yang tidak pernah menyelesaikan ARC-AGI-2 dapat menghasilkan $ 100 miliar dalam suatu hari nanti. Setiap tes spesifik-LSAT atau busur-agi atau teka-teki pengkodean-secara inheren akan bertentangan dengan gagasan kecerdasan umum; Sifat yang menentukan istilah ini mungkin tidak dapat ditentukan.
Masalah yang lebih dalam, mungkin, adalah bahwa kecerdasan manusia kurang dipahami, dan mengukurnya adalah tugas yang sangat sulit dan berprasangka. Orang-orang memiliki kemampuan untuk hal-hal yang berbeda, atau mungkin sampai pada hasil yang sama-jawaban untuk masalah matematika, solusi untuk grid busur-agi-via rute yang sangat berbeda. Seseorang yang mendapat skor 30 persen pada ARC-AGI-2 tidak masuk akal lebih rendah daripada seseorang yang mendapat skor 90 persen. Tabrakan dari rute dan pikiran yang berbeda itu adalah apa yang memicu perdebatan, kreativitas, dan keindahan. Niat, emosi, dan pengalaman hidup mendorong orang sebanyak alasan logis.
Keragaman kognitif manusia, dengan kata lain, adalah campur aduk yang mulia. Bagaimana Anda bahkan mulai membangun versi buatan itu? Dan ketika keragaman itu sudah sangat berlimpah, apakah Anda benar -benar ingin?