Beranda News Apakah Xai berbohong tentang tolok ukur Grok 3?

Apakah Xai berbohong tentang tolok ukur Grok 3?

10
0

Debat tentang tolok ukur AI – dan bagaimana mereka dilaporkan oleh AI Labs – menumpahkan pandangan publik.

Minggu ini, seorang karyawan openai dituduh Perusahaan AI Elon Musk, Xai, dari menerbitkan hasil patokan yang menyesatkan untuk model AI terbarunya, Grok 3. Salah satu pendiri XAI, Igor Babushkin, bersikeras bahwa perusahaan itu benar.

Kebenaran terletak di suatu tempat di antara keduanya.

Di sebuah Posting di blog XaiPerusahaan ini menerbitkan grafik yang menunjukkan kinerja Grok 3 di AIME 2025, kumpulan pertanyaan matematika yang menantang dari ujian matematika undangan baru -baru ini. Beberapa ahli memiliki Dipertanyakan validitas AIME sebagai tolok ukur AI. Namun demikian, AIME 2025 dan versi tes yang lebih lama biasanya digunakan untuk menyelidiki kemampuan matematika model.

Grafik Xai menunjukkan dua varian dari Grok 3, Grok 3 Reasoning Beta dan Grok 3 Mini Reasoning, mengalahkan model yang tersedia dengan kinerja terbaik Openai, O3-Mini-High, pada AIME 2025. Tetapi karyawan OpenAI di X dengan cepat menunjukkan bahwa grafik Xai itu Tidak termasuk skor AIME 2025 O3-Mini-High di “Cons@64.”

Apa itu kontra@64, Anda mungkin bertanya? Nah, ini kependekan dari “Konsensus@64,” dan pada dasarnya memberikan model 64 mencoba menjawab setiap masalah dalam tolok ukur dan mengambil jawaban yang paling sering dihasilkan sebagai jawaban akhir. Seperti yang dapat Anda bayangkan, Cons@64 cenderung meningkatkan skor benchmark model sedikit, dan menghilangkannya dari grafik mungkin membuatnya tampak seolah -olah satu model melampaui yang lain ketika pada kenyataannya, bukan itu masalahnya.

GROK 3 REALTH BETA DAN GROK 3 MINI REASONING SCORE untuk AIME 2025 di “@1”-yang berarti skor pertama yang didapat model pada tolok ukur-jatuh di bawah skor O3-Mini-High. Grok 3 Reasoning Beta juga tertinggal di belakang model O1 Openai yang diatur ke komputasi “sedang”. Namun Xai adalah Iklan Grok 3 sebagai “AI paling cerdas di dunia.”

Babushkin berdebat tentang x Openai itu telah menerbitkan grafik patokan yang sama menyesatkannya di masa lalu – meskipun membandingkan kinerja modelnya sendiri. Pesta yang lebih netral dalam debat mengumpulkan grafik yang lebih “akurat” yang menunjukkan hampir setiap model kinerja di Cons@64:

Tapi sebagai peneliti AI Nathan Lambert ditunjukkan di posMungkin metrik yang paling penting tetap menjadi misteri: biaya komputasi (dan moneter) yang diperlukan untuk setiap model untuk mencapai skor terbaiknya. Itu hanya menunjukkan betapa sedikitnya sebagian besar tolok ukur AI berkomunikasi tentang keterbatasan model – dan kekuatannya.



Sumber