Beranda News VP Meta Genai menyangkal memanipulasi skor benchmark Llama 4

VP Meta Genai menyangkal memanipulasi skor benchmark Llama 4

Penulis

April 9, 2025

Foto file: VP Meta Genai memposting pernyataan tentang X yang menyangkal bahwa perusahaan telah memanipulasi model AI -nya untuk berkinerja lebih baik pada tolok ukur tertentu sambil menyembunyikan keterbatasan mereka. | Kredit Foto: Reuters

VP Meta Genai, Ahmad al-Dahle, memposting pernyataan tentang X yang menolak tuduhan bahwa perusahaan telah memanipulasi model AI-nya untuk berkinerja lebih baik pada tolok ukur tertentu sambil menyembunyikan keterbatasan mereka. Dia juga membahas keluhan bahwa model Llama 4 tidak menawarkan kinerja berkualitas tinggi yang dijanjikan.

“Kami sudah mendengar banyak hasil hebat yang didapat orang dengan model -model ini. Yang mengatakan, kami juga mendengar beberapa laporan kualitas campuran di berbagai layanan. Karena kami menjatuhkan model segera setelah mereka siap, kami berharap akan membutuhkan beberapa hari untuk semua implementasi publik untuk dihubungi,” katanya.

Dia menambahkan bahwa Meta masih bekerja untuk memperbaiki bug dan bahwa penurunan kualitas yang dilihat pengguna adalah sesuatu yang perlu mereka tunggu.

“Kami juga pernah mendengar klaim bahwa kami berlatih di set tes – itu sama sekali tidak benar dan kami tidak akan pernah melakukan itu,” katanya.

Set uji umumnya adalah data yang digunakan untuk mengukur kinerja model AI pasca-pelatihan. Pelatihan pada set tes akan menunjukkan bahwa skor tolok ukur model mungkin ditingkatkan sehingga keliru tampak lebih baik daripada yang sebenarnya.

Rumor dimulai setelah sebuah pos viral online muncul ditulis oleh mantan karyawan yang mengklaim bahwa mereka berhenti meta karena praktik pembandingan abu -abu perusahaan.

Pos viral tidak diverifikasi, tetapi memicu pertanyaan dan kekhawatiran di antara pengguna meta AI.

Selama rilis, perusahaan mengklaim bahwa Maverick, model AI berukuran sedang mereka, lebih mampu daripada GPT-4O Openai dan tepat di bawah Google Gemini 2.5 Pro, yang saat ini berada di puncak papan peringkat. Namun, sejak Sabtu, ketika penguji mulai menggunakan model, itu tidak cocok dengan kinerja yang diklaim oleh Meta.

Akhirnya, peneliti AI menemukan bahwa dalam makalah penelitian mereka, Meta telah mencatat bahwa versi Maverick yang tersedia untuk umum berbeda dari yang diserahkan ke papan peringkat kinerja, Lmarena. Meta menyebut versi ini sebagai “versi obrolan eksperimental” dari Maverick yang telah “dioptimalkan untuk percakapan.”

Seorang juru bicara meta kemudian mengkonfirmasi hal ini, mengatakan versi model yang dikirim ke Lmarena sebenarnya adalah “Llama-4-Maverick-03-26-Eksperimental.”

Diterbitkan – 09 April 2025 02:35 PM

Sumber

VP Meta Genai menyangkal memanipulasi skor benchmark Llama 4

Artikel Terbaru

Langkah pertama ‘baru saja mengkonfirmasi koneksi’ kiamat ‘yang tragis

Pernyataan aha nol pada kesehatan tidur

‘Disgrace!’ | Reaksi Furious Boyd terhadap Banding ‘Stonewall Penalti’ Rangers

Sentimen Perjalanan Bisnis Memburuk atas Kebijakan Trump – Polling GBTA

Dasbor data baru Virginia bertujuan untuk meningkatkan kesehatan ibu dan anak

Kategori