Beranda News Demo suara AI realistis yang menakutkan memicu keheranan dan ketidaknyamanan secara online

Demo suara AI realistis yang menakutkan memicu keheranan dan ketidaknyamanan secara online

3
0

Contoh argumen dengan CSM Sesame yang dibuat oleh Gavin Purcell.

Gavin Purcell, co-host AI untuk podcast manusiamemposting an Video contoh di reddit di mana manusia berpura -pura menjadi penggelapan dan berdebat dengan bos. Sangat dinamis sehingga sulit untuk mengatakan siapa manusia itu dan mana yang merupakan model AI. Dilihat dari demo kami sendiri, itu sepenuhnya mampu melakukan apa yang Anda lihat di video.

“Kualitas dekat-manusia”

Di bawah kap, CSM Sesame mencapai realisasinya dengan menggunakan dua model AI yang bekerja bersama (tulang punggung dan dekoder) berdasarkan arsitektur Llama Meta yang memproses teks dan audio yang diselingi. Sesame melatih tiga ukuran model AI, dengan yang terbesar menggunakan 8,3 miliar parameter (model tulang punggung 8 miliar ditambah decoder parameter 300 juta) pada sekitar 1 juta jam audio bahasa Inggris terutama.

CSM Sesame tidak mengikuti pendekatan dua tahap tradisional yang digunakan oleh banyak sistem teks-ke-ucapan sebelumnya. Alih-alih menghasilkan token semantik (representasi pidato tingkat tinggi) dan detail akustik (fitur audio berbutir halus) dalam dua tahap terpisah, CSM Sesame diintegrasikan ke dalam model tunggal, model transformator multimodal, yang secara bersama-sama memproses teks yang diselingi dan token audio untuk menghasilkan pidato. Model suara Openai menggunakan pendekatan multimodal yang serupa.

Dalam tes buta tanpa konteks percakapan, evaluator manusia tidak menunjukkan preferensi yang jelas antara pidato yang dihasilkan CSM dan rekaman manusia nyata, menunjukkan model tersebut mencapai kualitas yang hampir manusia untuk sampel bicara yang terisolasi. Namun, ketika dilengkapi dengan konteks percakapan, evaluator masih secara konsisten lebih suka ucapan manusia nyata, yang menunjukkan kesenjangan tetap dalam generasi pidato kontekstual sepenuhnya.

Co-Founder Wijen Brendan Iribe diakui Keterbatasan saat ini dalam komentar pada berita peretas, mencatat bahwa sistem ini “masih terlalu bersemangat dan seringkali tidak pantas dalam nada, prosodi dan mondar -mandir” dan memiliki masalah dengan gangguan, waktu, dan aliran percakapan. “Hari ini, kami dengan kuat di lembah, tetapi kami optimis kami bisa memanjat,” tulisnya.

Sumber