Para eksekutif di perusahaan kecerdasan buatan mungkin ingin memberitahu kita bahwa AGI hampir ada, tetapi model terbaru masih memerlukan beberapa pembimbingan tambahan untuk membantu mereka menjadi secerdas mungkin. Scale AI, sebuah perusahaan yang telah memainkan peran penting dalam membantu perusahaan AI perintis membangun model-model canggih, telah mengembangkan platform yang dapat secara otomatis menguji sebuah model melintasi ribuan benchmark dan tugas, menemukan kelemahan, dan menandai data pelatihan tambahan yang seharusnya membantu meningkatkan keterampilan mereka. Scale, tentu saja, akan menyediakan data yang diperlukan. Scale naik menjadi terkenal dengan menyediakan tenaga kerja manusia untuk melatih dan menguji model AI canggih. Model-model bahasa besar dilatih pada teks yang banyak diambil dari buku, web, dan sumber lainnya. Mengubah model-model ini menjadi chatbot yang membantu, koheren, dan sopan memerlukan “post training” tambahan dalam bentuk manusia yang memberikan umpan balik pada output model. Scale menyediakan pekerja yang ahli dalam menjelajahi model untuk menemukan masalah dan batasan. Alat baru ini, yang disebut Evaluasi Skala, mengotomatisasi sebagian dari pekerjaan ini dengan menggunakan algoritma pembelajaran mesin milik Scale sendiri. “Di dalam lab-lab besar, ada semua cara yang sembarangan untuk melacak beberapa kelemahan model,” kata Daniel Berrios, kepala produk untuk Evaluasi Skala. Alat baru ini “adalah cara bagi [pembuat model] untuk melalui hasil dan memahaminya di mana model tidak berperforma dengan baik,” kata Berrios, “kemudian menggunakan itu untuk menargetkan kampanye data untuk perbaikan.” Berrios mengatakan bahwa beberapa perusahaan model AI perintis sudah menggunakan alat ini. Dia mengatakan bahwa kebanyakan dari mereka menggunakannya untuk meningkatkan kemampuan penalaran dari model-model terbaik mereka. Penalaran AI melibatkan model mencoba memecahkan masalah menjadi bagian-bagian konstituen untuk memecahkannya dengan lebih efektif. Pendekatan ini sangat bergantung pada post-training dari pengguna untuk menentukan apakah model telah memecahkan masalah dengan benar. Dalam satu kasus, Berrios mengatakan, Evaluasi Skala menunjukkan bahwa keterampilan penalaran dari model menurun ketika diberi masukan non-Inggris. “Sementara kemampuan penalaran tujuan umum [model] cukup baik dan berperforma baik dalam benchmark, mereka cenderung menurun cukup banyak ketika masukan tidak dalam bahasa Inggris,” katanya. Skala Evolusi menyoroti masalah tersebut dan memungkinkan perusahaan untuk mengumpulkan data pelatihan tambahan untuk mengatasinya. Jonathan Frankle, ilmuwan kecerdasan buatan utama di Databricks, sebuah perusahaan yang membangun model AI besar, mengatakan bahwa dapat menguji satu model dasar melawan yang lain terdengar berguna dalam prinsipnya. “Siapa pun yang mendorong evaluasi lebih maju membantu kita membangun AI yang lebih baik,” kata Frankle. Dalam beberapa bulan terakhir, Skala telah berkontribusi pada pengembangan beberapa benchmark baru yang dirancang untuk mendorong model AI menjadi lebih cerdas dan untuk lebih cermat mengawasi bagaimana mereka mungkin berperilaku buruk. Ini termasuk EnigmaEval, MultiChallenge, MASK, dan Ujian Terakhir Kemanusiaan. Skala mengatakan bahwa menjadi semakin menantang untuk mengukur peningkatan dalam model AI, namun, seiring mereka menjadi lebih baik dalam menguji tes yang ada. Perusahaan mengatakan bahwa alat baru mereka menawarkan gambaran yang lebih komprehensif dengan menggabungkan banyak benchmark yang berbeda dan dapat digunakan untuk merancang tes kustom kemampuan sebuah model, seperti menjelajahi penalarannya dalam berbagai bahasa. AI milik Scale sendiri dapat mengambil masalah yang diberikan dan menghasilkan lebih banyak contoh, memungkinkan untuk tes yang lebih komprehensif terhadap keterampilan model. Alat baru perusahaan ini juga dapat memberikan informasi untuk upaya standarisasi pengujian model AI untuk perilaku buruk. Beberapa peneliti mengatakan bahwa kurangnya standarisasi berarti bahwa beberapa “jailbreak” model tidak dilaporkan. Pada bulan Februari, Institut Standar dan Teknologi Nasional AS mengumumkan bahwa Skala akan membantu mengembangkan metodologi untuk menguji model untuk memastikan mereka aman dan dapat dipercaya. Jenis kesalahan apa yang telah Anda temukan dalam output alat AI generatif? Apa yang menurut Anda adalah titik buta terbesar dari model-model? Beritahu kami dengan mengirim email ke [email protected] atau dengan berkomentar di bawah.
