OpenAI Ingin AI Membantu Manusia Melatih AI

Salah satu bahan utama yang membuat ChatGPT sukses adalah tentara pelatih manusia yang memberikan panduan pada model kecerdasan buatan di balik bot tentang apa yang merupakan output yang baik dan buruk. OpenAI sekarang mengatakan bahwa menambahkan lebih banyak kecerdasan buatan ke dalam campuran – untuk membantu para pelatih manusia – dapat membantu membuat AI helper menjadi lebih pintar dan lebih dapat diandalkan.

Dalam mengembangkan ChatGPT, OpenAI memperkenalkan penggunaan pembelajaran penguatan dengan umpan balik manusia, atau RLHF. Teknik ini menggunakan masukan dari pengujian manusia untuk menyempurnakan model AI sehingga outputnya dianggap lebih koheren, kurang dapat disetujui, dan lebih akurat. Penilaian yang diberikan para pelatih memberikan masukan pada algoritma yang menggerakkan perilaku model. Teknik ini terbukti sangat penting baik untuk membuat chatbot lebih dapat diandalkan dan berguna maupun mencegah mereka dari perilaku yang tidak pantas.

“RLHF memang bekerja sangat baik, tetapi memiliki beberapa batasan kunci,” kata Nat McAleese, seorang peneliti di OpenAI yang terlibat dalam pekerjaan baru ini. Pertama, umpan balik manusia bisa tidak konsisten. Kedua, bisa sulit bagi manusia yang terampil pun untuk menilai output yang sangat kompleks, seperti kode perangkat lunak yang canggih. Proses ini juga dapat mengoptimalkan model untuk menghasilkan output yang tampak meyakinkan daripada sebenarnya akurat.

OpenAI mengembangkan model baru dengan menyempurnakan penawar terkuatnya, GPT-4, untuk membantu para pelatih manusia yang bertugas menilai kode. Perusahaan menemukan bahwa model baru, yang diberi nama CriticGPT, dapat menangkap bug yang terlewatkan oleh manusia, dan para juri manusia menemukan kritikannya terhadap kode lebih baik 63 persen dari waktu. OpenAI akan melihat untuk memperluas pendekatan ini ke area di luar kode di masa depan.

MEMBACA  Rumah Sakit menggunakan alat transkripsi yang didukung oleh model OpenAI yang rentan terhadap halusinasi

“Kami mulai bekerja untuk mengintegrasikan teknik ini ke dalam tumpukan obrolan RLHF kami,” kata McAleese. Dia mencatat bahwa pendekatan ini tidak sempurna, karena CriticGPT juga bisa membuat kesalahan dengan halusinasi, tetapi dia menambahkan bahwa teknik ini dapat membantu membuat model OpenAI serta alat seperti ChatGPT lebih akurat dengan mengurangi kesalahan dalam pelatihan manusia. Dia menambahkan bahwa ini juga mungkin menjadi kunci dalam membantu model AI menjadi jauh lebih pintar, karena hal ini dapat memungkinkan manusia untuk membantu melatih AI yang melebihi kemampuan mereka sendiri. “Dan seiring model terus menjadi lebih baik, kami curiga bahwa orang akan memerlukan lebih banyak bantuan,” kata McAleese.

Teknik baru ini adalah satu dari banyak yang saat ini sedang dikembangkan untuk meningkatkan model bahasa besar dan memperoleh lebih banyak kemampuan dari mereka. Ini juga bagian dari upaya untuk memastikan bahwa AI berperilaku dengan cara yang dapat diterima bahkan ketika menjadi lebih mampu.

Awal bulan ini, Anthropic, pesaing OpenAI yang didirikan oleh mantan karyawan OpenAI, mengumumkan versi chatbot miliknya yang lebih mampu, bernama Claude, berkat peningkatan dalam regimen pelatihan model dan data yang diberikan. Anthropic dan OpenAI juga baru-baru ini mempromosikan cara-cara baru untuk memeriksa model AI untuk memahami bagaimana mereka mencapai output mereka untuk lebih baik mencegah perilaku yang tidak diinginkan seperti penipuan.

Teknik baru ini mungkin membantu OpenAI melatih model AI yang semakin kuat sambil memastikan outputnya lebih dapat dipercaya dan sejalan dengan nilai-nilai manusia, terutama jika perusahaan berhasil menerapkannya di lebih banyak area daripada kode. OpenAI telah mengatakan bahwa mereka sedang melatih model AI utama berikutnya, dan perusahaan jelas ingin menunjukkan bahwa mereka serius dalam memastikan perilaku mereka. Hal ini mengikuti pembubaran tim terkemuka yang didedikasikan untuk menilai risiko jangka panjang yang ditimbulkan oleh AI. Tim itu dipimpin bersama oleh Ilya Sutskever, seorang pendiri perusahaan dan mantan anggota dewan yang sebentar mendorong CEO Sam Altman keluar dari perusahaan sebelum menariknya kembali dan membantunya mendapatkan kembali kendali. Beberapa anggota tim tersebut sejak itu mengkritik perusahaan karena bergerak dengan risiko saat bergegas untuk mengembangkan dan komersialisasi algoritma AI yang kuat.

MEMBACA  Kami tidak dapat memberlakukan sanksi kepada negara ketiga yang membantu Rusia.

Dylan Hadfield-Menell, seorang profesor di MIT yang meneliti cara untuk menyelaraskan AI, mengatakan bahwa ide memiliki model AI membantu melatih yang lebih kuat telah beredar cukup lama. “Ini adalah perkembangan yang sangat alami,” katanya.

Hadfield-Menell mencatat bahwa para peneliti yang awalnya mengembangkan teknik yang digunakan untuk RLHF membahas ide-ide terkait beberapa tahun yang lalu. Dia mengatakan bahwa masih harus dilihat seberapa umum dan kuatnya itu. “Ini mungkin mengarah pada lonjakan besar dalam kemampuan individu, dan ini mungkin menjadi batu loncatan menuju umpan balik yang lebih efektif dalam jangka panjang,” katanya.