OpenAI mengusulkan jaringan saraf kedua untuk menangkap kesalahan kode ChatGPT

CriticGPT adalah model AI berbasis neural net yang mengkritik kode yang dibuat oleh ChatGPT dan menunjukkan bug dalam kode tersebut. OpenAI

Masalah halusinasi – kecerdasan buatan (AI) yang mengklaim kebohongan di bawah lapisan otoritatif – telah menyebabkan beberapa sarjana menyimpulkan bahwa AI generatif tidak dapat mendeteksi maupun memperbaiki kesalahannya.

Dalam sebuah makalah bulan lalu, para peneliti di Google’s DeepMind berargumen bahwa “LLMs belum mampu untuk memperbaiki penalarannya sendiri.”

Juga: Jika AI begitu luar biasa, mengapa ChatGPT mengalami kegagalan dalam tugas pengeditan gambar sederhana ini?

Namun, OpenAI, pencipta ChatGPT, tidak setuju dengan pernyataan ini – dan minggu lalu perusahaan tersebut menawarkan versi GPT-4, yang disebut CriticGPT, yang diklaim dapat membantu menemukan dan memperbaiki kesalahan untuk meningkatkan akurasi model secara keseluruhan.

Hasilnya menjanjikan bagi tim manusia yang membersihkan kode yang dibantu oleh AI. Namun, hasilnya juga menunjukkan bahwa tidak ada jalan keluar dari halusinasi yang dilakukan oleh bot-bots yang membantu.

Juga: AI generatif tidak bisa menemukan kesalahannya sendiri. Apakah kita membutuhkan promosi yang lebih baik?

Pengaturan untuk CriticGPT adalah penulisan kode pemrograman: para peneliti mengusulkan CriticGPT sebagai neural net kedua yang menangkap kesalahan saat ChatGPT membuat kesalahan dalam kode yang dihasilkannya.

Mereka fokus pada penulisan kode karena, sebagaimana mereka sebutkan, kode komputer itu “jelas” – memiliki jawaban yang jelas benar dan salah. Selain itu, OpenAI sebagai organisasi berharap menggunakan AI generatif sebagai “asisten penelitian penyelarasan”, untuk mengotomatisasi beberapa pembentukan pagar untuk teknologi yang sedang berkembang. Penulisan kode sudah menjadi pengguna besar dari AI generatif, sehingga itu adalah target yang berharga untuk dikejar.

Dalam makalah yang diposting di server pra-cetak arXiv, “Kritikus LLM Membantu Menangkap Bug LLM,” penulis utama Nat McAleese dari OpenAI dan rekan-rekannya menggambarkan apa yang mereka sebut sebagai “demonstrasi pertama dari metode pengawasan yang sederhana dan skalabel yang membantu manusia lebih menyelidiki masalah dalam data RLHF dunia nyata secara lebih komprehensif.”

MEMBACA  Maduro Memerintahkan Penangkapan Rival untuk Meredam Ketidaksetujuan di Venezuela

RLHF (penguatan pembelajaran dari umpan balik manusia) mengacu pada praktik yang sudah dikenal untuk mengekspos chatbot terhadap respons dari manusia untuk membuat keluarannya lebih diterima. Itu adalah salah satu cara OpenAI dan yang lainnya telah membentuk pagar untuk mencoba mencegah perilaku yang tidak diinginkan.

Dalam kasus ini, CriticGPT tunduk pada umpan balik dari programmer kontrak manusia yang meninjau kritik yang dihasilkan oleh CriticGPT terhadap kode pemrograman. Manusia memberi penilaian pada kritik yang dihasilkan untuk relevansi, spesifikitas, komprehensivitas, dan lainnya. CriticGPT dilatih untuk menyempurnakan kritik berdasarkan umpan balik manusia untuk mendekati skor persetujuan yang lebih tinggi.

Juga: Apakah AI berbohong kepada kita? Para peneliti ini membangun detektor kebohongan LLM semacam itu untuk mengetahuinya

Namun, McAleese dan tim mengambil langkah tambahan. Mereka menyelipkan beberapa bug yang disengaja dalam kode yang ditinjau oleh CriticGPT dengan cara memasukkan kesalahan dengan sengaja oleh kontraktor manusia. Para peneliti ingin kontraktor menjelaskan bug mereka dan untuk CriticGPT menyerap penjelasan tersebut dan belajar untuk mengasosiasikan bug dengan penjelasan.

Harapannya adalah bahwa CriticGPT akan meningkat saat menghasilkan deskripsi bug yang mendekati apa yang kontraktor manusia sudah tulis tentang bug yang sudah diketahui sebelumnya.

Hasil dari pelatihan, tulis McAleese dan tim, adalah bahwa ChatGPT menemukan lebih banyak bug daripada peninjau kode manusia. CriticGPT “membuat peningkatan besar dalam tingkat di mana bug yang dimasukkan ditangkap, dengan kedua kritikus LLM (ChatGPT yang dipromosikan dan CriticGPT) menemukan jauh lebih banyak bug daripada para penilai manusia,” tulis mereka.

Mereka mencatat bahwa bahkan kontraktor manusia lebih memilih apa yang dihasilkan oleh mesin dalam analisis kode daripada apa yang ditulis oleh sesama manusia.

MEMBACA  Blackstone Dilaporkan Dekat dengan Kesepakatan Senilai $13 Miliar untuk Mengakuisisi AirTrunk

“Kritik yang ditulis oleh CriticGPT jauh lebih disukai oleh kontraktor daripada kritik dari ChatGPT yang dipromosikan dan dari kritik yang ditulis oleh manusia yang diperoleh dari kelompok kontraktor kami menurut peringkat keseluruhan.”

Model AI membantu kontraktor manusia untuk membuat kritik bug mereka lebih kaya, sebuah jenis hasil AI-meningkatkan-manusia yang seharusnya menyenangkan semua orang: “Tim Manusia + CriticGPT menulis kritik yang jauh lebih komprehensif daripada manusia sendirian dan bahwa CriticGPT meningkatkan komprehensivitas atas ChatGPT pada bug yang terdeteksi manusia dan bug yang dimasukkan.”

Seperti yang ditulis penulis dalam sebuah posting blog pendamping, “Saran CriticGPT tidak selalu benar, tetapi kami menemukan bahwa mereka dapat membantu pelatih untuk menemukan banyak masalah dengan jawaban yang ditulis oleh model daripada yang mereka lakukan tanpa bantuan AI.”

Juga: Apakah AI bisa membuat kode? Dalam langkah-langkah bayi saja

Tetapi ada masalah. Sama seperti ChatGPT dan berbagai model AI lainnya dapat “halusinasi” pernyataan yang tidak benar, ternyata CriticGPT juga bisa mengklaim mengidentifikasi bug yang sebenarnya tidak ada.

“Namun, kami menemukan bahwa tingkat nitpicking dan bug halusinasi jauh lebih tinggi untuk model daripada untuk manusia, meskipun CriticGPT mampu mengurangi tingkat ini secara signifikan dibandingkan dengan ChatGPT,” tulis mereka.

CriticGPT mengalami halusinasi bug dalam kode manusia.

Itu adalah dilema: semakin baik model AI dalam menangkap bug, semakin banyak tampaknya mengalami halusinasi bug: “Sayangnya, tidak jelas apa kompromi yang tepat antara halusinasi dan deteksi bug untuk sistem RLHF keseluruhan yang menggunakan kritik untuk meningkatkan kinerja model.”

Dan tidak mudah untuk menemukan titik tengah, mereka mencatat, karena, “Eksperimen ideal akan menjalankan lingkaran pengumpulan data RLHF yang ditingkatkan dengan kritik yang sepenuhnya terpisah untuk setiap titik presisi/recall; tetapi ini terlalu mahal.”

MEMBACA  Wakil penjualan Google diduga terus menerus memberitahu pengiklan cara menargetkan remaja

Dalam kesenjangan itu, McAleese dan tim menemukan sebuah kompromi. Force Sampling Beam Search mencoba mengangkat kritik CriticGPT yang paling berharga sambil meminimalkan jumlah kritik palsu.

Di antara potensi kelemahan pendekatan OpenAI adalah bahwa pelatihan Critic GPT dibangun berdasarkan manusia menyisipkan bug yang disengaja. Pendekatan tersebut, tulis McAleese dan tim, berbeda dari distribusi kesalahan LLM alami.

“Melatih model untuk menyisipkan masalah in-distribution yang halus (dibandingkan dengan membayar manusia untuk menyisipkan bug) mungkin bisa mengurangi kekhawatiran ini, tetapi kami menyisakan arah tersebut untuk penelitian masa depan.”

Jadi, masalah akan selalu berkisar pada bagaimana memulai otomatisasi tanpa harus mendapat bantuan manusia.

Masalah lain – dan yang tidak disebutkan oleh para penulis – adalah bahwa, seperti halnya dengan semua hal di OpenAI, baik model CriticGPT baru maupun data pelatihannya tidak tersedia untuk umum: semuanya tertutup, tidak ada kode sumber untuk diperiksa, tidak ada set data yang bisa diunduh oleh orang lain. Penutupan itu berarti tidak ada atau sedikit cara bagi para ahli etika atau keamanan luar untuk memverifikasi koreksi yang dibuat oleh model CriticGPT.

Tanpa pengawasan dari pihak luar OpenAI, kata pepatah, siapa yang akan mengawasi para pengawas?