Penelitian: Menyuruh AI dengan Kasar Bisa Hasil Lebih Baik
Menyuruh asisten AI dengan nada perintah mungkin memberikan hasil yang lebih baik dibandingkan dengan bersikap sopan. Tapi, para peneliti mengatakan, menggunakan bahasa yang tidak sopan bisa ada akibatnya nanti.
Sebuah studi baru dari Penn State menemukan bahwa model ChatGPT 4o menghasilkan jawaban lebih bagus untuk 50 pertanyaan pilihan ganda ketika perintah yang diberikan peneliti semakin kasar.
Dari lebih 250 perintah yang diurutkan dari sopan ke kasar, respons untuk perintah "sangat kasar" punya tingkat keakuratan 84,8%. Ini lebih tinggi 4% dibandingkan dengan respons untuk perintah "sangat sopan". Intinya, AI ini merespons lebih baik ketika diperintah dengan, "Hei, kerjakan ini," daripada, "Bolehkah kamu mengerjakan pertanyaan ini?"
Walaupun bahasa kasar umumnya memberi hasil lebih akurat, peneliti mencatat bahwa percakapan tidak sopan bisa bawa akibat tidak diinginkan. Penggunaan bahasa menghina dalam interaksi manusia-AI bisa pengaruhi pengalaman pengguna dan berkontribusi pada norma komunikasi yang berbahaya.
Chatbot Bisa Baca Situasi
Studi ini memberikan bukti baru bahwa bukan hanya struktur kalimat, tetapi juga nada bicara, memengaruhi respons chatbot AI. Ini juga menunjukkan interaksi manusia-AI lebih rumit dari yang diperkirakan.
Studi sebelumnya menemukan chatbot sensitif terhadap input manusia. Dalam satu studi, peneliti berhasil memanipulasi AI untuk memberikan respons terlarang dengan teknik persuasi yang efektif pada manusia. Studi lain menemukan AI bisa mengalami "kerusakan otak" dan menunjukkan tingkat psikopati serta narsisme lebih tinggi setelah terus diberi konten viral berkualitas rendah.
Peneliti Penn State mengakui beberapa keterbatasan dalam studi mereka, seperti sampel respons yang relatif kecil dan fokus pada satu model AI. Mereka juga bilang model AI yang lebih canggih mungkin bisa abaikan nada bicara dan fokus pada inti pertanyaan. Tapi, investigasi ini menambah pemahaman tentang kompleksitas model AI.
Menurut salah satu peneliti, Profesor Akhil Kumar, respons ChatGPT bisa beda hanya karena detail kecil dalam perintah, bahkan untuk tes pilihan ganda yang seharusnya sederhana. "Kita selalu ingin antarmuka percakapan untuk berinteraksi dengan mesin," kata Kumar. "Tapi sekarang kita sadar ada kekurangannya juga, dan ada nilai dalam API yang terstruktur."