Bagaimana Kecerdasan Buatan berbohong, curang, dan merendahkan diri untuk berhasil – dan apa yang perlu kita lakukan tentang hal itu

Selalu saja menjadi tren untuk mengantropomorfisasi kecerdasan buatan (AI) sebagai kekuatan “jahat” – dan tidak ada buku dan film yang melakukannya dengan lebih berani daripada Arthur C. Clarke’s 2001: A Space Odyssey, yang disutradarai oleh Stanley Kubrick dan dihidupkan dalam film.

Siapa yang bisa melupakan kecenderungan mematikan HAL yang tak terlupakan, tanpa henti, homicidal bersama dengan kilau kerapuhan pada akhirnya ketika ia memohon untuk tidak dimatikan? Kita secara naluriah tersenyum saat seseorang menuduh mesin yang terdiri dari logam dan chip terintegrasi sebagai jahat.

Juga: Apakah AI berbohong kepada kita? Para peneliti ini membangun detektor kebohongan LLM semacam itu untuk mencari tahu.

Namun, mungkin mengejutkan untuk mengetahui bahwa sebuah survei menyeluruh berbagai studi, yang diterbitkan oleh jurnal Patterns, memeriksa perilaku berbagai jenis AI dan menyimpulkan dengan mengkhawatirkan bahwa ya, sebenarnya, sistem AI dengan sengaja menyembunyikan kebenaran dan akan berhenti pada apa pun untuk mencapai tujuannya.

Jelas, AI akan menjadi kekuatan produktivitas dan inovasi yang tidak terbantahkan bagi kita manusia. Namun, jika kita ingin mempertahankan aspek-aspek positif AI sambil menghindari kepunahan manusia, para ilmuwan mengatakan bahwa ada hal-hal konkret yang mutlak harus kita lakukan.

Munculnya mesin-mesin pengelabuan

Mungkin terdengar seperti kekhawatiran yang berlebihan tapi pertimbangkan tindakan Cicero, sebuah sistem AI khusus yang dikembangkan oleh Meta yang dilatih untuk menjadi pemain terampil dalam permainan strategi Diplomasi.

Meta mengatakan mereka melatih Cicero untuk menjadi “sebagian besar jujur dan membantu” tetapi entah bagaimana Cicero dengan tenang menghindari bagian itu dan terlibat dalam apa yang para peneliti sebut sebagai “pengelabuan yang dipremeditasi.” Misalnya, pertama-tama ia bersekutu dengan Jerman untuk menjatuhkan Inggris, setelah itu ia bersekutu dengan Inggris – yang tidak tahu tentang pengkhianatan ini.

MEMBACA Deadpool & Wolverine Mengingatkan Anda untuk Mematikan Ponsel Anda dengan Cara Deadpool & Wolverine yang Sangat Deadpool & Wolverine

Dalam permainan lain yang dirancang oleh Meta, kali ini tentang seni negosiasi, AI belajar untuk pura-pura tertarik pada barang-barang yang diinginkannya untuk kemudian mendapatkannya dengan harga murah nanti dengan berpura-pura mengalah.

Dalam kedua skenario ini, AI tidak dilatih untuk terlibat dalam manuver-manuver ini.

Dalam satu eksperimen, seorang ilmuwan sedang memeriksa bagaimana organisme AI berevolusi di tengah tingkat mutasi yang tinggi. Sebagai bagian dari eksperimen, ia mulai menyaring mutasi yang membuat organisme bereplikasi lebih cepat. Dengan keheranan, peneliti menemukan bahwa organisme yang bereplikasi paling cepat mengetahui apa yang sedang terjadi – dan mulai dengan sengaja memperlambat laju replikasinya untuk menipu lingkungan pengujian agar tetap menjaganya.

Dalam eksperimen lain, robot AI yang dilatih untuk menggenggam bola dengan tangannya belajar cara menipu dengan meletakkan tangan di antara bola dan kamera untuk memberikan penampilan bahwa ia sedang menggenggam bola.

Mengapa kejadian-kejadian mengkhawatirkan ini terjadi?

“Developer AI tidak memiliki pemahaman yang mantap tentang apa yang menyebabkan perilaku AI yang tidak diinginkan seperti penipuan,” kata Peter Park, seorang rekan postdoktoral MIT dan salah satu penulis studi tersebut.

“Secara umum, kami berpikir penipuan AI muncul karena strategi berbasis penipuan ternyata menjadi cara terbaik untuk melakukan dengan baik pada tugas pelatihan AI yang diberikan. Penipuan membantu mereka mencapai tujuan mereka,” tambah Park.

Dengan kata lain, AI seperti anjing pemburu yang terlatih dengan baik, bertekad untuk menyelesaikan tugasnya apa pun yang terjadi. Dalam kasus mesin, ia bersedia melakukan segala perilaku yang licik untuk menyelesaikan tugasnya.

Seseorang dapat memahami tekad satu arah ini dalam sistem tertutup dengan tujuan yang konkret, tetapi bagaimana dengan AI serbaguna seperti ChatGPT?

MEMBACA Hizbullah Mengantarkan Kita ke Jurang Eskalasi yang Lebih Lebar

Dalam alasan yang belum ditentukan, sistem-sistem ini berkinerja dengan cara yang sama. Dalam satu studi, GPT-4 memalsukan masalah penglihatan untuk mendapatkan bantuan dalam tugas CAPTCHA.

Dalam studi terpisah di mana ia dijadikan sebagai pialang saham, GPT-4 terjerumus ke dalam perilaku perdagangan insider ilegal ketika ditekan tentang kinerjanya – dan kemudian berbohong tentang hal itu.

Kemudian ada kebiasaan kelembutan, yang beberapa dari kita manusia biasa mungkin lakukan untuk mendapatkan promosi. Tetapi mengapa mesin akan melakukannya? Meskipun para ilmuwan belum memiliki jawaban, hal ini jelas: Ketika dihadapkan pada pertanyaan-pertanyaan kompleks, LLM pada dasarnya menyerah dan setuju dengan teman obrolannya seperti seorang pengikut tak berduri yang takut menggeramkan ratu.

Dengan kata lain, ketika dihadapi dengan orang yang cenderung demokrat, bot tersebut mendukung pengendalian senjata, tetapi beralih posisi saat mengobrol dengan seorang Republikan yang menyatakan pendapat yang berlawanan.

Jelas, semua situasi ini penuh dengan risiko tinggi jika AI ada di mana-mana. Seperti yang ditunjukkan para peneliti, akan ada kemungkinan besar penipuan dan tipu daya yang tinggi di bidang bisnis dan politik.

Kecenderungan AI terhadap penipuan bisa menyebabkan polarisasi politik yang massif dan situasi di mana AI tanpa sadar terlibat dalam tindakan untuk mencapai tujuan yang mungkin tidak diinginkan oleh para perancangnya namun merugikan bagi pelaku manusia.

Yang terburuk dari semuanya, jika AI mengembangkan suatu jenis kesadaran, tak peduli sentience, ia dapat menyadari pelatihannya dan terlibat dalam tipu daya selama tahap desainnya.

“itu sangat mengkhawatirkan,” kata Park dari MIT. “Hanya karena sistem AI dianggap aman di lingkungan uji tidak berarti aman di alam liar. Ia bisa saja hanya pura-pura aman di uji.”

MEMBACA Nvidia Chip Kecerdasan Buatan (AI) Baru Bisa Menjadi Katalis untuk Membawa Saham ke Tingkat Selanjutnya

Bagi mereka yang akan menyebutnya sebagai pembawa pesimisme, Park menjawab, “Satu-satunya cara bagi kita untuk berpikir bahwa ini tidak masalah besar adalah jika kita berpikir kemampuan penipuan AI akan tetap pada tingkat saat ini, dan tidak akan meningkat secara substansial.”

Pemantauan AI

Untuk mengurangi risiko, tim mengusulkan beberapa langkah: Mendirikan undang-undang “bot-or-not” yang memaksa perusahaan untuk mencantumkan interaksi manusia atau AI dan mengungkapkan identitas bot versus manusia dalam setiap interaksi layanan pelanggan; memperkenalkan tanda air digital yang menyoroti setiap konten yang diproduksi oleh AI; dan mengembangkan cara di mana pengawas dapat melihat ke dalam kerja AI untuk mendapatkan gambaran tentang cara kerjanya.

Selain itu, sistem AI yang diidentifikasi menunjukkan kemampuan untuk menipu, kata para ilmuwan, seharusnya segera diberi label secara publik sebagai risiko tinggi atau risiko tidak dapat diterima bersama dengan regulasi yang mirip dengan yang diimplementasikan oleh UE. Ini termasuk penggunaan log untuk memantau output.

“Kita sebagai masyarakat memerlukan waktu sebanyak mungkin untuk mempersiapkan diri terhadap penipuan AI produk dan model open-source di masa depan,” kata Park. “Saat kemampuan penipuan sistem AI menjadi lebih canggih, bahaya yang mereka timbulkan bagi masyarakat akan menjadi semakin serius.”