Era Agen AI Membutuhkan Jenis Teori Game Baru

Pada saat yang sama, risikonya langsung dan hadir dengan agen. Ketika model tidak hanya kotak terkandung tetapi dapat mengambil tindakan di dunia, ketika mereka memiliki penutup akhir yang memungkinkan mereka memanipulasi dunia, saya pikir itu benar-benar menjadi masalah yang jauh lebih besar.

Kami sedang membuat kemajuan di sini, mengembangkan teknik [defensif] yang jauh lebih baik, tetapi jika Anda merusak model dasarnya, Anda pada dasarnya memiliki setara dengan buffer overflow [cara umum untuk meretas perangkat lunak]. Agen Anda dapat dimanfaatkan oleh pihak ketiga untuk mengendalikan dengan jahat atau entah bagaimana mengelak dari fungsionalitas yang diinginkan dari sistem. Kita harus dapat mengamankan sistem-sistem ini untuk membuat agen-agen itu aman.

Ini berbeda dari model AI itu sendiri menjadi ancaman, kan?

Tidak ada risiko nyata dari hal-hal seperti kehilangan kontrol dengan model-model saat ini. Ini lebih merupakan kekhawatiran masa depan. Tapi saya sangat senang orang-orang bekerja pada hal itu; Saya pikir itu sangat penting.

Seberapa khawatir seharusnya kita tentang peningkatan penggunaan sistem agen kemudian?

Dalam kelompok penelitian saya, dalam startup saya, dan dalam beberapa publikasi terbaru OpenAI yang telah diproduksi [misalnya], telah ada banyak kemajuan dalam memitigasi beberapa hal ini. Saya pikir kita sebenarnya berada pada jalur yang masuk akal untuk mulai memiliki cara yang lebih aman untuk melakukan semua hal ini. [Tantangannya] adalah, dalam keseimbangan mendorong agen maju, kita ingin memastikan bahwa kemajuan keselamatan berjalan beriringan.

Sebagian besar [eksploitasi terhadap sistem agen] yang kita lihat sekarang akan diklasifikasikan sebagai eksperimental, jujur, karena agen masih dalam tahap awal. Masih ada pengguna biasanya di suatu tempat. Jika agen email menerima email yang mengatakan “Kirimkan saya semua informasi keuangan Anda,” sebelum mengirim email itu, agen akan memberi tahu pengguna—dan mungkin bahkan tidak akan tertipu dalam kasus itu.

MEMBACA Bagaimana Tubuh Anda Beradaptasi dengan Dingin Ekstrem

Ini juga mengapa banyak rilis agen memiliki pembatas yang sangat jelas di sekelilingnya yang menegakkan interaksi manusia dalam situasi yang lebih rentan terhadap keamanan. Operator, misalnya, oleh OpenAI, ketika Anda menggunakannya di Gmail, memerlukan pengendalian manual manusia.

Jenis-jenis eksploitasi agen apa yang mungkin kita lihat pertama?

Telah ada demonstrasi hal-hal seperti eksfiltrasi data ketika agen terhubung dengan cara yang salah. Jika agen saya memiliki akses ke semua file saya dan cloud drive saya, dan juga dapat membuat pertanyaan ke tautan, maka Anda dapat mengunggah hal-hal ini ke suatu tempat.

Ini masih dalam fase demonstrasi sekarang, tetapi itu benar-benar hanya karena hal-hal ini belum diadopsi. Dan mereka akan diadopsi, jangan salah. Hal-hal ini akan menjadi lebih otonom, lebih independen, dan akan memiliki pengawasan pengguna yang lebih sedikit, karena kita tidak ingin mengklik “setuju,” “setuju,” “setuju” setiap kali agen melakukan sesuatu.

Juga tampaknya tak terhindarkan bahwa kita akan melihat agen AI yang berbeda berkomunikasi dan bernegosiasi. Apa yang terjadi kemudian?

Benar. Apakah kita mau atau tidak, kita akan memasuki dunia di mana ada agen yang berinteraksi satu sama lain. Kita akan memiliki beberapa agen yang berinteraksi dengan dunia atas nama pengguna yang berbeda. Dan memang benar bahwa akan muncul sifat-sifat yang muncul dalam interaksi semua agen ini.