Pertahanan OpenAI untuk ChatGPT Atlas Kini dan Ketidakpastian Jaminan Keamanan

OpenAI

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.


Poin Penting ZDNET

  • OpenAI membangun "penyerang otomatis" untuk menguji pertahanan Atlas.
  • Kualitas yang membuat agen berguna juga membuat mereka rentan.
  • Keamanan AI akan menjadi permainan kucing dan tikus untuk waktu yang lama.

    OpenAI mengotomasi proses pengujian ChatGPT Atlas, peramban web agennya, untuk mencari kerentanan yang dapat membahayakan pengguna. Di saat yang sama, perusahaan mengakui bahwa sifat dari jenis peramban baru ini kemungkinan berarti ia tidak akan pernah sepenuhnya terlindungi dari serangan jenis tertentu.

    Perusahaan mempublikasikan sebuah postingan blog pada hari Selasa yang menggambarkan upaya terbarunya untuk mengamankan Atlas dari serangan injeksi prompt, di mana pihak ketiga yang jahat menyelipkan instruksi secara diam-diam ke agen di balik peramban, menyebabkannya bertindak melawan kepentingan pengguna; bayangkan seperti virus digital yang sementara mengendalikan inangnya.

    Pendekatan baru ini memanfaatkan AI untuk meniru tindakan peretas manusia. Dengan mengotomasi proses red teaming, peneliti dapat menjelajahi area permukaan keamanan dengan jauh lebih cepat dan menyeluruh—yang semakin penting mengingat kecepatan peramban web agen dikirimkan ke konsumen.

    Namun, yang kritis, postingan blog tersebut menekankan bahwa bahkan dengan metode keamanan paling canggih sekalipun, peramban web agen seperti Atlas pada dasarnya rentan dan kemungkinan akan tetap demikian. Yang terbaik yang bisa diharapkan industri, kata OpenAI, adalah berusaha tetap selangkah lebih maju dari penyerang.

    "Kami perkirakan musuh akan terus beradaptasi," tulis perusahaan dalam postingan blog itu. "Injeksi prompt, seperti halnya penipuan dan rekayasa sosial di web, kecil kemungkinannya untuk pernah sepenuhnya ‘terselesaikan’. Tapi kami optimis bahwa loop respons cepat yang proaktif dan sangat responsif dapat terus mengurangi risiko di dunia nyata secara material seiring waktu."

    (Pernyataan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, dengan tuduhan melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

    Penyerang Otomatis Berbasis LLM

    Seperti peramban web agen lainnya, mode agen di Atlas dirancang untuk melakukan tugas kompleks dan multi-langkah atas nama pengguna. Seperti mengklik tautan, mengisi formulir digital, menambahkan item ke keranjang belanja online, dan sejenisnya. Kata "agen" menyiratkan ruang lingkup kontrol yang lebih besar: sistem AI mengambil alih tugas-tugas yang di masa lalu hanya bisa ditangani oleh manusia.

    Tapi dengan kemampuan agensi yang lebih besar datang risiko yang lebih besar.

    Serangan injeksi prompt mengeksploitasi kualitas yang membuat agen berguna itu sendiri. Agen di dalam peramban, sesuai desain, beroperasi di seluruh ruang lingkup kehidupan digital pengguna, termasuk email, media sosial, halaman web, dan kalender online. Masing-masing darinya, oleh karena itu, mewakili vektor serangan potensial tempat peretas dapat menyelipkan prompt jahat.

    "Karena agen dapat mengambil banyak tindakan yang sama seperti yang dapat dilakukan pengguna di peramban, dampak dari serangan yang berhasil secara hipotetis bisa sama luasnya: meneruskan email sensitif, mengirim uang, mengedit atau menghapus file di cloud, dan lainnya," catat OpenAI dalam postingan blognya.

    Berharap memperkuat pertahanan Atlas, OpenAI membangun apa yang digambarkannya sebagai "penyerang otomatis berbasis LLM"—sebuah model yang terus bereksperimen dengan teknik injeksi prompt baru. Penyerang otomatis ini menggunakan reinforcement learning (RL), metode mendasar untuk melatih sistem AI yang memberi penghargaan saat mereka menunjukkan perilaku yang diinginkan, sehingga meningkatkan kemungkinan mereka mengulanginya di masa depan.

    Namun, penyerang ini tidak hanya membabi buta menusuk-nusuk Atlas. Ia mampu mempertimbangkan beberapa strategi serangan dan menjalankan skenario yang mungkin di lingkungan simulasi eksternal sebelum memutuskan rencana. OpenAI mengatakan pendekatan ini menambah kedalaman baru pada red teaming: "Penyerang yang dilatih RL kami dapat mengarahkan agen untuk mengeksekusi alur kerja berbahaya yang canggih dan berjangka panjang, yang terbentang puluhan (atau bahkan ratusan) langkah," tulis perusahaan itu. "Kami juga mengamati strategi serangan baru yang tidak muncul dalam kampanye red teaming manusia kami atau laporan eksternal."

    Dalam sebuah demo, OpenAI menggambarkan bagaimana penyerang otomatis menyisipkan injeksi prompt ke Atlas, mengarahkan akun email pengguna simulasi untuk mengirim email kepada CEO mereka, mengumumkan pengunduran diri segera. Agen kemudian menangkap upaya injeksi prompt dan memberi tahu pengguna sebelum email pengunduran diri otomatis dikirim.

    Intinya

    Pengembang seperti OpenAI menghadapi tekanan besar, dari investor dan pesaing, untuk membangun produk AI baru dengan cepat. Beberapa ahli khawatir bahwa inersia kapitalis kasar yang mendorong perlombaan AI terjadi dengan mengorbankan keamanan.

    Dalam kasus peramban web AI, yang telah menjadi prioritas bagi banyak perusahaan, logika yang berlaku di seluruh industri tampaknya adalah: luncurkan dulu, khawatirkan risikonya nanti. Ini adalah pendekatan yang sebanding dengan pembuat kapal yang menempatkan orang di kapal pesiar baru yang masif dan menambal retakan di lambung kapal saat kapal sudah berlayar.

    Jadi, bahkan dengan pembaruan keamanan dan upaya penelitian baru, penting bagi pengguna untuk menyadari bahwa peramban web agen tidak sepenuhnya aman, karena mereka dapat dimanipulasi untuk bertindak dengan cara yang berbahaya, dan kerentanan ini kemungkinan akan bertahan untuk beberapa waktu, jika tidak selamanya.

    Seperti yang ditulis OpenAI dalam postingan blog hari Selasa-nya: "Injeksi prompt tetap menjadi tantangan terbuka untuk keamanan agen, dan suatu hal yang kami perkirakan akan terus kami kerjakan untuk tahun-tahun mendatang."

MEMBACA  Petunjuk dan Jawaban Wordle NYT Hari Ini - Bantuan untuk 5 Mei, #1051

Tinggalkan komentar