Rencana Anthropic untuk Mencegah Kecerdasan Buatan Merancang Senjata Nuklir: Akankah Berhasil?

Pada akhir bulan Agustus, perusahaan AI Anthropic mengumumkan bahwa chatbot mereka, Claude, tidak akan membantu siapapun dalam membangun senjata nuklir. Menurut Anthropic, mereka telah bermitra dengan Departemen Energi (DOE) dan Administrasi Keamanan Nuklir Nasional (NNSA) untuk memastikan Claude tidak membocorkan rahasia nuklir.

Pembuatan senjata nuklir merupakan ilmu yang presisi sekaligus masalah yang sudah terpecahkan. Banyak informasi mengenai senjata nuklir paling mutakhir Amerika tergolong Rahasia Tinggi, namun ilmu nuklir dasarnya sendiri telah berusia 80 tahun. Korea Utara membuktikan bahwa negara yang bertekad untuk memperoleh bom nuklir mampu melakukannya, dan mereka tidak memerlukan bantuan chatbot.

Lantas, bagaimana caranya pemerintah AS bekerja sama dengan perusahaan AI untuk memastikan chatbot tidak membocorkan rahasia nuklir sensitif? Dan yang juga penting: apakah sebelumnya pernah ada bahaya chatbot membantu seseorang membangun senjata nuklir?

Jawaban untuk pertanyaan pertama adalah dengan menggunakan Amazon. Sementara jawaban untuk pertanyaan kedua lebih kompleks.

Amazon Web Services (AWS) menawarkan layanan cloud Top Secret kepada klien pemerintah untuk menyimpan informasi sensitif dan terklasifikasi. DOE telah memiliki beberapa server semacam ini sebelum mulai bekerja sama dengan Anthropic.

“Kami menerapkan versi Claude yang saat itu paling mutakhir di dalam lingkungan Top Secret agar NNSA dapat menguji secara sistematis apakah model AI dapat menciptakan atau memperburuk risiko nuklir,” jelas Marina Favaro, yang menangani Kebijakan & Kemitraan Keamanan Nasional di Anthropic, kepada WIRED. “Sejak saat itu, NNSA terus melakukan red-teaming terhadap model-model Claude berikutnya di lingkungan cloud aman mereka dan memberikan umpan balik kepada kami.”

Proses red-teaming oleh NNSA—yaitu pengujian untuk menemukan kelemahan—membantu Anthropic dan ilmuwan nuklir Amerika mengembangkan solusi proaktif untuk mencegah program nuklir yang dibantu chatbot. Bersama-sama, mereka “mengembangkan classifier nuklir, yang dapat dibayangkan seperti filter canggih untuk percakapan AI,” ungkap Favaro. “Kami membangunnya menggunakan daftar yang dikembangkan NNSA berisi indikator risiko nuklir, topik spesifik, dan detail teknis yang membantu kami mengidentifikasi kapan sebuah percakapan mulai memasuki wilayah berbahaya. Daftar itu sendiri dikendalikan namun tidak tergolong rahasia, yang sangat penting karena artinya staf teknis kami dan perusahaan lain dapat menerapkannya.”

MEMBACA  Pedro Pascal, Dakota Johnson, dan Chris Evans menguji pengetahuan rom-com mereka.

Favaro menyatakan bahwa diperlukan waktu berbulan-bulan untuk menyesuaikan dan menguji classifier tersebut agar dapat berfungsi dengan baik. “Sistem ini dapat mendeteksi percakapan yang mencurigakan tanpa salah menandai diskusi sah tentang energi nuklir atau isotop medis,” jelasnya.