OpenAI memangkas waktu pengujian keselamatan model AI

OpenAI telah memotong waktu dan sumber daya yang dihabiskannya untuk menguji keamanan model kecerdasan buatan yang kuat, meningkatkan kekhawatiran bahwa teknologinya sedang didorong tanpa cukup perlindungan.

Staf dan kelompok pihak ketiga baru-baru ini diberi waktu hanya beberapa hari untuk melakukan “evaluasi”, istilah yang diberikan untuk menguji risiko dan kinerja model terbaru OpenAI, dibandingkan dengan beberapa bulan sebelumnya.

Menurut delapan orang yang akrab dengan proses pengujian OpenAI, pengujian start-up tersebut menjadi kurang teliti, dengan waktu dan sumber daya yang tidak mencukupi yang didedikasikan untuk mengidentifikasi dan mengurangi risiko, karena start-up senilai $300 miliar tersebut berada di bawah tekanan untuk merilis model baru dengan cepat dan mempertahankan keunggulannya.

“Kami melakukan pengujian keamanan yang lebih teliti ketika [teknologi] kurang penting,” kata salah satu orang yang saat ini menguji model o3 yang akan datang dari OpenAI, yang dirancang untuk tugas-tugas kompleks seperti pemecahan masalah dan penalaran.

Mereka menambahkan bahwa seiring kemampuan LLMs meningkat, “potensi penggunaan senjata” dari teknologi tersebut juga meningkat. “Namun karena ada lebih banyak permintaan untuk hal tersebut, mereka ingin merilisnya lebih cepat. Saya harap ini bukan langkah yang menyebabkan bencana, tetapi itu sembrono. Ini adalah resep untuk bencana.”

Waktu yang terbatas ini didorong oleh “tekanan kompetitif”, menurut orang-orang yang akrab dengan masalah tersebut, karena OpenAI bersaing melawan grup Big Tech seperti Meta dan Google serta start-up termasuk xAI milik Elon Musk untuk memanfaatkan teknologi mutakhir.

Tidak ada standar global untuk pengujian keamanan kecerdasan buatan, tetapi mulai tahun ini, EU’s AI Act akan memaksa perusahaan untuk melakukan pengujian keamanan pada model-model terkuat mereka. Sebelumnya, kelompok-kelompok kecerdasan buatan, termasuk OpenAI, telah menandatangani komitmen sukarela dengan pemerintah di Inggris dan AS untuk memungkinkan peneliti di institut keamanan kecerdasan buatan untuk menguji model.

MEMBACA Apple membayar $95 juta untuk menyelesaikan gugatan yang menuduh Siri melakukan penyadapan yang tidak pantas

OpenAI telah mendorong untuk merilis model baru mereka o3 sesegera minggu depan, memberikan waktu kurang dari seminggu kepada beberapa pengetes untuk pemeriksaan keamanan mereka, menurut orang-orang yang akrab dengan masalah tersebut. Tanggal rilis ini bisa berubah.

Sebelumnya, OpenAI memberi beberapa bulan untuk pengujian keamanan. Untuk GPT-4, yang diluncurkan pada tahun 2023, para pengetes memiliki enam bulan untuk melakukan evaluasi sebelum dirilis, menurut orang-orang yang akrab dengan masalah tersebut.

Seseorang yang telah menguji GPT-4 mengatakan bahwa beberapa kemampuan berbahaya hanya ditemukan dua bulan setelah pengujian dimulai. “Mereka benar-benar tidak memprioritaskan keselamatan publik sama sekali,” kata mereka tentang pendekatan saat ini OpenAI.

“Tidak ada regulasi yang mengatakan bahwa [perusahaan] harus memberitahukan publik tentang semua kemampuan menakutkan tersebut . . . dan juga mereka berada di bawah tekanan untuk saling berlomba sehingga mereka tidak akan menghentikan peningkatan kemampuannya,” kata Daniel Kokotajlo, mantan peneliti OpenAI yang sekarang memimpin kelompok nirlaba AI Futures Project.

OpenAI sebelumnya berkomitmen untuk membangun versi kustom dari model-model mereka untuk menilai potensi penyalahgunaan, seperti apakah teknologinya dapat membantu membuat virus biologis menjadi lebih mudah menular.

Pendekatan ini melibatkan sumber daya yang cukup, seperti menyusun kumpulan data informasi khusus seperti virologi dan memberikannya kepada model untuk melatihnya dalam teknik yang disebut fine-tuning.

Namun OpenAI hanya melakukannya secara terbatas, memilih untuk melakukan fine-tuning pada model yang lebih lama dan kurang canggih daripada model-model yang lebih kuat dan canggih.

Laporan keamanan dan kinerja OpenAI pada o3-mini, modelnya yang lebih kecil yang dirilis pada bulan Januari, merujuk pada bagaimana model sebelumnya GPT-4o dapat melakukan tugas biologis tertentu hanya ketika dilakukan fine-tuning. Namun, OpenAI tidak pernah melaporkan bagaimana model-model terbarunya, seperti o1 dan o3-mini, akan mencetak skor jika dilakukan fine-tuning.

MEMBACA Saham Snowflake Turun Setelah AT&T Mengatakan Hacker Mengakses Data

“Sangat bagus OpenAI menetapkan standar tinggi dengan berkomitmen untuk menguji versi kustom dari model-model mereka. Tetapi jika mereka tidak melanjutkan komitmen ini, publik berhak untuk mengetahuinya,” kata Steven Adler, mantan peneliti keamanan OpenAI, yang telah menulis blog tentang topik ini.

“Tidak melakukan tes semacam itu bisa berarti bahwa OpenAI dan perusahaan kecerdasan buatan lainnya meremehkan risiko terburuk dari model-model mereka,” tambahnya.

Orang-orang yang akrab dengan pengujian semacam itu mengatakan bahwa biaya yang besar harus ditanggung, seperti menyewa ahli eksternal, menciptakan kumpulan data khusus, serta menggunakan insinyur internal dan daya komputasi.

OpenAI mengatakan bahwa telah melakukan efisiensi dalam proses evaluasinya, termasuk uji otomatis, yang telah mengarah pada pengurangan kerangka waktu. Ia menambahkan bahwa tidak ada resep yang disepakati untuk pendekatan seperti fine-tuning, tetapi ia yakin bahwa metodenya adalah yang terbaik yang dapat dilakukan dan telah dijelaskan secara transparan dalam laporannya.

OpenAI mengatakan bahwa model-model, terutama untuk risiko-risiko bencana, secara teliti diuji dan ditangani untuk keamanan.

Disarankan

“Kami memiliki keseimbangan yang baik antara seberapa cepat kami bergerak dan seberapa teliti kami,” kata Johannes Heidecke, kepala sistem keamanan.

Salah satu kekhawatiran lain yang muncul adalah bahwa pengujian keamanan sering tidak dilakukan pada model-model akhir yang dirilis ke publik. Sebaliknya, mereka dilakukan pada titik kontrol sebelumnya yang kemudian diperbarui untuk meningkatkan kinerja dan kemampuan, dengan versi “hampir final” yang dirujuk dalam laporan keamanan sistem OpenAI.

“Tidak baik untuk merilis model yang berbeda dari yang telah Anda evaluasi,” kata mantan anggota staf teknis OpenAI.

OpenAI mengatakan bahwa titik kontrol tersebut “secara dasarnya identik” dengan apa yang diluncurkan pada akhirnya.

MEMBACA Menjadi Model IFW 2024 secara Tiba-tiba, Novia Bachmid Tampil Menarik dalam Gaun Berbagai Motif