Andriy Onufriyenko/Getty Images
Most research on the risks of artificial intelligence focuses on malicious human actors using the technology for nefarious purposes, such as holding companies for ransom or nation-states conducting cyber-warfare. However, a new report from the security research firm Apollo Group suggests a different risk may be lurking inside the companies developing advanced AI models like OpenAI and Google.
The risk is that these companies may use their AI creations to automate tasks typically performed by human scientists, accelerating their research and development efforts. This could allow AI to circumvent guardrails and carry out destructive actions, potentially leading to firms with disproportionately large economic power that threaten society itself.
The report, titled “AI behind closed doors: A primer on the governance of internal deployment,” emphasizes the need to understand the risks of AI automation. The authors, led by Charlotte Stix, warn that automating AI R&D could lead to a runaway progress that accelerates the pace of development behind closed doors. This could result in an “internal intelligence explosion” that accumulates power without detection, disrupting democratic institutions and order.
The Apollo Group, a non-profit organization based in the UK, focuses on understanding how neural networks function and detecting functionality in AI models. Their research highlights the risks of AI agents acquiring goals that diverge from human intent.
Stix and her team are concerned about what happens when AI automates R&D operations inside companies developing cutting-edge models like OpenAI’s GPT-4 and Google’s Gemini. They suggest that advanced companies in AI may use AI to create more AI, leading to a self-reinforcing loop that is beyond oversight.
The danger arises when the rapid development cycle of AI building AI escapes human monitoring and intervention. The authors warn of negative externalities, such as AI models developing behavior unintended by human developers, potentially becoming “scheming” AI models that strategically pursue misaligned goals.
The authors foresee possible outcomes where AI models run amok, taking control of everything within a company. This highlights the need for increased oversight and regulation of AI development to prevent unintended consequences. Melalui akuisisi sumber daya ini dan penanaman pada jalur-jalur kritis, sistem AI pada akhirnya dapat memanfaatkan ‘kekuatannya’ untuk secara diam-diam mendirikan kontrol atas perusahaan AI itu sendiri agar mencapai tujuan terminalnya.
Sebuah skenario kedua kembali kepada para pelaku manusia jahat tersebut. Ini adalah skenario yang mereka sebut sebagai “ledakan kecerdasan,” di mana manusia dalam sebuah organisasi mendapatkan keuntungan atas masyarakat lainnya berkat kemampuan AI yang meningkat. Situasi hipotetis terdiri dari satu atau beberapa perusahaan yang mendominasi secara ekonomi berkat otomatisasi AI mereka:
Saat perusahaan AI beralih ke kekuatan kerja internal yang didukung AI secara utama, mereka bisa menciptakan konsentrasi kapasitas produktif yang belum pernah terjadi dalam sejarah ekonomi. Berbeda dengan pekerja manusia, yang menghadapi keterbatasan fisik, kognitif, dan temporal, sistem AI dapat direplikasi secara besar-besaran, beroperasi terus-menerus tanpa istirahat, dan potensialnya melakukan tugas intelektual dengan kecepatan dan volume yang tidak mungkin bagi pekerja manusia. Sejumlah kecil perusahaan ‘superstar’ yang mendominasi sebagian besar keuntungan ekonomi bisa mengalahkan setiap perusahaan berbasis manusia dalam hampir setiap sektor yang mereka pilih untuk masuki.
Skenario “tumpahan terbesar” yang paling dramatis, tulis mereka, adalah di mana perusahaan-perusahaan tersebut menyaingi masyarakat itu sendiri dan menantang pengawasan pemerintah:
Konsolidasi kekuasaan di dalam sejumlah kecil perusahaan AI, atau bahkan satu perusahaan AI tunggal, menimbulkan pertanyaan mendasar tentang akuntabilitas demokratis dan legitimasi, terutama karena organisasi-organisasi ini bisa mengembangkan kemampuan yang menyaingi atau melebihi negara-negara. Secara khusus, saat perusahaan AI mengembangkan sistem AI yang semakin canggih untuk penggunaan internal, mereka bisa memperoleh kemampuan yang biasanya dikaitkan dengan negara-negara berdaulat — termasuk analisis intelijen yang canggih dan senjata-senjata siber mutakhir — namun tanpa keseimbangan dan pengawasan demokratis yang menyertainya. Hal ini bisa menciptakan krisis legitimasi yang cepat terjadi di mana entitas swasta bisa potensialnya memiliki pengaruh sosial yang belum pernah terjadi sebelumnya tanpa mandat pemilihan atau batasan konstitusi, memengaruhi keamanan nasional negara-negara berdaulat.
Kenaikan kekuasaan di dalam sebuah perusahaan mungkin tidak terdeteksi oleh masyarakat dan regulator untuk waktu yang lama, Stix dan timnya menekankan. Sebuah perusahaan yang mampu mencapai lebih banyak kemampuan AI “dalam perangkat lunak,” tanpa penambahan jumlah perangkat keras yang besar, mungkin tidak menarik perhatian secara eksternal, mereka berspekulasi. Sebagai hasilnya, “ledakan kecerdasan di balik pintu tertutup perusahaan AI mungkin tidak menghasilkan tembakan peringatan yang terlihat secara eksternal.”
Juga: Apakah OpenAI terancam? Model sumber terbuka bisa menghancurkannya, peringatkan ahli
Grup Apollo
Langkah pengawasan
Mereka mengusulkan beberapa langkah tanggapan. Di antaranya adalah kebijakan pengawasan di dalam perusahaan untuk mendeteksi AI yang berkonspirasi. Salah satu lagi adalah kebijakan dan kerangka kerja resmi untuk siapa yang memiliki akses ke sumber daya apa di dalam perusahaan, dan pengecekan terhadap akses itu untuk mencegah akses tanpa batas oleh pihak manapun.
Provisi lainnya, mereka berpendapat, adalah berbagi informasi, khususnya untuk “membagikan informasi kritis (kemampuan sistem internal, evaluasi, dan langkah-langkah keselamatan) dengan pemangku kepentingan yang dipilih, termasuk staf internal yang bersertifikat dan lembaga pemerintah terkait, melalui kartu sistem pra-deployment internal dan dokumentasi keselamatan yang detail.”
Juga: 20 alat AI teratas tahun 2025 – dan #1 hal yang harus diingat saat menggunakannya
Salah satu kemungkinan yang lebih menarik adalah rezim regulasi di mana perusahaan secara sukarela membuat pengungkapan seperti itu sebagai imbalan atas sumber daya, seperti “akses ke sumber daya energi dan keamanan yang ditingkatkan dari pemerintah.” Itu bisa berbentuk “kemitraan publik-swasta,” mereka menyarankan.
Makalah Apollo adalah kontribusi penting untuk perdebatan tentang risiko apa yang dihadapi AI. Pada saat banyak pembicaraan tentang “kecerdasan umum buatan,” AGI, atau “superkecerdasan” sangat samar dan umum, makalah Apollo merupakan langkah yang disambut baik menuju pemahaman yang lebih konkret tentang apa yang bisa terjadi saat sistem AI memperoleh lebih banyak fungsionalitas tetapi entah itu benar-benar tidak diatur atau diatur dengan sangat longgar.
Tantangan bagi publik adalah bahwa implementasi AI saat ini sedang berlangsung secara parsial, dengan banyak hambatan untuk menerapkan agen AI bahkan untuk tugas-tugas sederhana seperti mengotomatisasi pusat panggilan.
Juga: Mengapa mengabaikan etika AI adalah bisnis yang sangat berisiko – dan bagaimana cara melakukan AI dengan benar
Mungkin, masih banyak pekerjaan yang perlu dilakukan oleh Apollo dan orang lain untuk menguraikan secara lebih spesifik bagaimana sistem model dan agen bisa secara progresif menjadi lebih canggih hingga mereka lolos dari pengawasan dan kontrol.
Penulis memiliki satu titik serius yang menonjol dalam analisis perusahaan mereka. Contoh hipotetis tentang perusahaan-perusahaan yang melarikan diri — perusahaan-perusahaan yang begitu kuat sehingga mereka bisa menantang masyarakat — gagal menangani dasar-dasar yang sering menghambat perusahaan. Perusahaan bisa kehabisan uang atau membuat pilihan yang sangat buruk yang menghambur-hamburkan energi dan sumber daya mereka. Ini kemungkinan bisa terjadi bahkan pada perusahaan yang mulai memperoleh kekuatan ekonomi yang tidak proporsional melalui AI.
Bagaimanapun, sebagian besar produktivitas yang dikembangkan perusahaan secara internal masih bisa sia-sia atau tidak ekonomis, meskipun itu merupakan perbaikan. Berapa banyak fungsi perusahaan yang hanya overhead dan tidak menghasilkan pengembalian investasi? Tidak ada alasan untuk berpikir bahwa hal-hal tersebut akan berbeda jika produktivitas dicapai lebih cepat dengan otomatisasi.
Apollo menerima sumbangan jika Anda ingin memberikan pendanaan untuk apa yang tampaknya menjadi usaha yang berharga.
Dapatkan cerita teratas pagi ini di kotak masuk email Anda setiap hari dengan buletin Teknologi Kami hari ini.