Siklus Karpathy: 700 Eksperimen, 2 Hari, dan Sekilas Masa Depan AI

Awal bulan ini, Andrej Karpathy, peneliti AI terkenal yang pernah jadi pegawai pendiri OpenAI dan pernah memimpin AI di Tesla, ramai dibicarakan di X. Ini sebenarnya biasa saja. Karpathy—yang sekarang kerja sebagai peneliti AI mandiri dan juga pendiri Eureka Labs—punya 1,9 juta pengikut di X dan reputasinya sangat tinggi sehingga hampir semua yang dia katakan tentang AI dianggap sebagai kebenaran atau ramalan.

Tapi postingan kali ini tentang eksperimen yang dia jalankan, di mana dia memakai agen AI coding untuk menjalankan serangkaian percobaan guna mencari cara meningkatkan pelatihan model bahasa kecil. Dia biarkan agen AI itu berjalan terus selama dua hari, dan dalam waktu itu, agen melakukan 700 eksperimen berbeda. Dari eksperimen-eksperimen itu, si agen menemukan 20 optimasi yang mempercepat waktu pelatihan.

Karpathy menemukan, menerapkan 20 penyesuaian yang sama ke model bahasa yang lebih besar (tapi masih relatif kecil) menghasilkan percepatan waktu pelatihan sebesar 11%. Karpathy menyebut sistem yang dia buat untuk eksperimen ini sebagai “autoresearch.”

Tobias Lütke, pendiri dan CEO Shopify, juga posting di X bahwa dia mencoba autoresearch untuk mengoptimalkan model AI dengan data internal perusahaan. Dia beri agen instruksi untuk meningkatkan kualitas dan kecepatan model. Lütke melaporkan, setelah dibiarkan berjalan semalaman, autoresearch menjalankan 37 eksperimen dan memberikan peningkatan performa sebesar 19%.

Yang menarik perhatian banyak orang adalah autoresearch ini mirip dengan ide sistem AI yang memperbaiki diri sendiri, suatu konsep yang ada di fiksi ilmiah dan sangat didambakan (atau justru ditakuti) oleh para peneliti AI. Kekhawatirannya adalah “perbaikan diri rekursif,” di mana AI terus-menerus mengoptimalkan kodenya sendiri dalam sebuah siklus, bisa menyebabkan apa yang disebut peneliti keamanan AI sebagai “hard takeoff” atau “ledakan kecerdasan.” Dalam skenario ini, sistem AI dengan cepat meningkatkan kemampuannya sendiri, melampaui kemampuan kognitif manusia dan lepas dari kendali.

MEMBACA Target Tingkat Bunga yang Ditunggu Banyak Pengamat

Eksperimen Karpathy belum sampai segitunya. Agen AI inti di autoresearch tidak menyempurnakan sistem pelatihannya sendiri, tapi menyesuaikan kode pelatihan dan setelan awal jaringan saraf untuk model AI lain yang jauh lebih kecil dan sederhana. Tapi Karpathy mencatat dengan benar bahwa eksperimennya punya implikasi besar bagi cara lab AI melakukan riset ke depan, dan ini bisa mempercepat kemajuan mereka.

“Semua lab LLM terdepan akan melakukan ini. Ini adalah pertarungan bos terakhir,” tulis Karpathy di X. Dia mengakui bahwa “tentu saja jauh lebih kompleks dalam skala besar,” karena autoresearcher-nya hanya perlu mengatur model dan proses pelatihan yang terkandung dalam 630 baris kode Python, sementara kode pelatihan model AI terdepan jauh lebih besar. “Tapi melakukannya adalah ‘hanya masalah rekayasa’ dan itu akan berhasil,” lanjutnya. “Anda jalankan segerombolan agen, suruh mereka berkolaborasi untuk menyetel model yang lebih kecil, naikkan ide paling menjanjikan ke skala yang semakin besar, dan manusia (opsional) berkontribusi di bagian tepinya.”

Dia bilang sistem autoresearch yang dia buat saat ini dirancang untuk satu agen yang terus memperbaiki sepotong kode di satu jalur. Di masa depan, dia bayangkan banyak agen AI bisa mengeksplorasi optimasi dan eksperimen berbeda secara paralel. “Langkah berikutnya untuk autoresearch adalah harus kolaboratif masif secara asinkron untuk para agen,” tulisnya. “Tujuannya bukan meniru satu mahasiswa PhD, tapi meniru komunitas riset dari mereka.”

Karpathy juga mengatakan hal lain yang membuat banyak orang tertarik. “metrik apa pun yang Anda pedulikan dan cukup efisien untuk dievaluasi (atau yang punya metrik proxy lebih efisien seperti melatih jaringan lebih kecil) bisa di-autoresearch oleh segerombolan agen,” tulisnya. “Perlu dipikirkan apakah masalah Anda juga masuk kategori ini.”

MEMBACA Usulan Sudan: Turki dan Qatar Jadi Mediator dalam Pembicaraan dengan RSF

Beberapa komentator menunjukan bahwa komponen dasar autoresearch bisa dipakai untuk banyak sistem agen lain guna mengoptimalkan suatu proses. Janakiram MSV, analis utama di Janakiram & Associates, menulis di publikasi tech The New Stack dan menyebut ini “Loop Karpathy.” Ada tiga komponen: agen yang bisa mengakses satu file yang bisa dimodifikasi; satu metrik yang bisa diuji secara objektif, yang bisa dioptimalkan agen; dan batas waktu tetap untuk setiap eksperimen. Dia juga menyoroti bahwa instruksi yang diberikan Karpathy kepada agen AI dalam autoresearch juga jadi contoh bagus untuk siapa pun yang berinteraksi dengan agen AI. File teks biasa yang dipakai Karpathy berisi instruksi jelas tentang apa yang harus dilakukan agen, batasan-batasan, larangan untuk agen, dan kriteria berhenti, yang menunjukkan berapa lama setiap loop harus berjalan dan kapan agen harus berhenti dan melaporkan hasil.

Tapi beberapa kritikus bilang bahwa Karpathy hanya menemukan kembali bagian dari proses yang disebut AutoML, yang sudah bertahun-tahun dipakai peneliti di Google, Microsoft, dan lab AI lain. AutoML juga memakai loop optimasi dan serangkaian eksperimen untuk menemukan data terbaik, arsitektur model terbaik, dan menyetel arsitektur itu. Tapi AutoML tidak memakai agen AI yang bisa baca makalah penelitian AI dan kembangkan hipotesis untuk perbaikan. Sistem AutoML cenderung bergantung pada variasi acak atau berbagai algoritma evolusioner untuk memutuskan perubahan mana yang akan dicoba.

Karpathy membalas beberapa komentar ini, mengatakan beberapa metode AutoML, seperti neural architecture search (cara otomatis untuk mengoptimalkan desain model AI), tidak sehebat autoresearch-nya. “Neural architecture search yang dulu itu versi yang sangat lemah dari ini, sampai-sampai masuk kategori sendiri yang sama sekali tak berguna jika dibandingkan,” tulisnya. “Ini adalah benar-benar LLM menulis kode apa saja, belajar dari eksperimen sebelumnya, dengan akses internet. Bahkan tidak mirip.”

MEMBACA Bagaimana CME Group (CME) Dapat Menjadi Alternatif untuk Risiko Korelasi