Sebuah model kecerdasan buatan (AI) baru baru saja mencapai hasil tingkat manusia pada tes yang dirancang untuk mengukur “kecerdasan umum”. Pada 20 Desember, sistem o3 dari OpenAI mencetak skor 85% pada benchmark ARC-AGI, jauh di atas skor terbaik AI sebelumnya sebesar 55% dan sebanding dengan skor rata-rata manusia. Ini juga mendapat skor baik pada tes matematika yang sangat sulit.
Menciptakan kecerdasan buatan umum, atau AGI, adalah tujuan utama semua laboratorium penelitian AI utama. Pada pandangan pertama, OpenAI tampaknya setidaknya telah membuat langkah signifikan menuju tujuan ini. Meskipun skeptisisme tetap ada, banyak peneliti dan pengembang AI merasa ada sesuatu yang berubah. Bagi banyak orang, prospek AGI sekarang tampak lebih nyata, mendesak, dan lebih dekat dari yang diantisipasi. Apakah mereka benar?
Untuk memahami apa yang artinya hasil o3, Anda perlu memahami apa yang diuji oleh tes ARC-AGI. Dalam istilah teknis, ini adalah tes efisiensi sampel sistem AI dalam beradaptasi dengan hal baru – berapa banyak contoh situasi baru yang harus dilihat sistem untuk memahami cara kerjanya. Sistem AI seperti ChatGPT (GPT-4) tidak terlalu efisien dalam sampel. Ini “dilatih” pada jutaan contoh teks manusia, membangun “aturan” probabilitas tentang kombinasi kata yang paling mungkin. Hasilnya cukup bagus dalam tugas umum. Ini buruk dalam tugas yang tidak umum, karena memiliki lebih sedikit data (kurang sampel) tentang tugas-tugas tersebut. Hingga sistem AI dapat belajar dari jumlah contoh kecil dan beradaptasi dengan lebih efisien pada sampel, mereka hanya akan digunakan untuk pekerjaan yang sangat repetitif dan di mana kegagalan sesekali dapat ditoleransi.
Kemampuan untuk menyelesaikan masalah yang tidak diketahui sebelumnya atau baru dari data yang terbatas disebut sebagai kapasitas untuk umum. Ini secara luas dianggap sebagai elemen yang diperlukan, bahkan fundamental, dari kecerdasan.
Benchmar…
Kita tidak tahu persis bagaimana OpenAI melakukannya, tetapi hasilnya menunjukkan model o3 sangat mudah beradaptasi. Dari hanya beberapa contoh, ia menemukan aturan yang dapat digeneralisasikan. Untuk menemukan pola, kita tidak boleh membuat asumsi yang tidak perlu, atau lebih spesifik dari yang sebenarnya harus dilakukan. Secara teoritis, jika Anda dapat mengidentifikasi aturan-aturan “terlemah” yang melakukan apa yang Anda inginkan, maka Anda telah memaksimalkan kemampuan Anda untuk beradaptasi dengan situasi baru.
Apa yang kami maksud dengan aturan-aturan yang lebih lemah? Definisi teknisnya rumit, tetapi aturan yang lebih lemah biasanya adalah yang dapat dijelaskan dalam pernyataan yang lebih sederhana.
Dalam contoh di atas, ekspresi aturan dalam bahasa Inggris mungkin seperti: “Setiap bentuk dengan garis menonjol akan bergerak ke ujung garis itu dan ‘menutupi’ bentuk lain yang tumpang tindih dengan itu.”
Sementara kami tidak tahu bagaimana OpenAI mencapai hasil ini, tampaknya tidak mungkin mereka dengan sengaja mengoptimalkan sistem o3 untuk menemukan aturan-aturan yang lemah. Namun, untuk berhasil dalam tugas-tugas ARC-AGI, ia harus menemukannya.