Kecerdasan buatan telah berkembang melebihi pengetahuan manusia, kata unit DeepMind milik Google

Image Credit: worawit chutrakunwanit/Getty Images

The field of artificial intelligence (AI) is currently focused on advancing generative AI beyond basic tests that AI models can easily pass. The famous Turing Test has been surpassed to some extent, sparking debate over whether the latest models are being designed to manipulate benchmark tests that assess performance.

According to scholars at Google’s DeepMind unit, the issue lies not with the tests themselves, but with the limited approach to developing AI models. They argue that the data used to train AI is too rigid and insufficient to push AI towards new and improved capabilities.

In a recent paper released by DeepMind, researchers propose that AI should be allowed to have “experiences” by interacting with the world to establish goals based on environmental signals.

Renowned scholars David Silver and Richard Sutton, known for their work on AlphaZero, an AI model that defeated humans in Chess and Go, advocate for a new approach called “streams” which builds upon reinforcement learning and the lessons from AlphaZero. This approach aims to address the deficiencies of current large language models (LLMs) that are primarily designed to answer specific human queries.

Silver and Sutton suggest that while generative AI tools like ChatGPT have their benefits, they have also overlooked the value of reinforcement learning in self-discovery of knowledge. They argue that human judgment often limits the potential of AI models and that interactions should extend beyond simple question-answer scenarios.

In their proposed “Age of Experience,” Silver and Sutton envision AI agents learning through streams of experience, akin to how humans accumulate knowledge over a lifetime. They propose that AI agents should be trained using reinforcement learning principles, similar to AlphaZero, where agents receive feedback in the form of rewards for their actions.

MEMBACA  Bobby Nasution Bergabung dengan Gerindra, PDIP Telah Melupakan Menantu Jokowi

The scholars believe that by connecting AI agents to the world and exposing them to diverse signals, such as cost, productivity, health metrics, etc., agents can learn and adapt more effectively. They propose that AI developers start by simulating a “world model” to lay the foundation for AI agents to learn and evolve in a dynamic environment. Model dunia memungkinkan model AI membuat prediksi, menguji prediksi tersebut di dunia nyata, dan kemudian menggunakan sinyal hadiah untuk membuat model lebih realistis.

Seiring agen terus berinteraksi dengan dunia selama aliran pengalaman, model dinamiknya terus diperbarui untuk memperbaiki kesalahan dalam prediksinya,” tulis mereka.

Juga: AI tidak mencapai titik jenuh, hanya menjadi terlalu cerdas untuk benchmark, kata Anthropic

Silver dan Sutton masih mengharapkan manusia memiliki peran dalam mendefinisikan tujuan, di mana sinyal dan hadiah digunakan untuk mengarahkan agen. Misalnya, pengguna dapat menentukan tujuan yang luas seperti ‘tingkatkan kebugaran saya’, dan fungsi hadiah mungkin mengembalikan fungsi detak jantung pengguna, durasi tidur, dan langkah yang diambil. Atau pengguna dapat menentukan tujuan ‘bantu saya belajar Spanyol’, dan fungsi hadiah bisa mengembalikan hasil ujian Spanyol pengguna.

Umpan balik manusia menjadi “tujuan tingkat atas” yang dilayani oleh semuanya.

Para peneliti menulis bahwa agen AI dengan kemampuan jangka panjang tersebut akan lebih baik sebagai asisten AI. Mereka dapat melacak tidur dan pola makan seseorang selama berbulan-bulan atau bertahun-tahun, memberikan saran kesehatan tidak terbatas pada tren terbaru. Agen seperti itu juga dapat menjadi asisten pendidikan yang melacak para siswa dalam jangka waktu yang lama.

“Seorang agen sains dapat mengejar tujuan yang ambisius, seperti menemukan materi baru atau mengurangi karbon dioksida,” mereka menawarkan. “Agen seperti itu dapat menganalisis observasi dunia nyata selama periode yang panjang, mengembangkan dan menjalankan simulasi, dan menyarankan eksperimen atau intervensi dunia nyata.”

MEMBACA  Bagaimana cara memotong, menyalin, dan menyisipkan pada ponsel Android.

Juga: ‘Ujian Terakhir Kemanusiaan’ menguji model AI teratas – bisakah Anda melakukannya lebih baik?

Para peneliti menyarankan bahwa kedatangan model AI “berpikir” atau “berpikir”, seperti Gemini, DeepSeek’s R1, dan OpenAI’s o1, mungkin akan terlampaui oleh agen pengalaman. Masalah dengan agen penalaran adalah bahwa mereka “meniru” bahasa manusia ketika mereka menghasilkan output yang panjang lebar tentang langkah-langkah menuju jawaban, dan pikiran manusia dapat dibatasi oleh asumsi yang tertanam.

“Misalnya, jika seorang agen telah dilatih untuk berpikir menggunakan pemikiran manusia dan jawaban ahli dari 5.000 tahun yang lalu, mungkin ia telah berpikir tentang masalah fisik dalam istilah animisme,” mereka menawarkan. “1.000 tahun yang lalu, mungkin ia telah berpikir dalam istilah teistik; 300 tahun yang lalu, mungkin ia telah berpikir dalam istilah mekanika Newton; dan 50 tahun yang lalu, dalam istilah mekanika kuantum.”

Para peneliti menulis bahwa agen seperti itu “akan membuka kemampuan yang belum pernah terjadi sebelumnya,” mengarah pada “masa depan yang sangat berbeda dari apa pun yang pernah kita lihat sebelumnya.”

Namun, mereka menyarankan ada banyak, banyak risiko. Risiko-risiko ini tidak hanya difokuskan pada agen AI membuat tenaga kerja manusia usang, meskipun mereka mencatat bahwa kehilangan pekerjaan adalah risiko. Agen yang “dapat berinteraksi secara otonom dengan dunia selama periode waktu yang panjang untuk mencapai tujuan jangka panjang,” mereka tulis, menimbulkan prospek manusia memiliki kesempatan lebih sedikit untuk “campur tangan dan memediasi tindakan agen tersebut.”

Dari sisi positif, mereka menyarankan, seorang agen yang dapat beradaptasi, dibandingkan dengan model AI yang tetap saat ini, “dapat mengenali ketika perilakunya memicu kekhawatiran, ketidakpuasan, atau ketidaknyamanan manusia, dan mengubah perilakunya secara adaptif untuk menghindari konsekuensi negatif tersebut.”

MEMBACA  Power bank kompak dengan mode 'Beast Mode' adalah kebutuhan perjalanan baru saya - izinkan saya menjelaskan

Juga: Google mengklaim Gemma 3 mencapai 98% akurasi DeepSeek – hanya menggunakan satu GPU

Meninggalkan detailnya, Silver dan Sutton yakin aliran pengalaman akan menghasilkan informasi tentang dunia yang jauh lebih banyak daripada semua data Wikipedia dan Reddit yang digunakan untuk melatih AI saat ini. Agen berbasis aliran bahkan mungkin melampaui kecerdasan manusia, mengisyaratkan kedatangan kecerdasan buatan umum, atau super-kecerdasan.

“Data eksperimental akan melampaui skala dan kualitas data yang dihasilkan manusia,” tulis para peneliti. “Perubahan paradigma ini, disertai dengan kemajuan algoritma dalam RL [pembelajaran penguatan], akan membuka di banyak domain kemampuan baru yang melampaui yang dimiliki oleh siapa pun manusia.”

Silver juga mengeksplorasi subjek ini dalam podcast DeepMind bulan ini.