Model kecerdasan buatan terpintar sekalipun pada dasarnya adalah peniru ulung. Mereka belajar dengan mengonsumsi contoh karya manusia atau dengan mencoba memecahkan masalah yang telah ditetapkan oleh instruktur manusia.
Namun, mungkin saja AI sebenarnya dapat belajar dengan cara yang lebih manusiawi—dengan merumuskan pertanyaan-pertanyaan menarik untuk diajukan kepada dirinya sendiri dan berusaha menemukan jawaban yang tepat. Sebuah proyek dari Universitas Tsinghua, Beijing Institute for General Artificial Intelligence (BIGAI), dan Pennsylvania State University menunjukkan bahwa AI dapat belajar bernalar dengan cara demikian melalui interaksi dengan kode komputer.
Para peneliti merancang sistem bernama Absolute Zero Reasoner (AZR) yang pertama-tama menggunakan model bahasa besar (LLM) untuk menghasilkan masalah pemrograman Python yang menantang namun dapat dipecahkan. Kemudian, model yang sama digunakan untuk memecahkan masalah tersebut sebelum memeriksa pekerjaannya dengan menjalankan kode itu. Akhirnya, sistem AZR menggunakan keberhasilan dan kegagalan sebagai sinyal untuk menyempurnakan model asli, meningkatkan kemampuannya baik dalam mengajukan masalah yang lebih baik maupun dalam memecahkannya.
Tim menemukan bahwa pendekatan mereka secara signifikan meningkatkan keterampilan pengkodean dan penalaran dari kedua versi model bahasa sumber terbuka Qwen berparameter 7 miliar dan 14 miliar. Yang mengesankan, model tersebut bahkan mengungguli beberapa model yang telah dilatih dengan data kurasi manusia.
Saya berbincang dengan Andrew Zhao, mahasiswa doktoral di Universitas Tsinghua yang mencetuskan ide awal Absolute Zero, serta Zilong Zheng, peneliti di BIGAI yang mengerjakan proyek ini bersamanya, melalui Zoom.
Zhao mengatakan kepada saya bahwa pendekatan ini menyerupai cara belajar manusia yang melampaui hafalan atau imitasi. “Awalnya Anda meniru orang tua dan mengikuti guru, tetapi pada akhirnya Anda harus mengajukan pertanyaan sendiri,” ujarnya. “Dan pada akhirnya Anda dapat melampaui mereka yang mengajari Anda dahulu di sekolah.”
Zhao dan Zheng mencatat bahwa gagasan AI belajar dengan cara ini, yang terkadang dijuluki “self-play”, telah ada sejak bertahun-tahun lalu dan sebelumnya dieksplorasi oleh tokoh-tokoh seperti Jürgen Schmidhuber, seorang pelopor AI ternama, dan Pierre-Yves Oudeyer, seorang ilmuwan komputer di Inria, Prancis.
Salah satu aspek paling menarik dari proyek ini, menurut Zheng, adalah cara keterampilan model dalam mengajukan dan memecahkan masalah berkembang secara skala. “Tingkat kesulitan meningkat seiring model menjadi lebih kuat,” katanya.
Tantangan utamanya adalah bahwa untuk saat ini sistem hanya bekerja pada masalah yang dapat dengan mudah diperiksa, seperti yang melibatkan matematika atau pemrograman. Seiring perkembangan proyek, mungkin saja sistem ini dapat diterapkan pada tugas-tugas AI agen seperti menjelajahi web atau melakukan pekerjaan kantor. Hal ini mungkin melibatkan pembuatan model AI untuk menilai apakah tindakan seorang agen sudah benar.
Satu kemungkinan menarik dari pendekatan seperti Absolute Zero adalah bahwa secara teori, pendekatan ini dapat memungkinkan model melampaui pengajaran manusia. “Begitu kita memilikinya, itu merupakan salah satu jalan menuju kecerdasan super,” kata Zheng kepada saya.
Ada tanda-tanda awal bahwa pendekatan Absolute Zero mulai diadopsi di beberapa laboratorium AI besar.
Sebuah proyek bernama Agent0, dari Salesforce, Stanford, dan University of North Carolina at Chapel Hill, melibatkan agen yang menggunakan alat perangkat lunak dan meningkatkan dirinya sendiri melalui self-play. Seperti halnya Absolute Zero, model menjadi lebih baik dalam penalaran umum melalui pemecahan masalah eksperimental. Sebuah makalah terbaru yang ditulis oleh peneliti dari Meta, University of Illinois, dan Carnegie Mellon University memaparkan sistem yang menggunakan self-play serupa untuk rekayasa perangkat lunak. Para penulis karya ini menyatakan bahwa ini merupakan “langkah pertama menuju paradigma pelatihan untuk agen perangkat lunak supercerdas.”
Mencari cara-cara baru bagi AI untuk belajar kemungkinan akan menjadi tema besar di industri teknologi tahun ini. Dengan sumber data konvensional yang semakin langka dan mahal, serta laboratorium yang mencari cara baru untuk meningkatkan kemampuan model, proyek seperti Absolute Zero dapat mengarah pada sistem AI yang kurang mirip peniru dan lebih mirip manusia.