Bertemu dengan Agen AI yang Memiliki Banyak Kepribadian

Di tahun-tahun mendatang, agen secara luas diharapkan akan mengambil alih lebih banyak tugas atas nama manusia, termasuk menggunakan komputer dan ponsel pintar. Namun, saat ini, mereka terlalu rentan terhadap kesalahan untuk menjadi sangat berguna.

Seorang agen baru bernama S2, yang dibuat oleh startup Simular AI, menggabungkan model-model terkini dengan model-model khusus untuk menggunakan komputer. Agen ini mencapai kinerja terbaik dalam tugas-tugas seperti menggunakan aplikasi dan memanipulasi file – dan menunjukkan bahwa beralih ke model-model yang berbeda dalam situasi yang berbeda mungkin membantu agen-agennya maju.

“Agen yang menggunakan komputer berbeda dari model bahasa besar dan berbeda dari pemrograman,” kata Ang Li, salah satu pendiri dan CEO Simular. “Ini adalah jenis masalah yang berbeda.”

Dalam pendekatan Simular, model kecerdasan buatan serbaguna yang kuat, seperti GPT-4o dari OpenAI atau Claude 3.7 dari Anthropic, digunakan untuk merencanakan cara terbaik untuk menyelesaikan tugas yang sedang dihadapi – sementara model-model sumber terbuka yang lebih kecil digunakan untuk tugas-tugas seperti menginterpretasikan halaman web.

Li, yang pernah menjadi peneliti di Google DeepMind sebelum mendirikan Simular pada tahun 2023, menjelaskan bahwa model bahasa besar sangat baik dalam merencanakan tetapi tidak begitu baik dalam mengenali elemen-elemen antarmuka pengguna grafis.

S2 dirancang untuk belajar dari pengalaman dengan modul memori eksternal yang mencatat tindakan dan umpan balik pengguna serta menggunakan rekaman-rekaman itu untuk meningkatkan tindakan-tindakan di masa depan.

Pada tugas-tugas yang sangat kompleks, S2 tampil lebih baik daripada model lainnya di OSWorld, sebuah benchmark yang mengukur kemampuan agen untuk menggunakan sistem operasi komputer.

Misalnya, S2 dapat menyelesaikan 34,5 persen dari tugas-tugas yang melibatkan 50 langkah, mengalahkan Operator dari OpenAI yang hanya dapat menyelesaikan 32 persen. Demikian pula, S2 mencetak 50 persen di AndroidWorld, sebuah benchmark untuk agen yang menggunakan ponsel pintar, sedangkan agen terbaik berikutnya mencetak 46 persen.

MEMBACA  OpenAI Melewatkan o2 dan Meluncurkan Model o3 Baru 'Pemikiran'

Victor Zhong, seorang ilmuwan komputer di University of Waterloo di Kanada dan salah satu pencipta OSWorld, percaya bahwa model kecerdasan buatan besar di masa depan mungkin akan mencakup data pelatihan yang membantu mereka memahami dunia visual dan membuat pengertian antarmuka pengguna grafis.

“Ini akan membantu agen untuk menavigasi GUI dengan presisi yang jauh lebih tinggi,” kata Zhong. “Saya pikir sementara menunggu terobosan mendasar seperti itu, sistem-sistem terbaik akan menyerupai Simular dalam hal menggabungkan beberapa model untuk memperbaiki keterbatasan model tunggal.”

Untuk mempersiapkan kolom ini, saya menggunakan Simular untuk memesan penerbangan dan mencari tawaran di Amazon, dan tampaknya lebih baik daripada beberapa agen sumber terbuka yang saya coba tahun lalu, termasuk AutoGen dan vimGPT.

Namun, bahkan agen kecerdasan buatan terpintar, sepertinya masih bermasalah dengan kasus-kasus tertentu dan kadang-kadang menunjukkan perilaku aneh. Pada satu kasus, ketika saya meminta S2 untuk membantu mencari informasi kontak para peneliti di balik OSWorld, agen itu terjebak dalam lingkaran yang terus menerus antara halaman proyek dan login untuk Discord OSWorld.

Benchmarks OSWorld menunjukkan mengapa agen-agennya masih lebih banyak sensasi daripada kenyataan untuk saat ini. Sementara manusia dapat menyelesaikan 72 persen tugas-tugas OSWorld, agen-agennya terhalangi 38 persen dari waktu ke waktu pada tugas-tugas kompleks. Namun, ketika benchmark itu diperkenalkan pada April 2024, agen terbaik hanya dapat menyelesaikan 12 persen tugas-tugasnya.