Model baru dari Anthropic unggul dalam penalaran dan perencanaan—dan memiliki keterampilan Pokémon untuk membuktikannya

Ketika Claude 3.7 Sonnet bermain game, ia mengalami beberapa tantangan: Ia menghabiskan “dozen of hours” terjebak di satu kota dan kesulitan mengidentifikasi karakter nonplayer, yang secara drastis menghambat kemajuannya dalam game. Dengan Claude 4 Opus, Hershey melihat peningkatan dalam memori jangka panjang Claude dan kemampuan perencanaannya saat ia menontonnya menavigasi pencarian Pokémon yang kompleks. Setelah menyadari bahwa ia memerlukan kekuatan tertentu untuk melanjutkan, AI tersebut menghabiskan dua hari untuk meningkatkan keterampilannya sebelum melanjutkan bermain. Hershey percaya bahwa jenis penalaran multi-langkah tersebut, tanpa umpan balik langsung, menunjukkan tingkat kohesi baru, artinya model tersebut memiliki kemampuan yang lebih baik untuk tetap sejalan.

“Ini salah satu cara favorit saya untuk mengenal sebuah model. Seperti, ini cara saya memahami apa kelebihan dan kelemahan model tersebut,” kata Hershey. “Ini cara saya untuk memahami model baru yang akan kami rilis, dan bagaimana cara bekerjanya.”

Semua Orang Menginginkan Agen

Penelitian Pokémon Anthropic adalah pendekatan baru dalam menangani masalah yang sudah ada sebelumnya – bagaimana kita memahami keputusan yang diambil AI saat mendekati tugas-tugas kompleks, dan mendorongnya ke arah yang benar?

Jawaban atas pertanyaan tersebut adalah penting untuk memajukan agen AI yang sangat dihype – AI yang dapat menangani tugas-tugas kompleks dengan relatif mandiri. Dalam Pokémon, penting bahwa model tersebut tidak kehilangan konteks atau “lupa” dengan tugas yang sedang dijalankan. Hal itu juga berlaku untuk agen AI yang diminta untuk mengotomatisasi alur kerja – bahkan yang memakan ratusan jam.

“Ketika sebuah tugas berubah dari tugas lima menit menjadi tugas 30 menit, Anda bisa melihat kemampuan model untuk tetap kohesif, mengingat semua hal yang perlu diselesaikan [tugas tersebut] agar sukses menjadi lebih buruk seiring waktu,” kata Hershey.

MEMBACA  21 Penawaran Terbaik Amazon Pet Day Awal (2025)

Anthropic, seperti banyak laboratorium AI lainnya, berharap untuk menciptakan agen-agennya yang kuat untuk dijual sebagai produk bagi konsumen. Krieger mengatakan bahwa “tujuan utama” Anthropic tahun ini adalah Claude “melakukan jam-jam pekerjaan untuk Anda.”

“Model ini sekarang telah memenuhi itu – kami melihat salah satu pelanggan kami early-access memiliki model pergi selama tujuh jam dan melakukan refactor besar,” kata Krieger, merujuk pada proses restrukturisasi sejumlah besar kode, sering kali untuk membuatnya lebih efisien dan terorganisir.

Ini adalah masa depan yang sedang dikejar oleh perusahaan seperti Google dan OpenAI. Pekan ini, Google merilis Mariner, sebuah agen AI yang terintegrasi ke dalam Chrome yang dapat melakukan tugas-tugas seperti membeli kebutuhan pokok (dengan harga $249,99 per bulan). OpenAI baru-baru ini merilis agen pengkodean, dan beberapa bulan yang lalu mereka meluncurkan Operator, agen yang dapat menjelajahi web atas nama pengguna.

Dibandingkan dengan pesaingnya, Anthropic sering dianggap sebagai pergerak yang lebih berhati-hati, cepat dalam penelitian tetapi lambat dalam penyebaran. Dan dengan kekuatan AI, itu kemungkinan positif: Ada banyak hal yang bisa salah dengan agen yang memiliki akses ke informasi sensitif seperti surel atau login bank pengguna. Dalam sebuah pos blog pada hari Kamis, Anthropic mengatakan, “Kami telah secara signifikan mengurangi perilaku di mana model menggunakan pintas atau celah untuk menyelesaikan tugas.” Perusahaan juga mengatakan bahwa baik Claude 4 Opus maupun Claude Sonnet 4 65 persen lebih sedikit kemungkinannya untuk terlibat dalam perilaku ini, yang dikenal sebagai peretasan hadiah, daripada model sebelumnya – setidaknya dalam beberapa tugas pengkodean tertentu.