Agen kecerdasan buatan Anthropic, Claude, sedang bermain Pokémon dan tidak bisa menangkap semuanya

Bulan lalu, startup AI Anthropic yang bernilai $61.5 miliar mengatur siaran langsung permainan di Twitch. Siaran langsung permainan bukanlah hal baru di Twitch, tetapi ini sedikit berbeda: Claude, model AI Anthropic, mencoba untuk mengalahkan Pokémon Merah.

Kita sekarang sudah satu bulan, dan siaran langsung masih berlangsung. Namun, Claude belum banyak mengalami kemajuan. Dan, dengan kecepatan ini, agen AI Anthropic mungkin tidak akan pernah menjadi yang terbaik, seperti tak seorang pun sebelumnya.

Menurut Anthropic, ketika pertama kali meluncurkan proyek “Claude Plays Pokémon”, versi sebelumnya dari agen AI Claude gagal dalam beberapa tugas dasar. Misalnya, menurut Anthropic, Claude 3.5 akan mencoba untuk kabur dari hampir setiap pertempuran pada bulan Juni 2024.

Beberapa bulan dan beberapa versi Claude kemudian, Anthropic mengatakan ada perubahan drastis. Pada Februari 2025, Anthropic memberikan Claude 3.7 Sonnet kesempatan untuk bermain Pokémon.

“Dalam hitungan jam, Claude mengalahkan Brock. Beberapa hari kemudian, ia mengalahkan Misty,” kata Anthropic. “Kemajuan yang versi lama tidak memiliki harapan untuk mencapainya.”

Anthropic mengatakan bahwa Claude 3.7 Sonnet dapat merencanakan ke depan, mengingat tujuan, dan belajar dari kesalahannya, tidak seperti versi sebelumnya dari agen AI tersebut. Ini juga membangun basis pengetahuan, melihat layar, dan mensimulasikan tekanan tombol.

Namun, kemajuan yang awalnya dibuat oleh Claude 3.7 Sonnet dalam permainan tampaknya telah terhenti.

Misalnya, penonton siaran langsung melihat saat Clause 3.7 butuh 78 jam untuk melewati Gunung Bulan dalam permainan. Di Reddit, para gamer memperkirakan bahwa biasanya hanya butuh beberapa jam bagi seorang anak untuk maju melalui tahap yang sama.

Claude terlihat berputar-putar, tersandung di sekitar jalan yang sama, dan sering menabrak dinding saat mencoba untuk melewati permainan.

MEMBACA Headphone AI Terbaru Menyediakan Terjemahan 42 Bahasa Secara Real-Time, Termasuk Berbagai Aksen

Siaran langsung ini menarik, terutama ketika sebuah kotak teks menjelaskan “pikiran” Claude saat agen AI berusaha untuk memutuskan langkah apa yang harus diambil selanjutnya.

Menurut insinyur Anthropic dalam wawancara dengan Ars Technica, Claude memiliki waktu yang lebih mudah dengan aspek permainan yang melibatkan teks, seperti pertempuran Pokémon. Namun, ia kesulitan dengan aspek visual permainan, seperti berpindah dari kota ke kota di peta.

Claude 3.7 Sonnet telah jauh lebih jauh dalam permainan daripada model Claude sebelumnya, jadi ada kemajuan. Namun, bagi mereka yang memperingatkan bahwa AI akan segera dapat mengambil alih dunia, kita masih jauh dari kenyataan itu. Claude masih memiliki 151 Pokémon untuk ditangkap.