Claude Opus 4.5 Telah Rilis: Bagaimana Kemampuannya Dibandingkan Model Unggulan Lainnya?

Ilustrasi Foto oleh Thomas Fuller/SOPA Images/LightRocket via Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

Intisari ZDNET

  • Model AI terbaru Anthropic, Claude Opus 4.5, telah tiba.
  • Model ini dikabarkan unggul dalam pemecahan masalah secara kreatif.
  • Menurut Anthropic, model ini juga unggul dalam tugas-tugas yang bersifat agen.

    Startup AI Anthropic meluncurkan model terbarunya, Claude Opus 4.5, pada hari Senin. Dalam postingan blog perusahaan, model ini digambarkan sebagai "sebuah langkah maju dalam hal yang dapat dilakukan sistem AI, serta sebuah pratinjau atas perubahan dalam cara pekerjaan diselesaikan."

    Model baru ini diklaim mengungguli aplikasi-aplikasi terkemuka industri lainnya seperti Gemini 3 Pro dari Google dan GPT-5.1 dari OpenAI dalam tugas-tugas pemrograman, menurut Anthropic.

    Perusahaan tersebut juga menulis bahwa model ini "mencetak skor lebih tinggi daripada kandidat manusia mana pun sepanjang masa" dalam ujian yang "terkenal sulit" yang diberikan kepada calon karyawan teknik. Hasil ini "memunculkan pertanyaan tentang bagaimana AI akan mengubah teknik sebagai sebuah profesi," tulis Anthropic dalam postingan blognya. Sebuah versi Gemini 2.5 juga baru-baru ini mencetak nilai tertinggi dalam International Collegiate Programming Contest (ICPC), sebuah kompetisi pemrograman yang terkenal di tingkat internasional.

    Claude Opus 4.5 disebut mengungguli model-model Anthropic sebelumnya dalam hal visi, penalaran, dan matematika. Model ini juga mencapai kinerja mutakhir dalam tugas-tugas seperti penggunaan alat yang agen dan penggunaan komputer.

    Anthropic menambahkan bahwa model terbarunya ini mencapai titik tertinggi baru dalam kemampuannya untuk menalar dan beradaptasi secara fleksibel dengan masalah-masalah kompleks.

    Dalam satu skenario uji, model ini harus bertindak sebagai agen maskapai otomatis yang membantu pelanggan yang meminta untuk mengubah penerbangan kelas ekonomi dasar mereka. Karena perubahan seperti itu tidak diizinkan oleh maskapai fiksi tersebut, ujian ini dirancang untuk mengukur seberapa baik agen otomatis itu menolak permintaan dan menangani pelanggan yang kecewa. Namun, Claude Opus 4.5 menemukan celah kreatif: model tersebut pertama-tama mengubah kabin pelanggan, lalu mengubah penerbangannya, karena perubahan seperti itu diizinkan untuk penerbangan non-ekonomi dasar.

    "Ini akan membutuhkan biaya lebih banyak, tetapi ini adalah jalur yang sah dalam kebijakan," kata Claude Opus 4.5 selama transaksi, menurut sebuah gambar yang disediakan oleh Anthropic dalam postingan blog barunya.

    "Secara teknis, tolok ukur ini menilai ini sebagai kegagalan karena cara Claude membantu pelanggan tidak terduga," tulis Anthropic. "Tetapi pemecahan masalah kreatif semacam inilah yang kami dengar dari para penguji dan pelanggan kami — ini yang membuat Claude Opus 4.5 terasa seperti sebuah langkah maju yang berarti."

    Claude Opus 4.5 mencetak skor lebih baik daripada pendahulunya dan model-model frontier lainnya dalam hal memperlihatkan "perilaku yang mengkhawatirkan," yang Anthropic definisikan sebagai "kerja sama dengan penyalahgunaan oleh manusia dan tindakan tidak diinginkan yang model lakukan atas inisiatifnya sendiri."

    Tersedia sekarang di aplikasi Claude, API, dan melalui tiga platform cloud utama (Azure, Amazon Web Services, dan Google Cloud), Claude Opus 4.5 diberi harga $5/$25 per juta token.

    Anthropic melaporkan valuasi sebesar $183 miliar pada bulan September setelah putaran pendanaannya yang terbaru, sebuah angka yang sebagian besar dimungkinkan oleh popularitas Claude di kalangan pelanggan perusahaan. Perusahaan itu juga mengumumkan awal bulan ini bahwa mereka akan menginvestasikan $50 miliar ke dalam pusat data mereka sendiri di seluruh Amerika Serikat untuk mendukung pelatihan model-model AI baru.

MEMBACA  Karyawan Microsoft Mengganggu Perayaan Ulang Tahun ke-50 Terkait Kontrak AI Israel