OpenAI dikenal atas model bahasa besar (LLM) canggihnya yang digunakan untuk menggerakkan beberapa chatbot AI paling populer, seperti ChatGPT dan Copilot. Model multimodal dapat meningkatkan kemampuan chatbot dengan membuka berbagai aplikasi visual baru, dan OpenAI baru saja membuat salah satunya tersedia untuk para pengembang.
Pada hari Selasa, melalui posting X (dahulu Twitter), OpenAI mengumumkan bahwa GPT-4 Turbo with Vision, model terbaru GPT-4 Turbo dengan kemampuan visi, kini tersedia secara umum untuk para pengembang melalui OpenAI API.
Model terbaru ini mempertahankan jendela 128.000-token dari GPT-4 Turbo dan batas pengetahuan dari Desember 2023. Perbedaan utamanya adalah kemampuan visinya, yang memungkinkannya untuk memahami gambar dan konten visual.
Sebelum GPT-4 Turbo with Vision tersedia, para pengembang harus menggunakan model terpisah untuk teks dan gambar. Sekarang, para pengembang hanya perlu menggunakan satu model yang dapat melakukan keduanya, menyederhanakan proses dan membuka peluang untuk berbagai kasus penggunaan.
OpenAI membagikan beberapa cara para pengembang sudah menggunakan model ini, dan hasilnya cukup menarik. Sebagai contoh, Devin, asisten rekayasa perangkat lunak AI, menggunakan GPT-4 Turbo with Vision untuk membantu dalam menulis kode. Aplikasi kesehatan dan kebugaran, Healthify, menggunakan GPT-4 Turbo with Vision untuk memindai foto makanan pengguna dan memberikan wawasan gizi melalui pengenalan foto. Terakhir, Make Real menggunakan GPT-4 Turbo with Vision untuk mengubah gambar yang digambar oleh pengguna menjadi situs web yang berfungsi.
Meskipun model GPT-4 Turbo with Vision belum tersedia di dalam ChatGPT atau untuk masyarakat umum, OpenAI memberi bocoran bahwa segera akan tersedia di ChatGPT. Jika Anda seorang pengembang yang ingin mulai menggunakan OpenAI GPT-4 Turbo with Vision API, Anda dapat mempelajari cara memulainya di sini.