OpenAI baru saja meluncurkan pembangkit gambar baru yang diklaim mampu menghasilkan ‘slop’ yang lebih cerdas dan presisi dibandingkan sebelumnya.
Menurut promo perkenalan yang tayang sebelum livestream OpenAI pada Selasa, ChatGPT Images 2.0 akan menjadi “renaissance” dalam generasi gambar AI.
“Jika DALL-E dianggap lukisan gua, dan Images 1.0 adalah seni kuno, maka Images 2.0 adalah Renaisans,” klaim promosi tersebut.
“Images 2.0 adalah lompatan besar; ini seperti beralih dari GPT-3 ke GPT-5 sekaligus,” ujar CEO Sam Altman dalam livestream.
Perusahaan memamerkan kemampuan multibahasa baru, kecerdasan visual yang lebih baik, dan perhatian lebih pada detail dengan model baru ini. Mereka menunjukkan contoh sebuah mangkuk nasi di mana hanya sebutir kecil yang memuat nama model tersebut.
© OpenAI
Model ini memiliki dua mode: instan dan berpikir. Para peneliti mengklaim kedua mode tersebut jauh lebih unggul dari kemampuan pembuatan gambar sebelumnya di ChatGPT, dan bahwa kesalahan ketik “sangat jarang” terjadi.
Mode instan tampaknya hanyalah versi yang lebih cepat dan diperbarui dari generator gambar biasa, dan sudah tersedia untuk semua pengguna ChatGPT dan API. Mode Berpikir lebih kompleks dan hanya tersedia bagi pengguna berbayar, khususnya pelanggan Plus, Pro, dan Bisnis.
“Ketika model berpikir dipilih di ChatGPT, Images 2.0 dapat mencari informasi real-time di web, membuat beberapa gambar berbeda dari satu perintah, dan memeriksa ulang output-nya sendiri,” ungkap OpenAI dalam siaran pers yang dibuat oleh Images 2.0 dan didesain menyerupai halaman majalah retro.
Sebagai contoh, perusahaan menyatakan bahwa Mode Berpikir dapat menghasilkan beberapa halaman komik manga “dengan karakter berulang dan alur cerita yang berkembang” atau halaman majalah utuh dari satu perintah sederhana.
Contoh panel manga yang dihasilkan Images 2.0 © OpenAI
Para pengamat daring telah menduga peluncuran ini sejak beberapa waktu lalu. Model ini dijuluki “GPT-image-2” oleh para penggemar di Reddit dan X. Awal bulan ini, seorang pengguna Reddit mengklaim OpenAI sedang menguji model tersebut pada sebagian pengguna ChatGPT. Di waktu yang hampir bersamaan, seorang pengguna X menyatakan model itu sudah ada di platform uji pihak ketiga seperti Arena AI dengan nama kode berbeda seperti “maskingtape-alpha,” “gaffertape-alpha,” dan “packingtape-alpha.” Dalam livestream, insinyur OpenAI mengonfirmasi hal ini benar. Postingan X yang mengungkapkannya memuat gambar-gambar yang konon dihasilkan model itu, yang sebagian besar tampak impresif, kecuali sebuah peta dunia dengan negara fiktif seperti “Ciger” dan “Mharee,” serta penempatan ibu kota yang kacau—misalnya menempatkan Nairobi, ibu kota Kenya, di Arab Saudi.
OpenAI sedang mempersiapkan diri untuk sebuah IPO yang dikabarkan akan terjadi tahun ini. Menjelang IPO tersebut, perusahaan—yang konon masih jauh dari profitabilitas meski komitmen pengeluarannya terus membengkak—tengah berupaya keras membuat kinerja keuangannya tampak sebaik mungkin di mata calon investor. Upaya ini termasuk beralih menjadi corporation for-profit benefit publik dan menghentikan generator video Sora untuk menghemat biaya.
Jika model generator gambar baru ini dapat meniru kesuksesan daring yang diraih generasi gambar GPT-4o sebelumnya lewat tren “Studio Ghibli” lebih dari setahun lalu, hal itu dapat membantu ChatGPT meningkatkan angka pengguna aktif mingguannya—poin penting lain bagi investor. OpenAI mengumumkan pada Februari bahwa ChatGPT telah menembus 900 juta pengguna aktif mingguan, dan Images 2.0 bisa membantu angka itu mencapai 1 miliar—angka yang arbitrer namun terdengar jauh lebih mentereng.
Kali ini, momen viral yang mereka harapkan tampaknya adalah fotorealisme. Saat ditanya Altman dalam livestream, peneliti OpenAI Gabriel Goh menyatakan fotorealisme adalah gaya yang paling dia antisipasi dalam model ini dan itu “memicu sesuatu yang sangat menarik.”
Pertarungan lain yang harus dihadapi OpenAI adalah reputasinya.
OpenAI memulai demam AI dengan meluncurkan ChatGPT, chatbot yang tidak hanya menjadi nama terkenal tetapi juga hampir sinonim dengan teknologi tersebut. Namun, posisi perusahaan sebagai pemimpin lomba AI mulai menghadapi kompetisi serius.
Contoh gambar “kandid” fotorealistik yang dihasilkan Images 2.0 © OpenAI
Salah satu pukulan datang dari rival utama OpenAI, Anthropic, yang model-model agennya seperti Claude Cowork dan Claude Code membuat OpenAI berkeringat. Sebagai respons, OpenAI berusaha memperkuat penawaran kompetitifnya seperti Codex dengan pembaruan.
Pukulan lain mendarat dari Google. Akhir tahun lalu, raksasa teknologi itu memperbarui generator gambar viralnya Nano Banana Pro dan meluncurkan Gemini 3, keduanya disambut sorotan signifikan. Tak lama setelah penerimaan stellar atas rilis Google, OpenAI menyatakan “kode merah” di perusahaan.
Kompetisi yang dihadapi OpenAI dari Google dan Anthropic begitu besar hingga bahkan CEO Nvidia Jensen Huang, partner kunci, merasa khawatir akan dominasi pasar OpenAI, menurut laporan Wall Street Journal awal tahun ini. Keberhasilan generator gambar ini mungkin dapat meredakan sebagian kekhawatiran tersebut.