Ulasan Dini ChatGPT Images 2.0: Sangat Mengesankan, Kecuali Satu Hal

Elyse Betters Picaro / ZDNET

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.

*

Poin Penting ZDNET**

  • OpenAI membingkai ulang gambar sebagai bahasa visual.
  • Mode ‘thinking’ membangun infografis yang memahami konteks.
  • Fidelitas merek masih belum konsisten dalam pengujian awal.

    *

    Hari ini, OpenAI mengumumkan ChatGPT Images 2.0, model gambar generasi terbarunya, yang menurut perusahaan fokus pada presisi, kemudahan penggunaan, dan tugas visual yang kompleks.

    Kemampuan baru yang paling mencolok adalah kapasitas untuk menggabungkan teks dan gambar guna membangun halaman yang kompleks dan indah. OpenAI membingkai ulang keseluruhan gagasan pembuatan gambar dari sebuah proses yang menciptakan dekorasi (istilah mereka) menjadi sebuah bahasa (juga istilah mereka).

    Baca juga:** Generator AI Gambar Terbaik 2026: Hanya Ada Satu Pemenang Jelas Sekarang

    OpenAI mendeskripsikannya sebagai, "Gambar yang baik melakukan apa yang dilakukan kalimat yang baik — ia memilih, menyusun, dan mengungkap. Ia dapat menjelaskan sebuah mekanisme, menata suasana hati, menguji sebuah ide, atau membuat sebuah argumen."

    Kapabilitas ‘Thinking’ Memungkinkan Alur Kerja Kompleks

    Selain peningkatan besar dalam kemampuan mencampur teks dan grafis, model baru ini menggunakan kapabilitas ‘thinking’ yang ditingkatkan. Ia dapat menghasilkan beberapa gambar per perintah dengan kesinambungan di seluruh hasil keluaran. Pendekatan ini dimungkinkan karena model ini sebenarnya mengintegrasikan penalaran ke dalam output gambar.

    Dibuat oleh ChatGPT/Screenshot oleh David Gewirtz/ZDNET

    Pergeseran ini signifikan. Alih-alih hanya menghasilkan gambar yang kurang lebih sesuai dengan detail perintah, Images 2.0 dapat menerima perintah yang jauh lebih samar, seperti "Buatkan infografis tentang aktivitas yang harus saya lakukan dengan mempertimbangkan cuaca besok di San Francisco."

    Baca juga: Cara Beralih dari ChatGPT ke Gemini Tanpa Mulai dari Nol

    Dari perintah ini, AI akan mengumpulkan data cuaca dan aktivitas tentang San Francisco, menentukan aktivitas yang sesuai dengan cuaca, lalu membangun gambar atau serangkaian gambar yang sesuai dengan hasil tersebut.

    Menurut OpenAI, "Dalam model ini, Images 2.0 bertindak lebih seperti mitra pemikiran visual, membantu membawa sebuah proyek dari konsep kasar menjadi aset jadi dengan pekerjaan yang jauh lebih sedikit dari pihak Anda."

    Presisi dan Kontrol Desain Meningkatkan Kegunaan

    Banyak dari kita telah lama kesulitan membujuk ChatGPT untuk menghasilkan gambar dengan rasio aspek spesifik yang diinginkan. Seringkali, AI dengan keras kepala menghasilkan apa yang ia mau. Namun kini, dengan Images 2.0, model ini mendukung "rasio aspek selebar 3:1 dan setinggi 1:3."

    Model ini juga mendukung output dengan fidelitas lebih tinggi yang (sebagian besar) menghasilkan penempatan objek yang akurat, rendering teks detail, dan komposisi kompleks. Kita lihat nanti apakah kita bisa menghapus kata "sebagian besar" dari kalimat itu setelah produk dirilis resmi.

    Baca juga: Saya Mencoba Personal Intelligence, dan Akurasinya Tepat (Tapi Mengganggu)

    AI ini juga mendukung teks kecil, elemen UI, dan kendala gaya dengan resolusi hingga 2K. Keren.

    Menguji Pratinjau

    Saya diberikan akses ke pratinjau sehari sebelum peluncuran, dan model ini cukup mengesankan, sebagian besar. Saya memberinya tangkapan layar beranda ZDNET dan draf siaran pers Images 2.0.

    Kemudian saya beri instruksi, "Berdasarkan isi siaran pers, buatlah infografis 16:9 tentang pembaruan gambar baru ini dan hasilkan menggunakan gaya merek ZDNET seperti yang ditunjukkan dalam dokumen beranda ZDNET."

    Baca juga: Saya Mencoba Alat AI Enhance Google Photos: Cara Memotong, Menerangi Ulang, dan Memperbaiki Foto – Terkadang

    Model ini bekerja dengan sangat baik untuk infografisnya, tetapi bagaimanapun caranya, ia tidak dapat mereproduksi logo ZDNET. Pada percobaan pertama, ia membuat huruf Z di ZDNET dengan sedikit melengkung ke bawah.

    Contoh kegagalan logo ZDNET pada percobaan pertama Dibuat oleh ChatGPT/Screenshot oleh David Gewirtz/ZDNET

    Saya mencoba berbagai permintaan seperti, "Perbaiki Logo ZDNET. Huruf Z melengkung ke bawah di versi Anda tetapi tidak melengkung di logo aslinya." Namun Images 2.0 tidak pernah berhasil memperbaikinya.

    Jadi saya memulai sesi baru. Kali ini, saya menyertakan instruksi, "Gunakan perhatian khusus untuk mereproduksi logo ZDNET secara akurat."

    Baca juga: Saya Menguji ChatGPT Plus vs. Gemini Pro untuk Melihat Mana yang Lebih Baik – dan Apakah Layak Beralih

    Di sinilah segalanya menjadi sangat aneh. Untuk proses pertamanya, model ini entah bagaimana menggali salinan logo ZDNET dari sebelum desain ulang kami tahun 2022. Logo ini tidak ditemukan di mana pun di beranda kami saat ini. Anehnya, ia merender logo lama itu menggunakan skema warna saat ini. Model itu kemudian mendorong logo dan informasi infografis ke tepi kiri gambar. Ia juga memilih warna biru muda untuk "Images 2.0" yang bukan warna merek ZDNET.

    Contoh kegagalan logo dengan logo lama dan tata letak aneh Dibuat oleh ChatGPT/Screenshot oleh David Gewirtz/ZDNET

    Saya berusaha keras membujuknya untuk menggunakan logo yang sekarang. Saya berhasil membuatnya mendorong gambar ke kanan, sehingga tidak ada yang terpotong. Namun menambahkan perintah, "Gunakan logo ZDNET yang ada di halaman yang disediakan. Jangan cari logo alternatif," tidak berhasil memperbaiki masalah.

    Saya mengambil satu kesempatan lagi untuk tantangan ini sebelum memutuskan untuk kembali menyelesaikan artikel ini. Sekali lagi, saya memulai sesi baru agar AI tidak punya memori otot dari perhitungan keliru sebelumnya.

    Baca juga: Pengaturan Gemini yang Kuat Ini Membuat Hasil AI Saya Jauh Lebih Pribadi dan Akurat

    Model ini kembali mengacaukan logonya. Kali ini, AI memutuskan untuk menambahkan bentuk kemudi ke batang huruf D kapital yang diregangkan.

    Contoh kegagalan logo dengan modifikasi aneh pada huruf D Dibuat oleh ChatGPT/Screenshot oleh David Gewirtz/ZDNET

    Harus diakui, saya menggunakan versi pra-rilis Images 2.0. Saya akan kembali dengan serangkaian pengujian model yang jauh lebih komprehensif setelah produk dirilis resmi.

    Saya juga mencoba tes serupa menggunakan dokumen berbeda dengan Google Nano Banana Pro, tetapi karena tidak menangani sintesis seperti yang dilakukan versi baru produk OpenAI ini, ia tidak benar-benar mampu mengulangi hasil yang saya dapatkan di sini. Kita akan tahu lebih banyak seiring kami melakukan tes lanjutan.

    Harga dan Ketersediaan

    Model baru ini tersedia mulai hari ini untuk semua pengguna ChatGPT dan Codex. Output tingkat lanjut dan kemampuan ‘thinking’ tersedia untuk pengguna ChatGPT Plus, Pro, Business, dan Enterprise. Pastikan untuk memilih "Thinking" dari bilah dropdown ChatGPT di bagian atas layar.

    Pada saat penulisan, sebelum rilis, model Images 2.0 baru ini hanya tersedia di desktop. Namun OpenAI berjanji bahwa kemampuan ini akan hadir juga di versi mobile, bersama dengan kemampuan untuk memilih gambar dengan jari menggunakan layar sentuh ponsel Anda.

    Gambar juga tersedia via API menggunakan model gpt-image-2. Harga API bervariasi tergantung kualitas, tingkat ‘pemikiran’ (istilah saya), dan resolusi gambar yang diinginkan.

    Jika AI dapat menangani tata letak dan konten secara kombinasi, akankah itu mengubah cara Anda mendekati proyek desain? Beri tahu kami di komentar di bawah.

    ***

    Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, di Bluesky di @DavidGewirtz.com, dan di YouTube di YouTube.com/DavidGewirtzTV.

MEMBACA  Ulasan Sennheiser Momentum True Wireless 4: Besar namun Tetap Indah

Tinggalkan komentar