Google telah mengumumkan alat AI baru yang disebut Whisk yang memungkinkan Anda menghasilkan gambar menggunakan gambar lain sebagai petunjuk daripada memerlukan petunjuk teks yang panjang.
Dengan Whisk, Anda dapat menawarkan gambar untuk menyarankan apa yang Anda inginkan sebagai subjek, adegan, dan gaya dari gambar yang dihasilkan AI, dan Anda dapat merangsang Whisk dengan beberapa gambar untuk masing-masing dari tiga hal tersebut. (Jika Anda mau, Anda dapat mengisi petunjuk teks juga.) Jika Anda tidak memiliki gambar, Anda dapat mengklik ikon dadu untuk membuat Google mengisi beberapa gambar untuk petunjuk (meskipun gambar tersebut juga tampaknya dihasilkan AI). Anda juga dapat memasukkan teks ke dalam kotak teks pada akhir proses jika Anda ingin menambahkan detail tambahan tentang gambar yang Anda cari, tetapi itu tidak diperlukan.
Whisk kemudian akan menghasilkan gambar dan petunjuk teks untuk setiap gambar. Anda dapat menandai favorit atau mengunduh gambar jika Anda puas dengan hasilnya, atau Anda dapat menyempurnakan gambar dengan memasukkan lebih banyak teks ke dalam kotak teks atau mengklik gambar dan mengedit petunjuk teks.
Tangkapan layar Whisk. Saya mengklik dadu untuk menghasilkan subjek, adegan, dan gaya. Saya mengganti adegan yang dihasilkan otomatis dengan memasukkan petunjuk teks. Whisk menciptakan dua gambar pertama, yang saya iterasi dengan meminta Whisk untuk menambahkan sedikit uap di sekitar subjek (karena itu adalah makhluk api di air), yang menghasilkan dua gambar berikutnya. Tangkapan layar oleh Jay Peters / The Verge
Dalam sebuah pos blog, Google menekankan bahwa Whisk dirancang untuk “eksplorasi visual cepat, bukan suntingan pixel-perfect.” Perusahaan juga mengatakan bahwa Whisk mungkin “melewatkan sasaran,” itulah mengapa Anda dapat mengedit petunjuk yang mendasarinya.
Dalam beberapa menit saya menggunakan alat ini saat menulis cerita ini, menyenangkan untuk bermain-main dengan. Gambar membutuhkan beberapa detik untuk dihasilkan, yang menjengkelkan, dan meskipun gambar agak aneh, semuanya yang saya hasilkan menyenangkan untuk diiterasi.
Google mengatakan Whisk menggunakan “iterasi terbaru” dari model generasi gambar Imagen 3 miliknya, yang diumumkan hari ini. Google juga memperkenalkan Veo 2, versi berikutnya dari model generasi video miliknya, yang menurut perusahaan memiliki pemahaman tentang “bahasa sinematografi” yang unik dan menghalusinasi hal-hal seperti jari ekstra “lebih jarang” daripada model lain (salah satu dari model lain itu mungkin adalah Sora dari OpenAI). Veo 2 akan datang terlebih dahulu ke VideoFX Google, yang dapat Anda dapatkan dalam daftar tunggu Google Labs, dan akan diperluas ke YouTube Shorts “produk lain” suatu saat tahun depan.