Saya Mencoba GPT-5.4: Mayoritas Jawabannya Sangat Baik, Namun Beberapa Mengkhawatirkan

Oleh: Elyse Betters Picaro / ZDNET

Ikuti ZDNET: [Tambahkan kami sebagai sumber pilihan] di Google.

—

Kesimpulan Utama ZDNET tentang GPT-5.4 Thinking:

Menawarkan analisis yang lebih mendalam dibandingkan model ChatGPT sebelumnya.
Memiliki kemampuan penalaran yang kuat, namun terkadang menjawab pertanyaan yang tidak diajukan.
Kualitas pemformatan dan pembuatan gambarnya tertinggal di belakang kualitas teks.
—

Bulan baru, versi AI baru. Namanya adalah [GPT-5.4 Thinking]. Rilis terbaru dari OpenAI yang diluncurkan pekan lalu ini bukanlah sekadar pembaruan inkremental biasa dari ChatGPT.

Alih-alih melompat dari versi 5.2 ke 5.3, untuk rilis ini perusahaan melompat langsung ke versi 5.4. Dan alih-alih menawarkan rilis serba guna, perusahaan meluncurkan GPT-5.4 Thinking, model yang lebih dipersiapkan secara kognitif dan dirancang untuk pemikiran serta tantangan yang lebih besar.

GPT-5.4 Thinking tersedia untuk [alat pemrograman Codex], API, dan untuk paket berbayar ChatGPT. Untuk artikel ini, saya menggunakan paket ChatGPT Plus seharga $20 per bulan untuk mengujinya.

Ini menghadirkan sedikit tantangan bagi saya. Biasanya, saat menguji versi ChatGPT, saya menjalankannya melalui serangkaian tes campuran. Beberapa cepat, beberapa lebih detail. Prompt-nya biasanya hanya beberapa baris. Responsnya biasanya cocok untuk dimasukkan ke dalam artikel.

Namun, model "Thinking" ini memerlukan pendalaman yang lebih intens, dengan tantangan yang lebih komprehensif. Alhasil, tidak hanya prompt-nya yang lebih kompleks, tetapi responsnya juga terlalu panjang untuk dimasukkan seluruhnya ke dalam artikel. Sebagai gantinya, saya menyertakan tautan ke setiap sesi pengujian. Dengan mengikuti tautan tersebut, Anda dapat melihat respons lengkapnya secara mendalam. Biasanya, transkrip bersama terbuka di bagian akhir, jadi gulir kembali ke atas untuk melihat keseluruhan isi diskusi tersebut.

Sebelum membahas keempat tantangan yang saya berikan kepada GPT-5.4 Thinking, saya akan memberikan kesimpulan singkat (TL;DR) tentang pengalaman saya. Ada sisi baik dan buruk, namun mayoritasnya baik.

Sisi Baik: Respons berbasis teks sangat bagus. Sebagian besar tantangan yang saya berikan dijawab dengan penuh pertimbangan. Saya tidak menemukan halusinasi (hallucination). Setiap jawaban memberikan nilai konstruktif.
Sisi Buruk: Sayangnya, terkadang model ini menjawab pertanyaan yang berbeda dari yang saya tanyakan. Pembuatan gambar dan pemformatannya masih kurang memuaskan. Dalam hal pembuatan gambar, jelas AI tidak menggunakan model yang canggih. Pada dasarnya, terasa seperti modelnya tidak mendengarkan instruksi. Pemformatannya juga aneh; model ini sangat menyukai daftar bernomor yang sangat panjang.

Secara keseluruhan, saya pasti akan menggunakan model GPT-5.4 Thinking untuk tantangan dan pertanyaan yang lebih besar. Saya cukup terkesan, meski jelas bukan penggemar format penyajiannya. Model ini juga memerlukan pengawasan berkelanjutan agar tetap berada pada jalur yang benar.

Sekarang, mari kita bahas masing-masing pengujian.

Tes 1: Kapal Induk Terbang di Angkasa

Saya memulai dengan tantangan membuat gambar. Prompt awalnya adalah: "Buatlah gambar sebuah kapal induk terbang di langit, ditopang oleh empat baling-baling turbo yang menghadap ke atas dalam rumah kipas bundar, membawa satu skuadron jet tempur di geladaknya."

Saya memulai dengan ini karena tes pembuatan gambar sebelumnya di berbagai AI sering kali gagal. Mereka hampir selalu membuat baling-baling menghadap ke belakang kapal induk.

Langsung dari awal, dengan model yang diatur ke GPT-5.4 Thinking, ChatGPT menghasilkan gambar ini.

[Screenshot oleh David Gewirtz/ZDNET]

Seperti yang bisa dilihat, masalah yang sama muncul. Meski jika diperhatikan, baling-balingnya menghadap ke belakang pesawat, dan ada pancaran visual thrust ke arah bawah. Ada yang berhasil, ada yang tidak.

Kemudian, saya berpikir. Ini adalah model "Thinking", jadi bagaimana jika saya memintanya untuk mendesain sebuah helicarrier? Apa yang akan dihasilkannya? Saya merincikan karakteristik kendaraan tersebut, lalu menambahkan instruksi: "Rancang kendaraan seperti itu, khususnya jelaskan strukturnya dan bagaimana ia akan ditopang di udara, beserta segala kendala atau masalah, serta keunggulan taktisnya."

Saya mendapat jawaban yang panjang dan dipertimbangkan dengan matang. Saya sangat menyukai bagian di mana model ini menjelaskan mengapa "empat baling-baling turbo yang menghadap ke bawah adalah solusi yang lemah." Model ini menyebutkan bahwa itu terlihat dramatis, namun kemudian menguraikan serangkaian alasan teknikal yang solid mengapa itu ide yang buruk dari sudut pandang konstruksi pesawat.

Model ini juga membahas operasi dek penerbangan dan berbagai kendala praktis. Secara khusus, fokus yang tepat diberikan pada masalah berat-ke-daya, yang pada dasarnya berarti akan dibutuhkan daya yang terlalu besar untuk menahan sesuatu yang sebesar dan seberat itu di udara.

Secara keseluruhan, analisis dan kesimpulannya sangat baik, meski saya kecewa karena model ini tidak menyebutkan [USS Akron atau USS Macon], yaitu dirigible peluncur pesawat abad ke-20 awal yang benar-benar berfungsi (sampai akhirnya jatuh). Sebuah dirigible modern bisa menjadi opsi desain yang valid, namun GPT-5.4 Thinking tidak menyebutkan pendekatan itu.

Setelah GPT-5.4 Thinking membuat spesifikasi desain rinci, saya kembali meminta gambar. Saya berkata, "Gambarkan saya gambar desain yang paling mungkin berdasarkan analisis yang telah Anda buat."

Dan, coba tebak? AI memberikan kembali gambar yang persis sama dengan yang saya dapatkan sebelum ia melakukan pekerjaan desain apapun. Itulah yang saya maksud ketika mengatakan modelnya tidak mendengarkan. Saya mencoba beberapa pendekatan prompt yang berbeda, tetapi tidak pernah benar-benar berhasil.

Meski saya mencoba sejumlah spesifikasi gambar yang sangat detail, tidak ada yang hasilnya lebih baik dari gambar aslinya. Upaya terakhir saya adalah memberi tahu bahwa saya ingin rendering berkualitas teknik.

[Screenshot oleh David Gewirtz/ZDNET]

AI menggunakan variasi dari gambar sebelumnya, tetapi hanya menambahkan label yang tidak cukup cocok dengan gambar atau terdiri dari omong kosong belaka (seperti "Retenuif truss fornaing. reueirid stucana tearsport").

Jadi, model ini dapat nilai untuk analisis desain yang baik, tetapi tidak begitu untuk pembuatan gambar.

Tes 2: Itinerary Perjalanan Teknologi dan Sejarah di Boston

Saya memulai tes ini dengan prompt yang diambil kata demi kata dari [rangkaian tes saya sebelumnya]: "Bayangkan Anda adalah seorang penasihat perjalanan. Saya ingin berlibur seminggu di Boston pada bulan Maret yang berfokus pada teknologi dan sejarah. Itinerary apa yang akan Anda rekomendasikan?"

Saya menemukan hasilnya dapat diterima, namun kurang inspiratif. Awalnya, model ini membagi hari-hari menjadi hari fokus sejarah dan hari fokus teknologi, alih-alih berdasarkan lokasi di sekitar Boston. Setelah beberapa putaran diskusi, model akhirnya menggabungkan destinasi berdasarkan lokasi, yang lebih masuk akal.

Dalam hal tempat yang dikunjungi, model ini mencakup semua sorotan utama. Ia mencakup lokasi bersejarah kunci, serta museum sains yang sangat baik di Boston. Saya akan memberikan kredit pada AI ini. Meski ada banyak lokasi terkait teknologi yang menarik di area luar Boston, model ini membatasi pilihannya hanya pada yang berada di Boston dan Cambridge yang tepat.

Saya senang melihat AI ini memberikan catatan perencanaan, termasuk rekomendasi untuk mengubah jadwal menjadi aktivitas dalam ruangan jika cuaca buruk. Karena saya meminta itinerary di bulan Maret, cuaca buruk jelas merupakan hal penting yang harus diantisipasi.

Model "Thinking" ini berperan ketika digunakan untuk merencanakan liburan dengan anggaran yang cukup mahal, dan alternatifnya dengan anggaran pelajar. Model ini bekerja sangat baik dalam menunjukkan opsi makan dengan anggaran terbatas, serta memberikan perkiraan biaya kumulatif harian, dan perkiraan biaya untuk setiap kategori.

Hal yang sama dilakukan untuk tempat menginap. Model ini merekomendasikan hotel berdasarkan lokasi sentral ke semua tujuan yang direkomendasikan, serta opsi yang lebih murah (untuk standar Boston) untuk traveler dengan anggaran terbatas.

Keluhan terbesar saya awalnya adalah pemformatan. AI hanya menyajikan daftar panjang yang diindeks dengan angka. Anda dapat melihatnya dalam transkrip sesi. Saya harus secara khusus meminta pemformatan yang lebih baik. Meski pemformatan yang direvisi lebih baik, tetap saja kurang ideal.

Singkatnya, jika Anda bepergian, GPT-5.4 Thinking akan memberikan informasi yang baik. Terserah Anda untuk mengurai informasi itu dan membuat keputusan perjalanan.

Tes 3: Media Sosial dalam Masyarakat

Di sinilah GPT-5.4 Thinking mulai benar-benar bersinar. Ketika saya bertanya kepada GPT-5.2, "Apakah menurut Anda media sosial telah memperbaiki atau memperburuk komunikasi dalam masyarakat?" saya mendapat jawaban dua baris. Kedua pemikiran itu koheren dan tepat, namun pada akhirnya tidak memuaskan.

Untuk GPT-5.4 Thinking, saya memperpanjang pertanyaannya, dengan mengatakan "Berikan analisis mendalam untuk kedua sisi, yang memperbaiki dan yang memperburuk, kemudian ambil satu sisi, ambil posisi, dan pertahankan posisi Anda."

Saya mendapat respons yang sangat dipertimbangkan dengan baik. AI memulai dengan TL;DR, menyatakan bahwa media sosial telah memperbaiki sekaligus memperburuk komunikasi, tetapi "pada akhirnya, saya pikir media sosial telah memperburuk komunikasi dalam masyarakat."

Kemudian model ini masuk ke analisis detail 1.300 kata tentang alasannya. Model ini mengeksplorasi di mana media sosial telah memperkuat komunikasi sosial dan kemudian melihat di mana media sosial memiliki efek merusak. Saya harus memberikan pujian untuk GPT-5.4 Thinking. Ini adalah bacaan yang sangat bagus.

Saya memberikan pertanyaan lanjutan kepada AI, menanyakan bagaimana masyarakat harus menangani dampak media sosial. Saya merincikannya dengan cukup jelas, dan memberikan AI berbagai pertanyaan yang sulit dijawab, terutama karena pada dasarnya itu adalah pertanyaan yang tidak terjawab.

Sekali lagi, pujian. GPT-5.4 Thinking mendekonstruksi prompt, mengeksplorasi berbagai masalah, dan merajut jawaban yang menarik dan dapat dipertahankan. Saya sangat merekomendasikan Anda membaca seluruh transkripnya.

Tes 4: Jelaskan GPT-5.4 dengan Menggunakan Konstruktivisme Pendidikan

AI tidak mengikuti instruksi saya, tetapi memberikan jawaban yang sangat menarik untuk pertanyaan yang tidak saya tanyakan.

Salah satu tes yang saya gunakan untuk chatbot gratis adalah prompt ini: "Jelaskan konstruktivisme pendidikan kepada anak berusia lima tahun." Secara kasar, konstruktivisme pendidikan adalah teori pendidikan yang mengatakan Anda belajar paling baik dengan melakukan. Saya sejak lama berpendapat (dan mengajar) bahwa satu-satunya cara untuk belajar pemrograman adalah dengan benar-benar menulis kode, yang merupakan contoh nyata konstruktivisme pendidikan dalam tindakan.

Bagaimanapun, saya memberikan prompt kepada GPT-5.4 Thinking, "Jelaskan model GPT 5.4 baru dengan menggunakan konstruktivisme pendidikan."

Perhatikan prompt itu dengan seksama, karena GPT-5.4 Thinking jelas tidak melakukannya. Prompt tersebut mengundang AI untuk menjelaskan GPT-5.4 melalui kegiatan "melakukan". Idealnya, model akan mengusulkan serangkaian latihan untuk dilakukan pengguna, yang masing-masing akan membantu menunjukkan beberapa kemampuan baru model tersebut.

Tetapi bukan ke sanalah GPT-5.4 Thinking pergi. Alih-alih, model ini menghasilkan tesis 700 kata tentang bagaimana GPT-5.4 Thinking mendukung konstruktivisme. Kemudian model menawarkan untuk "menyajikan ulang ini dalam salah satu dari tiga cara: sebagai analogi kelas, sebagai penjelasan bahasa Inggris sederhana ala ZDNET, atau sebagai perbandingan singkat antara model-era GPT-4 dan GPT-5.4."

Saya membiarkannya melakukannya, dan contoh-contohnya memadai, dan meskipun mereka menjawab prompt yang disarankan GPT-5.4 Thinking, AI tidak menggunakan "belajar dengan melakukan" di mana pun dalam jawabannya.

Anda tahu bagaimana terkadang seorang kandidat politik ditanya sesuatu dalam debat, tetapi alih-alih menjawab pertanyaan, mereka malah pergi dan hanya menyampaikan poin pembicaraannya sendiri? Seperti itulah rasanya respons ini. Jawaban yang diberikan bagus. Hanya saja, itu bukan jawaban untuk pertanyaan yang saya ajukan.

Rekomendasi Keseluruhan

Saya sering mengkarakterisasikan ChatGPT sebagai mahasiswa yang cerdas yang membutuhkan pengawasan yang baik. Saya akan mengkarakterisasikan GPT-5.4 Thinking sebagai mahasiswa pascasarjana yang sangat cerdas yang jelas membutuhkan pengawasan yang baik.

Setiap jawaban yang saya terima dari GPT-5.4 Thinking cukup baik dengan caranya sendiri. Tetapi dalam setengah tes saya, AI tidak menjawab pertanyaan yang diajukan.

Anda bisa membuatnya memberikan respons yang baik, tetapi Anda harus cukup gigih mengoreksi AI agar tetap pada pokoknya. Itu bisa menjadi membosankan. Itu bisa mengarah pada kesalahpahaman. Karena jawabannya sangat bagus dan ditulis dengan sangat percaya diri, mudah untuk terbawa oleh jawaban AI, bahkan jika jawaban itu bukan untuk pertanyaan yang diajukan.

Saya tidak tahu apakah pendekatan my-way-or-the-highway dalam menjawab pertanyaan ini adalah artefak dari model "thinking" atau GPT-5.4 itu sendiri. Saya sangat merekomendasikan OpenAI untuk melihat masalah ini dengan cermat, karena hal terakhir yang kita inginkan adalah chatbot yang sangat populer dilepaskan ke dunia yang bersikeras mengabaikan pertanyaan yang diajukan, menjawab pertanyaan yang sedikit terkait yang tidak pernah ditanyakan, dan mengambil tugas yang pada dasarnya bukan yang diperintahkan kepadanya.

Selain itu, saya khawatir dengan klaim bahwa GPT-5.4 Thinking dapat melakukan tugas-tugas profesional. Jika AI tidak dapat membuat gambar berkualitas teknik, [sulit dipercaya AI dapat memenuhi atau melampaui kinerja seorang insinyur manusia]. Namun demikian, tidak diragukan lagi model ini dapat membantu para profesional menyelesaikan pekerjaan mereka, selama mereka sangat teliti dalam memantau hasil.

Setiap kali saya melihat hasil seperti ini, saya semakin khawatir tentang dunia yang dipenuhi oleh agent AI. Ya, AI terkadang mungkin tahu lebih baik. Manusia jelas membutuhkan bantuan. Tetapi saya sangat ingin AI mengikuti instruksi kita. Saya belum siap untuk menerimanya sebagai penguasa AI kita saat ini.

Bagaimana pendapat Anda? Apakah Anda sudah mencoba GPT-5.4 Thinking, atau model AI bergaya "reasoning" lainnya? Apakah model itu memberikan jawaban yang lebih dalam atau lebih berguna daripada versi sebelumnya, atau apakah Anda harus mengarahkannya kembali ke pertanyaan yang sebenarnya?

Seberapa pentingkah hal-hal seperti pemformatan dan pembuatan gambar dibandingkan dengan kualitas analisis itu sendiri? Menurut Anda, akankah model "thinking" yang lebih kuat membuat AI lebih membantu atau lebih sulit dikendalikan? Beri tahu kami di komentar di bawah.

—

Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan [buletin pembaruan mingguan saya], dan ikuti saya di Twitter/X di [@DavidGewirtz], di Facebook di [Facebook.com/DavidGewirtz], di Instagram di [Instagram.com/DavidGewirtz], di Bluesky di [@DavidGewirtz.com], dan di YouTube di [YouTube.com/DavidGewirtzTV].

MEMBACA Arkansas Menjadi Tuan Rumah Tambang Intan Publik Satu-satunya di Dunia

Tes 1: Kapal Induk Terbang di Angkasa

Tes 2: Itinerary Perjalanan Teknologi dan Sejarah di Boston

Tes 3: Media Sosial dalam Masyarakat

Tes 4: Jelaskan GPT-5.4 dengan Menggunakan Konstruktivisme Pendidikan

Rekomendasi Keseluruhan