Saat ini, kecerdasan buatan bisa menghasilkan gambar fotorealistik, menulis novel, mengerjakan PR kamu, dan bahkan memprediksi struktur protein. Namun, penelitian baru mengungkap bahwa seringkali kecerdasan buatan gagal dalam tugas yang sangat dasar: memberitahu waktu.
Para peneliti di Universitas Edinburgh telah menguji kemampuan tujuh model bahasa multimal yang terkenal – jenis kecerdasan buatan yang bisa menginterpretasi dan menghasilkan berbagai jenis media – untuk menjawab pertanyaan terkait waktu berdasarkan gambar jam atau kalender yang berbeda. Studi mereka, yang akan datang pada bulan April dan saat ini di-host di server pra-cetak arXiv, menunjukkan bahwa LLMs kesulitan dengan tugas-tugas dasar ini.
“Kemampuan untuk menginterpretasi dan merasionalkan tentang waktu dari input visual sangat penting untuk banyak aplikasi dunia nyata – mulai dari penjadwalan acara hingga sistem otonom,” tulis para peneliti dalam studi tersebut. “Meskipun ada kemajuan dalam model bahasa multimal (MLLMs), sebagian besar karya telah difokuskan pada deteksi objek, caption gambar, atau pemahaman adegan, meninggalkan inferensi temporal yang kurang dieksplorasi.”
Tim menguji GPT-4o dan GPT-o1 dari OpenAI; Gemini 2.0 dari Google DeepMind; Claude 3.5 Sonnet dari Anthropic; Llama 3.2-11B-Vision-Instruct dari Meta; Qwen2-VL7B-Instruct dari Alibaba; dan MiniCPM-V-2.6 dari ModelBest. Mereka memberi model-model gambar jam analog yang berbeda – dengan angka Romawi, warna dial yang berbeda, dan bahkan beberapa yang tidak memiliki jarum detik – serta gambar kalender selama 10 tahun.
Untuk gambar jam, para peneliti mengajukan pertanyaan kepada LLMs, jam berapa yang ditunjukkan di jam pada gambar yang diberikan? Untuk gambar kalender, para peneliti bertanya pertanyaan sederhana seperti, hari apa New Year’s Day? dan pertanyaan yang lebih sulit termasuk apa itu hari ke-153 dalam setahun?
“Analisis membaca jam analog dan pemahaman kalender melibatkan langkah kognitif yang rumit: mereka membutuhkan pengenalan visual yang halus (misalnya, posisi jarum jam, tata letak sel hari) dan penalaran numerik yang tidak mudah (misalnya, menghitung offset hari),” jelaskan para peneliti.
Secara keseluruhan, sistem kecerdasan buatan tidak berperforma dengan baik. Mereka membaca waktu di jam analog dengan benar kurang dari 25% dari waktu. Mereka kesulitan dengan jam yang memiliki angka Romawi dan jarum bergaya sama banyak dengan jam yang tidak memiliki jarum detik sama sekali, menunjukkan bahwa masalah mungkin berasal dari mendeteksi jarum dan menginterpretasikan sudut di wajah jam, menurut para peneliti.
Google’s Gemini-2.0 mencetak skor tertinggi dalam tugas jam tim, sementara GPT-o1 akurat dalam tugas kalender 80% dari waktu – hasil yang jauh lebih baik dari pesaingnya. Namun bahkan kemudian, MLLM yang paling sukses dalam tugas kalender masih membuat kesalahan sekitar 20% dari waktu.
“Kebanyakan orang bisa membaca jam dan menggunakan kalender sejak usia dini. Temuan kami menyoroti kesenjangan yang signifikan dalam kemampuan AI untuk melakukan keterampilan yang cukup dasar bagi orang,” kata Rohit Saxena, salah satu penulis studi dan mahasiswa PhD di Sekolah Informatika Universitas Edinburgh, dalam pernyataan universitas. “Kekurangan ini harus diatasi jika sistem AI ingin berhasil diintegrasikan ke dalam aplikasi dunia nyata yang sensitif terhadap waktu, seperti penjadwalan, otomatisasi, dan teknologi asisten.”
Jadi meskipun AI mungkin bisa menyelesaikan PR kamu, jangan berharap dia mematuhi batas waktu.