Mengapa Biaya AI Akan Lebih Mahal di 2026, dan 3 Tips Menghemat Uang untuk Dicoba

Andriy Onufriyenko/Moment via Getty Images

Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.


**Intisari ZDNET**
Biaya DRAM yang meningkat dan chatbot yang lebih banyak bicara akan mendorong kenaikan harga.
Industri berupaya menekan biaya dengan model yang lebih efisien.
Pengguna perlu memprioritaskan proyek dan mempertimbangkan *prompt* yang sopan.


Baik Anda pengguna chatbot AI biasa maupun pengembang yang memanfaatkan *large language model* (LLM) untuk membangun aplikasi, kemungkinan besar Anda akan membayar lebih mahal untuk teknologi ini tahun ini. Syukurlah, ada langkah-langkah yang dapat diambil untuk meredam dampak biaya tersebut.

Kita hidup dalam ekonomi *token*. Setiap potong konten—kata, gambar, suara, dll.—diperlakukan oleh model AI sebagai unit kerja terkecil yang disebut *token*. Ketika Anda mengetik *prompt* di ChatGPT dan menerima paragraf sebagai balasan, atau memanggil API untuk melakukan hal serupa dalam aplikasi buatan Anda, baik data masukan maupun keluaran dihitung sebagai *token*.

Akibatnya, “meteran” selalu berjalan saat Anda menggunakan AI, menumpuk biaya per token, dan total tagihan secara agregat dipastikan akan lebih tinggi.

Biaya Chip yang Meningkat

Alasan paling langsung untuk kenaikan harga adalah meningkatnya biaya infrastruktur dasar AI yang harus ditanggung oleh OpenAI, Google, Anthropic, dan penyedia layanan AI lainnya. Saat biaya mereka naik, harga AI pun harus mengikuti.

Biaya tertinggi berasal dari chip memori DRAM yang digunakan untuk mencerna *token* masukan. Untuk menahan *token* dalam memori dan menyimpannya guna penggunaan nanti, diperlukan jumlah DRAM yang semakin besar.

Kelangkaan pasokan chip DRAM, didorong oleh pembangunan infrastruktur AI yang tak terpuaskan, mendongkrak harga chip tersebut sebesar 20% tahun-ke-tahun, tanpa tanda-tanda akan berakhir. Biaya bahkan naik lebih tinggi untuk memori paling mutakhir untuk AI, yang dikenal sebagai HBM (*high-bandwidth memory*).

“Kesenjangan antara permintaan dan pasokan untuk seluruh DRAM, termasuk HBM, benar-benar yang tertinggi yang pernah kami saksikan,” ujar Sanjay Mehrotra, CEO Micron Technology, salah satu produsen DRAM terbesar, kepada analis Wall Street bulan lalu.

Inflasi chip ini terutama akan dirasakan oleh raksasa seperti Google yang membangun layanan AI seperti Gemini, tetapi mereka pasti akan membebankan kenaikan biaya tersebut kepada pengguna.

Bukan cuma DRAM. Banyak pusat data kini semakin banyak dibangun dengan chip *flash* NAND, jenis yang sama yang digunakan di ponsel pintar Anda untuk menyimpan data jangka panjang. Harganya juga sedang melonjak, kata CEO Micron.

Kebutuhan untuk Memonetisasi

Faktor kedua yang mendorong harga adalah bahwa penyedia AI tidak hanya perlu membebankan biaya operasional layanan saat ini yang lebih tinggi akibat DRAM dan NAND; mereka juga perlu membenarkan investasi masa depan bertahun-tahun yang telah mereka rencanakan.” Hal ini telah menyebabkan kenaikan harga. Dengan model andalannya GPT-5.2, misalnya, OpenAI menaikkan harga yang dibebankan kepada pengembang dari $1,25 per *token* masukan untuk model GPT-5.1 sebelumnya menjadi $1,75, kenaikan harga 40% per token.

MEMBACA  Para Pemenang Emmy Awards 2025

OpenAI berada di bawah tekanan terbesar untuk membuktikan bahwa mereka dapat memonetisasi AI, mengingat mereka saat ini merugi dan telah berkomitmen untuk belanja AI lebih dari satu triliun dolar. Namun tekanan yang sama juga ada bagi Google dan lainnya.

Lisensi Konten Berhak Cipta

Faktor ketiga adalah kemunculan bertahap kesepakatan konten untuk mengamankan hak atas materi berhak cipta. Model AI selama ini didasarkan pada konten yang di-*scrape* dari internet. Menyusul berbagai gugatan hukum terhadap pembuat model AI, model kemitraan mulai muncul di mana pembuat model akan melisensikan konten mereka.

Contoh paling menonjol adalah kesepakatan OpenAI, diumumkan bulan lalu, dengan Disney untuk melisensikan lebih dari 200 karakter dari Disney, Marvel, Pixar, dan Star Wars untuk digunakan dalam video pendek yang dibuat oleh model AI pembuat video Sora milik OpenAI. Kesepakatan ini termasuk Disney mengambil saham senilai miliaran dolar di OpenAI dan menjadi pelanggan AI OpenAI, tetapi hanya itu saja mungkin tidak cukup untuk membayar royalti apa pun yang diatur untuk Disney dalam perjanjian sebenarnya, yang tidak diungkapkan oleh kedua pihak.

Lebih banyak kesepakatan semacam ini mungkin terjadi seiring Disney dan lainnya mengejar apa yang mereka anggap sebagai pelanggaran hak mereka. Misalnya, Disney memerintahkan Google bulan lalu untuk menghentikan dan menahan diri, dengan klaim pelanggaran hak cipta “dalam skala masif” yang melibatkan penggunaan AI untuk “mengeksploitasi dan mendistribusikan” konten Disney, menurut majalah Variety.

(Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, yang menuduhnya melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)

Akses yang Semakin Mahal

Faktor keempat yang mendorong kenaikan biaya adalah jumlah *token* yang terus meningkat akibat kombinasi desain model AI yang lebih kompleks, pengguna individu yang memberikan tugas lebih rumit kepada chatbot, dan perusahaan yang memasukkan model AI ke dalam produksi.

Model AI itu sendiri menjadi lebih banyak bicara (*verbose*), artinya mereka menghasilkan lebih banyak keluaran rata-rata untuk setiap *prompt*, terutama untuk model penalaran (*reasoning*), yang akan menghasilkan penjelasan luas sebagai bagian dari keluaran *prompt*. Meski keluaran yang verbose tidak mengubah harga per token, hal itu berarti meteran berjalan lebih cepat bagi pengembang yang menggunakan API yang diberi harga per token.

Kebiasaan pengguna juga dapat mendorong biaya naik. Seiring lebih banyak orang menggunakan chatbot setiap hari, mereka kemungkinan akan semakin terbiasa menginput dokumen panjang untuk meminta analisis.

MEMBACA  Cara mengatur dan menggunakan fitur darurat penyelamatan hidup di ponsel Anda

Sekali lagi, untuk pengguna chat individu rata-rata dengan langganan, hal ini tidak mengubah harga langganan bulanan. Namun, ini dapat mendorong pengguna untuk meningkatkan ke paket yang lebih mahal.

Versi Pro ChatGPT, misalnya, seharga $200 per bulan, dibandingkan dengan $20 untuk langganan Plus dasar. Gemini Ultra Google dihargai $250 per bulan—sekali lagi, beberapa kali lipat dari versi Gemini Pro seharga $20.

Pergeseran ke Inferensi

Perubahan lebih luas yang siap mendorong biaya secara keseluruhan adalah penerapan *inferensi*—generasi prediksi aktual—ke dalam produksi. Melatih model AI memiliki anggaran yang relatif dapat diprediksi karena itu adalah eksperimen yang terkandung. Semuanya berubah ketika sebuah perusahaan benar-benar ingin menggunakan AI secara berkelanjutan.

Seperti konsumen, pengguna korporat dari model AI akan mengikuti tren melakukan lebih banyak dan meminta lebih banyak, dan dengan demikian, membayar lebih banyak token masukan dan keluaran.

Penggunaan *agent* AI, yang secara otomatis menghasilkan lebih banyak masukan dan keluaran saat beroperasi, akan menciptakan tingkat generasi token yang belum sepenuhnya dieksplorasi. Ingat, meteran sedang berjalan, dan biaya hanya akan naik secara agregat seiring meteran terus berjalan.

Sebuah laporan yang dirilis November lalu oleh raksasa AI China ByteDance menggambarkan bagaimana *agent* dapat meningkatkan secara signifikan jumlah token yang dikonsumsi.

“Biaya token dari interaksi agensi dapat tumbuh lebih cepat daripada linear dengan jumlah putaran (*turns*),” tulis para penulis. “Dalam setiap putaran loop agensi yang khas, seluruh riwayat percakapan, termasuk semua *prompt* sebelumnya, panggilan alat (*tool calls*), dan keluarannya, dimasukkan kembali ke LLM sebagai konteks untuk putaran berikutnya.”

Makalah ByteDance menyimpulkan bahwa jumlah token meningkat sebanding dengan kuadrat jumlah putaran akses API oleh sebuah *agent*, “menyebabkan biaya komputasi dan keuangan meningkat dengan cepat.”

Apa yang Dilakukan untuk Meredam Biaya

Dunia chip, dunia yang sama yang sedang menikmati melonjaknya harga DRAM dan NAND, berusaha menghindari “membunuh angsa yang bertelur emas” dengan membuat harga terlalu tinggi bagi siapa pun.

Untuk itu, sebagian besar vendor chip, seperti Nvidia, akan mengiklankan *throughput* token yang lebih besar, jumlah yang dapat ditransmisikan dalam, misalnya, satu detik penggunaan rata-rata.

Misalnya, CEO Nvidia Jensen Huang—yang berbicara pekan ini di CES 2026 di Las Vegas—membahas chip GPU Rubin dan chip CPU Vera perusahaan yang akan datang, yang rencananya akan dijual tahun ini. Huang menjanjikan bahwa Rubin “dapat memberikan pengurangan biaya token inferensi hingga 10 kali lipat” dengan memproses semuanya lebih cepat, seperti yang dituliskan Cesar Cadenas dari ZDNET.

MEMBACA  Prologis tetap mempertahankan pandangan tahun 2025, tetapi pelanggan menjadi lebih berhati-hati

Bagi penyedia cloud seperti Google, hal itu mungkin berarti penggunaan infrastruktur yang lebih efisien. Namun, bagi pengguna akhir AI, meningkatkan jumlah token yang diproses per detik tidak serta merta berarti menggunakan lebih sedikit token; itu hanya berarti meteran berjalan lebih cepat.

Rubin mungkin membantu, tetapi isu biaya nyata saat ini bukanlah memproses token (matematika yang dilakukan Rubin); melainkan meningkatnya biaya DRAM dan NAND untuk menyimpan semua token itu.

Langkah-langkah juga diambil oleh pengembang model untuk membuat cara kerja internal model AI lebih efisien. DeepSeek AI mengejutkan semua orang tahun lalu dengan versi teknologinya yang lebih efisien, mengurangi biaya menjalankannya.

Perlu dicatat, pembaruan model mendatang DeepSeek AI diperkirakan akan fokus pada penghematan memori DRAM, sebuah cerminan dari menonjolnya isu memori dan penyimpanan.

Dalam hal biaya inferensi dan alur kerja agensi yang melambung, vendor perangkat lunak besar mungkin mengembangkan cara untuk membantu pelanggan mereka.

Kita telah melihat di masa lalu di mana harga perangkat lunak SaaS berbasis konsumsi menyebabkan lonjakan pengeluaran perusahaan secara dramatis. Vendor seperti Snowflake harus membantu pengguna korporat mereka yang mengalami *sticker shock*.

Pendekatan Snowflake adalah mengidentifikasi cara untuk membantu pelanggan mengurangi biaya variabel, seperti yang terkait dengan persiapan dan penyimpanan data. Anda dapat mengharapkan tahun 2026 akan melihat insiden serupa di mana vendor mencoba membatasi kerugian bagi pelanggan AI mereka dengan membantu mereka merencanakan penggunaan dan memantau biaya.

3 Cara untuk Menghemat Uang

Tidak ada yang dapat Anda lakukan secara pribadi tentang kenaikan harga semikonduktor. Namun, ada langkah-langkah yang dapat diambil untuk meningkatkan penggunaan teknologi Anda.

**1. Bandingkan Penawaran**

Anda dapat menemukan perbandingan yang sangat umum dengan mengetik sesuatu seperti “Apa yang bisa saya dapatkan sebagai paket berbayar dasar di antara penyedia layanan model AI teratas?” ke dalam salah satu chatbot.

Saya mencobanya dengan Gemini, ChatGPT, dan Claude milik Anthropic, dan semuanya memberikan hasil yang cukup baik dengan memberikan kutipan untuk penawaran langganan mereka sendiri dan lainnya. Perplexity juga muncul sebagai salah satu paket berbayar yang umum. Saya menemukan cara Anthropic dalam mendaftarkan perbandingan adalah yang paling terorganisir, tetapi, seperti semua hal AI, hasil Anda mungkin berbeda.

Kebanyakan vendor telah menyembunyikan rencana harga terbaru untuk pengembang dalam dokumentasi mereka. Misalnya, ini adalah halaman harga API untuk Gemini dari Google. OpenAI memiliki halaman serupa untuk akses API-nya. Secara keseluruhan, penetapan harga untuk layanan ini tidak transparan, mendorong para peneliti menyarankan bahwa pemerintah perlu turun tangan untuk menetapkan kebijakan yang setidaknya mengharuskan transparansi

Tinggalkan komentar