M1 MacBook Pro merupakan perangkat yang sudah lama namun masih mumpuni di tahun 2026.
Kyle Kucharski/ZDNET
Ikuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google.
**Intisari ZDNET**
– Ollama memudahkan proses unduh model LLM open-source.
– Bahkan model kecil pun dapat berjalan sangat lambat.
– Jangan coba-coba tanpa mesin baru ber-RAM 32GB.
Sebagai reporter yang meliput kecerdasan buatan selama lebih dari satu dekade, saya selalu paham bahwa menjalankan AI menghadirkan beragam tantangan teknis. Salah satunya, model bahasa besar terus bertambah ukurannya dan semakin membutuhkan memori DRAM untuk menjalankan “parameter” atau “bobot neural” mereka.
**Juga:** Cara instal LLM di MacOS (dan alasan Anda perlu melakukannya)
Saya telah mengetahui semua itu, tapi saya ingin merasakannya secara langsung. Saya ingin menjalankan model bahasa besar di komputer pribadi saya.
Mengunduh dan menjalankan model AI bisa melibatkan banyak pekerjaan untuk menyiapkan “lingkungan”-nya. Jadi, terinspirasi oleh liputan kolega saya Jack Wallen tentang alat open-source Ollama, saya mengunduh biner MacOS Ollama sebagai pintu masuk ke AI lokal.
Ollama relatif mudah digunakan, dan telah melakukan integrasi yang baik dengan LangChain, Codex, dan lainnya. Ini berarti Ollama menjadi alat untuk menyatukan berbagai aspek AI, yang cukup menarik.
Alasan untuk Menjalankannya Secara Lokal
Menjalankan LLM secara lokal, alih-alih hanya mengetik di ChatGPT atau Perplexity daring, punya daya tarik bukan hanya bagi pemrogram, tetapi bagi pekerja informasi mana pun.
Pertama, sebagai pekerja informasi, Anda akan lebih diinginkan di pasar kerja jika mampu melakukan hal seperti mengunduh model dan menjalankannya, dibandingkan hanya mengetik di prompt daring seperti pengguna gratis ChatGPT. Ini adalah pengembangan profesional dasar.
Kedua, dengan instance LLM lokal, data sensitif Anda tidak perlu meninggalkan mesin. Ini jelas penting bagi semua pekerja informasi, bukan hanya *coder*. Dalam kasus saya, tujuan proyek adalah menggunakan model lokal untuk menambang arsip artikel saya selama bertahun-tahun, sebagai laporan atas apa yang telah saya tulis, termasuk hal-hal yang mungkin terlupakan. Saya suka ide untuk menyimpan semua file secara lokal ketimbang mengunggahnya ke layanan *cloud*.
**Juga:** Saya mencoba *vibe coding* sebagai pemula – inilah yang diajarkan Cursor dan Replit
Ketiga, Anda dapat menghindari biaya yang dikenakan oleh OpenAI, Google, Anthropic, dan lainnya. Seperti saya tulis baru-baru ini, harga penggunaan LLM daring diproyeksikan naik, jadi sekarang saat yang tepat untuk memikirkan cara melakukan sebagian besar pekerjaan secara *offline*, di mesin sendiri, di mana “meteran” tidak terus berjalan.
(Keterangan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, mengklaim mereka melanggar hak cipta Ziff Davis dalam melatih dan mengoperasikan sistem AI-nya.)
Keempat, Anda punya kendali lebih besar. Misalnya, jika ingin melakukan pemrograman, Anda dapat menyetel LLM (disebut *fine-tuning*) untuk hasil yang lebih fokus. Anda juga dapat menggunakan berbagai alat terinstal lokal seperti LangChain, alat kode Claude dari Anthropic, alat coding Codex dari OpenAI, dan lainnya.
**Juga:** Alasan Anda akan bayar lebih untuk AI di 2026, dan 3 tips hemat uang untuk dicoba
Bahkan jika hanya ingin melakukan tugas pekerja informasi seperti membuat laporan, melakukannya dengan *cache* dokumen lokal atau basis data lokal memberi kontrol lebih besar dibanding mengunggahnya ke bot.
Spesifikasi Minimum yang Pas-pasan
Saya memulai eksperimen ini dengan mesin ber-spesifikasi minimum untuk menjalankan LLM. Saya ingin tahu apa yang terjadi jika seseorang yang tidak selalu beli mesin baru mencoba ini di rumah dengan komputer yang sama untuk tugas sehari-hari.
MacBook Pro saya sudah berusia tiga tahun, memiliki RAM 16 gigabyte dan hard drive 1 terabyte yang tiga perempatnya penuh, menjalankan MacOS Sonoma (bukan yang terbaru). Ini model 2021, nomor model MK193LL/A. Jadi, meski dulu paling top saat saya beli di Best Buy Januari 2023 dalam obral, saat itu pun sudah mulai menjadi model terbaik ‘kemarin’.
**Juga:** 5 alasan saya pakai AI lokal di desktop – ketimbang ChatGPT, Gemini, atau Claude
Saya tahu: ini sudah melewati masa pakai tipikal mesin dan jadwal depresiasi siapa pun. Namun, MacBook itu adalah peningkatan yang bagus saat itu, dan terus berkinerja sangat baik untuk tugas pekerja informasi sehari-hari: kalender, banyak email, banyak situs web, pascaproduksi video, rekaman audio podcast, dan lainnya. Saya tidak pernah punya keluhan. Kalau belum rusak, ya dipakai saja, bukan?
Jadi pertanyaannya, bagaimana mesin yang terhormat namun masih perkasa ini menangani jenis beban kerja baru yang sangat berbeda?
Memulai Ollama
Tampilan awal Ollama mirip ChatGPT, dengan prompt ramah untuk diketik, tanda “plus” untuk mengunggah dokumen, dan menu tarik-turun berisi model yang bisa diinstal lokal, termasuk yang populer seperti Qwen.
Jika Anda langsung mengetik di prompt, Ollama akan otomatis mencoba mengunduh model mana pun yang muncul di menu tarik-turun. Jadi, jangan mengetik apa pun kecuali Anda ingin bermain *roulette* model.
Screenshot oleh Tiernan Ray untuk ZDNET
Sebagai gantinya, saya melihat daftar model di menu, dan saya sadar beberapa di antaranya bukan lokal — mereka ada di *cloud*. Ollama menjalankan layanan *cloud* jika Anda ingin menggunakan infrastrukturnya alih-alih milik sendiri.
Fitur ini dapat berguna jika Anda ingin menggunakan model yang jauh lebih besar yang akan terlalu membebani infrastruktur sendiri.
Menurut [halaman tarif](https://ollama.com/pricing), Ollama menyediakan akses terbatas ke layanan cloud dalam akun gratis, dengan kemampuan menjalankan beberapa model cloud yang dicakup oleh paket “Pro” seharga $20 per bulan, serta penggunaan lebih luas dalam paket “Max” seharga $100 per bulan.
Selain itu: [Aplikasi ini membuat penggunaan Ollama AI lokal di perangkat MacOS menjadi sangat mudah](https://www.zdnet.com/article/this-app-makes-using-ollama-local-ai-on-macos-devices-so-easy/)
Tetap berfokus pada opsi yang dijalankan secara lokal, saya memutuskan untuk melihat [daftar model yang lebih lengkap di direktori model](https://ollama.com/search) yang dikelola oleh Ollama.
Secara acak, saya memilih glm-4.7-flash dari startup AI asal Tiongkok, Z.ai. Dengan ukuran 30 miliar “parameter” atau bobot neural, GLM-4.7-flash akan tergolong sebagai model bahasa besar “kecil” menurut standar saat ini, tetapi tidak terlalu mini, mengingat ada model sumber terbuka dengan parameter kurang dari satu miliar. (Satu miliar parameter dulu dianggap besar, belum lama ini!)
Direktori tersebut memberikan perintah terminal untuk mengunduh model pilihan dari terminal Mac, cukup dengan menyalin dan menempelkannya di prompt, seperti:
ollama run glm-4.7-flash
Perhatikan ruang disk. Glm-4.7-flash memakan ruang disk sebesar 19 gigabita, dan ingat, itu ukuran kecil!
Dalam pengalaman saya, mengunduh model terasa cukup cepat, meski tidak sangat kilat. Dengan koneksi kabel modem gigabit ke kantor rumah saya dari Spectrum di New York City, model tersebut sempat mengunduh pada kecepatan 45 megabita per detik, meski kemudian turun ke kecepatan yang lebih lambat.
## Mengenal Model
Prompt pertama saya cukup sederhana: “Jenis model bahasa besar apa kamu?”
Saya duduk menunggu beberapa saat saat karakter-karakter awal muncul sebagai respons: “[Ikon bola lampu] Berpikir — Mari saya analisis apa yang membuat saya” dan itu saja.
Selain itu: [Alat LLM andalan saya baru saja merilis aplikasi Mac dan PC yang sangat sederhana untuk AI lokal – inilah alasan Anda harus mencobanya](https://www.zdnet.com/article/my-go-to-llm-tool-just-dropped-a-super-simple-mac-and-pc-app-for-local-ai-why-you-should-try-it/)
Sepuluh menit kemudian, tidak ada kemajuan yang signifikan.
Mari saya analisis apa yang membuat saya menjadi model bahasa besar dan bagaimana menjelaskannya kepada pengguna.
Pertama, saya perlu mempertimbangkan sifat dasar saya sebagai sistem AI. Saya harus menjelaskan bahwa saya dirancang untuk memahami dan menghasilkan bahasa manusia melalui pola dalam dataset besar. Kuncinya adalah menjadi jelas.
Dan segala sesuatu di Mac terasa jelas melambat.
Empat puluh lima menit kemudian, glm-4.7-flash masih menghasilkan pemikiran tentang berpikir: “Mari saya struktur penjelasan ini untuk pertama kali menyatakan dengan jelas…,” dan seterusnya.
## Terjebak dalam Prompt Creep
Satu jam 16 menit kemudian — model “berpikir” selama 5.197,3 detik — akhirnya saya mendapat jawaban atas pertanyaan saya tentang jenis model bahasa apa glm-4.7-flash itu. Jawabannya ternyata tidak terlalu menarik untuk waktu yang dihabiskan. Itu tidak memberi tahu saya banyak tentang glm yang tidak bisa saya tebak sendiri, atau hal signifikan tentang perbedaan antara glm dan model bahasa besar lainnya.
Saya kira saya sudah selesai dengan glm pada titik ini. Sayangnya, Ollama tidak memberikan instruksi untuk menghapus model setelah diinstal secara lokal. Model-model disimpan di folder tersembunyi “.ollama” di direktori pengguna saat ini di MacOS, di dalam folder lain bernama “models”. Di dalam folder models terdapat dua folder, “blobs” dan “manifests”. Sebagian besar model berada di folder blobs. Di dalam manifests ada folder “library” yang berisi folder dengan nama setiap model yang telah Anda unduh, dan di dalamnya, folder “latest”.
*Screenshot oleh Tiernan Ray untuk ZDNET*
Menggunakan terminal, saya menghapus isi folder blobs dan menghapus isi setiap folder model, dan itu menyelesaikan masalah. (Jack kemudian memberi tahu saya bahwa perintah terminal untuk menghapus model adalah “ollama rm “.)
Jack [juga merekomendasikan](https://www.zdnet.com/article/this-is-the-fastest-local-ai-ive-tried-and-its-not-even-close-how-to-get-it/) model sumber terbuka terbaru OpenAI, gpt-oss, dalam varian 20-miliar-parameter, “20b”, yang katanya jauh lebih cepat saat dijalankan secara lokal dibandingkan model lain yang pernah ia coba. Jadi, saya beralih ke [model tersebut di direktori](https://ollama.com/library/gpt-oss:20b?utm_source=chatgpt.com).
Kali ini, setelah sekitar enam menit, gpt-oss:20b menghasilkan — dengan kecepatan tidak seperti siput, tetapi juga tidak cepat — respons bahwa dia adalah “ChatGPT, didukung oleh keluarga GPT-4 OpenAI,” dan seterusnya.
Respons itu diikuti oleh tabel detail yang bagus. (Anehnya, gpt-oss:20b memberi tahu saya bahwa dia memiliki “sekitar 175 miliar parameter,” yang menunjukkan gpt-oss:20b tidak sepenuhnya memahami identitas 20b-nya sendiri.)
*Screenshot oleh Tiernan Ray untuk ZDNET*
Bagaimanapun, ini cukup untuk prompt sederhana. Namun sudah jelas bahwa saya akan mengalami masalah dengan hal lain yang lebih ambisius. Perasaan menunggu balasan cukup lambat — semacam ‘prompt creep’, bisa dibilang — sehingga saya tidak berani mencoba menambah kompleksitas, seperti mengunggah seluruh arsip tulisan.
## Kita Memerlukan Mesin yang Lebih Baru
Layanan online ChatGPT asli dari OpenAI ([berjalan di GPT5.2](https://www.zdnet.com/article/how-to-use-chatgpt-a-beginners-guide-to-the-most-popular-ai-chatbot/)) memberi tahu saya bahwa konfigurasi minimal untuk komputer yang menjalankan gpt-oss:20b adalah 32 gigabita DRAM. Chip M1 Pro di MacBook memiliki GPU terintegrasi, dan ChatGPT menyetujui bahwa Ollama telah menyediakan versi gpt-oss:20b dengan dukungan untuk GPU Mac, sebuah pustaka yang dikenal sebagai “llama.cpp backend”.
Jadi, semuanya seharusnya baik-baik saja, tetapi saya benar-benar membutuhkan DRAM lebih dari 16 gigabita. Dan saya perlu beralih dari M1 yang sudah berusia lima tahun ke M4 atau M5. Sangat menarik bagi saya, dengan tiga dekade menulis tentang komputer, bahwa untuk pekerja informasi, kita membicarakan 32 gigabita sebagai konfigurasi minimal yang wajar.
[Seperti yang saya sebutkan baru-baru ini](https://www.zdnet.com/article/why-ai-costs-increasing-2026-tokens-dram-licensing-how-to-budget/), harga DRAM melonjak karena semua pusat data cloud mengonsumsi semakin banyak DRAM untuk menjalankan model bahasa besar. Jadi, bisa dibilang ini saya melawan vendor-vendor cloud, dan kemungkinan saya akan mengandalkan kartu kredit untuk beralih ke komputer baru. (Apple akan memberi sekitar $599 untuk [M1 MacBook](https://www.zdnet.com/article/should-you-upgrade-to-m5-macbook-pro-from-an-m1-how-the-numbers-add-up/) saya sebagai tukar-tambah.)
Meskipun upaya lokal saya dengan Ollama yang masih terbilang baru belum berhasil, hal itu memberikan saya apresiasi baru betapa intensifnya memori untuk AI. Saya memang sudah tahu dari tahun-tahun meliput AI, namun kini saya merasakannya lebih dalam—sensasi ketika respons terhadap perintah terasa sangat lama menggulir di layar.