MacBook Pro M1 merupakan perangkat yang sudah lawas, tetapi masih handal pada tahun 2026.
**Intisari ZDNET**
* Ollama memudahkan proses mengunduh LLM sumber terbuka.
* Bahkan model kecil pun bisa berjalan sangat lambat.
* Jangan coba-coba tanpa komputer baru dengan RAM 32GB.
Sebagai jurnalis yang meliput kecerdasan buatan selama lebih dari satu dekade, saya selalu tahu bahwa menjalankan AI menghadirkan beragam tantangan teknis. Salah satunya, model bahasa besar terus bertambah ukurannya dan terus membutuhkan memori DRAM yang semakin banyak untuk menjalankan “parameter” atau “bobot neural” model tersebut.
Saya telah mengetahui semua itu, tapi saya ingin merasakannya secara langsung. Saya ingin menjalankan model bahasa besar di komputer rumah saya.
Mengunduh dan menjalankan model AI bisa melibatkan banyak pekerjaan untuk menyiapkan “lingkungan”-nya. Jadi, terinspirasi oleh liputan kolega saya Jack Wallen tentang alat sumber terbuka Ollama, saya mengunduh binari Ollama untuk macOS sebagai gerbang menuju AI lokal.
Ollama relatif mudah digunakan, dan telah melakukan integrasi yang baik dengan LangChain, Codex, dan lainnya. Ini berarti Ollama sedang berkembang menjadi alat untuk menyatukan banyak aspek AI, yang sangat menarik.
Alasan untuk Menjalankannya Secara Lokal
Menjalankan LLM secara lokal, alih-alih hanya mengetik di ChatGPT atau Perplexity secara daring, memiliki daya tarik yang besar tidak hanya bagi pemrogram, tapi bagi setiap pekerja informasi.
Pertama, sebagai pekerja informasi, Anda akan lebih diinginkan di pasar kerja jika bisa melakukan hal seperti mengunduh model dan menjalankannya, dibandingkan hanya mengetik di prompt daring seperti pengguna gratis ChatGPT. Ini tentang pengembangan profesional dasar.
Kedua, dengan instance LLM lokal, Anda dapat mencegah data sensitif keluar dari perangkat Anda. Hal ini jelas penting bagi setiap pekerja informasi, bukan hanya pengkode. Dalam kasus saya, tujuan proyek adalah menggunakan model lokal untuk menambang arsip artikel saya selama bertahun-tahun, sebagai semacam laporan tentang apa yang telah saya tulis, termasuk hal-hal yang mungkin sudah saya lupakan. Saya menyukai gagasan untuk menyimpan semua file secara lokal daripada mengunggahnya ke layanan awan.
Ketiga, Anda bisa menghindari biaya yang dikenakan oleh OpenAI, Google, Anthropic, dan lainnya. Harga penggunaan LLM daring diproyeksikan akan naik, jadi sekarang adalah saat yang tepat untuk memikirkan cara melakukan sebagian besar pekerjaan Anda secara luring, di mesin Anda sendiri, di mana meteran tidak terus berjalan.
Keempat, Anda memiliki kendali yang jauh lebih besar. Misalnya, jika Anda ingin melakukan pemrograman, Anda bisa menyesuaikan LLM (dikenal sebagai fine-tuning) untuk mendapatkan hasil yang lebih fokus. Anda juga bisa menggunakan berbagai alat yang terpasang lokal seperti LangChain, alat kode Claude dari Anthropic, alat pemrograman Codex dari OpenAI, dan lain-lain.
Bahkan jika Anda hanya ingin melakukan tugas pekerja informasi seperti membuat laporan, melakukannya dengan cache dokumen lokal atau basis data lokal dapat memberikan kendali yang lebih besar dibandingkan mengunggahnya ke bot.
Spesifikasi Minimum yang Sangat Dasar
Saya memulai eksperimen ini dengan mesin yang sangat minimal, sebatas apa yang diperlukan untuk menjalankan LLM. Saya ingin mengetahui apa yang terjadi jika seseorang yang tidak terus-menerus membeli mesin baru mencoba melakukan ini di rumah di komputer yang sama yang mereka gunakan untuk tugas sehari-hari.
MacBook Pro saya berusia tiga tahun dengan RAM 16 gigabita dan cakram keras satu terabita yang tiga perempatnya terisi. Saya tidak menjalankan macOS terbaru, tapi macOS Sonoma. Ini model 2021, dan meskipun dulu papan atas ketika saya beli di Best Buy pada Januari 2023 dalam penjualan sisa stok, saat itu pun sudah mulai menjadi model terbaik ‘kemarin’.
Saya tahu: Ini sudah melampaui umur pakai tipikal perangkat. Namun, MacBook itu adalah peningkatan yang bagus pada masanya dan terus berkinerja sangat baik untuk tugas-tugas pekerja informasi tipikal: kalender, banyak email, banyak situs web, pascaproduksi video, perekaman audio podcast, dan lainnya. Tidak pernah ada keluhan. Kalau tidak rusak, ya tidak perlu diganti, bukan?
Jadi pertanyaannya adalah, bagaimana mesin yang terhormat namun masih perkasa ini menangani jenis beban kerja baru yang sangat berbeda?
Memulai Ollama
Layar awal Ollama terlihat seperti ChatGPT, dengan prompt ramah untuk diketik, tanda “plus” untuk mengunggah dokumen, dan menu tarik-turun model yang dapat Anda instal secara lokal, termasuk yang populer seperti Qwen.
Jika Anda langsung mulai mengetik di prompt, Ollama akan otomatis mencoba mengunduh model apa pun yang ditampilkan di menu tarik-turun. Jadi, jangan ketik apa pun kecuali Anda ingin bermain roulette model.
Sebagai gantinya, saya melihat model-model dalam daftar tarik-turun, dan saya sadar bahwa beberapa model ini tidak lokal — mereka berada di awan. Ollama menjalankan layanan awan jika Anda menginginkan infrastrukturnya alih-alih infrastruktur Anda sendiri.
Hal itu dapat berguna jika Anda ingin memakai model yang jauh lebih besar yang akan membebani infrastruktur Anda sendiri secara berlebihan.
Menurut laman harga, Ollama menyediakan akses terbatas ke layanan cloud pada akun gratis, dengan kemampuan menjalankan beberapa model cloud yang tercakup dalam paket “Pro” seharga $20 per bulan, serta penggunaan lebih luas pada paket “Max” seharga $100 per bulan.
Juga: Aplikasi ini mempermudah penggunaan Ollama AI lokal di perangkat MacOS
Berdasarkan pilihan yang dijalankan secara lokal, saya memutuskan untuk melihat daftar model lebih lengkap di direktori model yang dikelola oleh Ollama.
Secara acak, saya memilih glm-4.7-flash dari startup AI asal Cina, Z.ai. Dengan ukuran 30 miliar “parameter” atau bobot neural, GLM-4.7-flash termasuk model bahasa besar “kecil” menurut standar saat ini, meski tidak terlalu mini karena terdapat model sumber terbuka dengan parameter di bawah satu miliar. (Satu miliar parameter dulu dianggap besar, belum lama ini!)
Direktori ini menyediakan perintah terminal untuk mengunduh model pilihan dari terminal Mac, cukup dengan menyalin dan menempel di prompt, seperti:
ollama run glm-4.7-flash
Perhatikan ruang penyimpanan. Glm-4.7-flash memakan 19 gigabita ruang disk, dan ingat, itu masih tergolong kecil!
Berdasarkan pengalaman saya, mengunduh model terasa cukup cepat, meski tidak super kilat. Dengan koneksi kabel modem gigabit ke kantor rumah saya dari Spectrum di New York City, model sempat terunduh pada kecepatan 45 megabita per detik, meskipun kemudian melambat.
Mengenal Model Lebih Dekat
Prompt pertama saya cukup sederhana: “Jenis model bahasa besar apa kamu?”
Saya duduk menanti beberapa saat saat karakter-karakter awal muncul sebagai respons: “[Ikon bohlam] Berpikir — Mari saya analisis apa yang membuat saya sebuah” dan berhenti di situ.
Sepuluh menit kemudian, belum ada kemajuan berarti.
Mari saya analisis apa yang membuat saya sebuah model bahasa besar dan bagaimana menjelaskannya ke pengguna.
Pertama, saya perlu mempertimbangkan hakikat dasar saya sebagai sistem AI. Saya harus jelaskan bahwa saya dirancang untuk memahami dan menghasilkan bahasa manusia melalui pola dalam dataset besar. Kuncinya adalah bersikap jelas
Dan seluruh sistem di Mac terasa jelas melambat.
Empat puluh lima menit kemudian, glm-4.7-flash masih menghasilkan pemikiran tentang berpikir: “Mari saya susun penjelasan ini dengan pertama-tama menyatakan dengan jelas…,” dan seterusnya.
Terjebak dalam Prompt Creep
Satu jam 16 menit kemudian — model “berpikir” selama 5.197,3 detik — akhirnya saya mendapat jawaban atas pertanyaan tentang jenis model bahasa apa glm-4.7-flash itu. Jawabannya ternyata tidak terlalu menarik untuk waktu yang dihabiskan. Tidak banyak yang diungkapkan tentang glm yang tidak bisa saya simpulkan sendiri, juga tidak ada penjelasan signifikan tentang perbedaan glm dengan model bahasa besar lain:
Saya kira saya sudah selesai dengan glm saat ini. Sayangnya, Ollama tidak memberikan instruksi untuk menghapus model setelah terinstal secara lokal. Model disimpan di folder tersembunyi “.ollama” di direktori pengguna saat ini pada MacOS, di dalam folder lain bernama “models”. Di dalam folder models terdapat dua folder, “blobs” dan “manifests”. Sebagian besar model berada di folder blobs. Di dalam manifests ada folder “library” berisi folder dengan nama setiap model yang Anda unduh, dan di dalamnya, folder “latest”.
Screenshot oleh Tiernan Ray untuk ZDNET
Menggunakan terminal, saya menghapus isi blobs dan menghapus isi setiap folder model, dan itu menyelesaikan masalah. (Jack kemudian memberi tahu saya bahwa perintah terminal untuk menghapus model adalah “ollama rm
Jack juga merekomendasikan model sumber terbuka terbaru OpenAI, gpt-oss, dalam varian 20-miliar parameter, “20b”, yang menurutnya jauh lebih cepat saat dijalankan lokal dibanding yang lain. Jadi, saya lanjut ke model itu di direktori.
Juga: Ini AI lokal tercepat yang pernah saya coba, dan tidak ada tandingannya – cara mendapatkannya
Kali ini, setelah sekitar enam menit, gpt-oss:20b menghasilkan — dengan kecepatan tidak seperti siput, tapi juga tidak cepat — respons bahwa ia adalah “ChatGPT, didukung oleh keluarga GPT-4 OpenAI,” dan sebagainya.
Respons itu diikuti tabel detail yang cukup baik. (Anehnya, gpt-oss:20b memberi tahu saya bahwa ia memiliki “sekitar 175 miliar parameter”, yang menunjukkan gpt-oss:20b tidak sepenuhnya memahami identitas 20b-nya sendiri.)
Screenshot oleh Tiernan Ray untuk ZDNET
Bagaimanapun, ini cukup untuk prompt sederhana. Tapi sudah jelas saya akan menghadapi masalah dengan permintaan yang lebih ambisius. Perasaan menunggu balasan cukup lambat — semacam prompt creep, bisa dibilang — sehingga saya tidak berani menambah kompleksitas, seperti mengunggah seluruh arsip tulisan.
Kita Butuh Mesin yang Lebih Baru
Layanan online ChatGPT asli dari OpenAI (menjalankan GPT5.2) memberi tahu saya bahwa konfigurasi minimal komputer untuk menjalankan gpt-oss:20b adalah 32 gigabita DRAM. Silikon M1 Pro di MacBook memiliki GPU terintegrasi, dan ChatGPT dengan positif menunjuk bahwa Ollama telah menyediakan versi gpt-oss:20b dengan dukungan untuk GPU Mac, sebuah pustaka yang dikenal sebagai “llama.cpp backend”.
Juga: Saya mencoba satu-satunya peramban agen yang menjalankan AI lokal – dan hanya temukan satu kelemahan
Jadi, semestinya semua baik-baik saja, tapi saya memang membutuhkan DRAM lebih dari 16 gigabita saja. Dan saya perlu beralih dari M1 yang sudah berusia lima tahun ke M4 atau M5. Sangat menarik bagi saya, dengan tiga dekade menulis tentang komputer, bahwa bagi pekerja informasi, kita membicarakan 32 gigabita sebagai konfigurasi minimal yang wajar.
Seperti yang saya sebutkan baru-baru ini, harga DRAM melambung karena semua pusat data cloud mengonsumsi semakin banyak DRAM untuk menjalankan model bahasa besar. Jadi, bisa dibilang ini saya melawan vendor cloud, dan kemungkinan saya akan mengandalkan kartu kredit untuk beralih ke komputer baru. (Apple akan memberi saya sekitar $599 untuk MacBook M1 saya sebagai tukar tambah.)
Meskipun upaya lokal saya dengan Ollama yang masih baru itu belum membuahkan hasil, hal itu justru memberikam saya apresiasi baru betapa intensifnya memori untuk AI. Saya memang sudah lama mengetahuinya dari peliputan tentang AI selama bertahun-tahun, tetapi kini saya benar-benar merasakannya di tulang—rasa saat respons terhadap perintah itu tampak sangat lambat muncul di layar.