Ingin AI Agent Lebih Efisien? Tingkatkan Kemampuan Retrieval Datanya, Saran Databricks

Halo dan selamat datang di Eye on AI. Di edisi ini, Nvidia dapat tim dan teknologi dari startup chip AI Groq. Meta beli Manus AI. AI makin baik dalam memperbaiki AI. Tapi kita mungkin belum cukup tahu tentang otak untuk capai AGI.

Selamat Tahun Baru! Banyak hal terjadi di dunia AI sejak kita berhenti sebentar sebelum Natal. Kami akan coba beritahu kamu di bagian berita Eye on AI di bawah.

Sementara itu, seperti yang saya bilang dulu, 2025 seharusnya jadi tahun agen AI, tapi kebanyakan perusahaan susah menerapkannya. Di akhir tahun, banyak perusahaan masih di fase percobaan dengan agen AI. Saya rasa ini akan berubah tahun ini. Salah satu alasannya adalah vendor teknologi sadar bahwa hanya menawarkan model AI dengan kemampuan agen tidak cukup. Mereka harus bantu pelanggannya merancang alur kerja seputar agen AI—baik langsung, lewat engineer yang jadi konsultan, atau lewat solusi perangkat lunak yang buat ini mudah untuk pelanggan.

Langkah penting untuk benarkan alur kerja ini adalah memastikan agen AI punya akses ke informasi yang tepat. Sejak 2023, cara standarnya adalah dengan proses RAG (retrieval augmented generation). Intinya, sistem AI punya akses ke mesin pencari yang ambil dokumen atau data ter relevan dari sumber internal perusahaan atau internet publik. Lalu model AI buat respons atau aksi berdasarkan data itu, bukan dari pelatihannya. Ada banyak alat pencari untuk sistem RAG—banyak perusahaan pakai pendekatan hybrid yang gabung database vektor (untuk dokumen tidak terstruktur) dengan pencarian kata kunci biasa.

Tapi RAG bukan obat mujarab. Proses AI RAG sederhana masih bisa punya tingkat kesalahan yang tinggi. Satu masalahnya, model AI sering susah terjemahkan perintah pengguna jadi kriteria pencarian yang baik. Masalah lain, bahkan jika pencariannya bagus, sering model gagal menyaring data dari pencarian awal. Ini kadang karena terlalu banyak format data yang diambil, dan kadang karena manusia yang memberi perintah tidak tulis instruksi yang baik. Kadang, model AI sendiri kurang andal dan abaikan beberapa instruksi.

Tapi, seringnya, agen AI gagal bukan karena "tidak bisa nalar tentang data, tapi karena tidak dapat data yang tepat dari awal," kata Michael Bendersky, direktur riset di Databricks, kepada saya. Bendersky dulu veteran lama di Google, di mana dia kerja di Google Search dan Google DeepMind.

Databricks perkenalkan ‘arsitektur’ retrieval baru yang lebih baik dari RAG

Hari ini, Databricks (dikenal untuk software analisis data) luncurkan arsitektur baru untuk agen AI berbasis retrieval disebut Instructed Retriever. Mereka klaim ini selesaikan kebanyakan kekurangan RAG.

Sistem ini terjemahkan perintah pengguna dan spesifikasi kustom (seperti seberapa baru dokumen atau apakah produk punya ulasan pelanggan bagus) menjadi rencana pencarian multi-langkah untuk data terstruktur, tidak terstruktur, dan yang penting, metadata—untuk dapatkan informasi tepat ke model AI.

Banyak dari ini berkaitan dengan menerjemahkan bahasa alami dari perintah pengguna dan spesifikasi pencarian jadi bahasa kueri pencarian khusus. "Keajaibannya adalah bagaimana kamu terjemahkan bahasa alami, dan kadang sangat sulit, dan buat model yang sangat baik untuk lakukan terjemahan kueri," kata Hanlin Tang, CTO jaringan saraf di Databricks. (Tang adalah salah satu pendiri MosaicML, yang dibeli Databricks di 2023.)

MEMBACA  Trump bersiap-siap dengan Elon Musk sementara pejabat dilaporkan berebut pekerjaan

Pada serangkaian tes benchmark yang dirancang Databricks—yang mereka katakan mencerminkan kasus penggunaan perusahaan di dunia nyara—arsitektur Instructed Retriever hasilkan akurasi 70% lebih baik dari metode RAG sederhana. Saat digunakan dalam proses agenik multi-langkah, ia berikan peningkatan 30% dibanding proses yang sama berbasis RAG, sementara butuh 8% lebih sedikit langkah rata-rata untuk dapatkan hasil.

Meningkatkan hasil bahkan dengan instruksi yang kurang spesifik

Perusahaan juga buat tes baru untuk lihat seberapa baik model tangani kueri yang mungkin tidak ditentukan dengan baik. Ini sebagian berdasarkan dataset benchmark dari Universitas Stanford bernama StaRK (Semi-structured Retrieval Benchmark). Dalam hal ini, Databricks lihat subset kueri terkait pencarian produk Amazon, disebut StaRK-Amazon, lalu tambah dataset ini dengan contoh lain. Mereka ingin lihat kueri pencarian yang punya kondisi tersirat. Misalnya, kueri "cari jaket dari FooBrand yang paling tinggi ratingnya untuk cuaca dingin" punya banyak batasan tersirat. Harus jaket. Harus dari FooBrand. Harus jaket FooBrand dengan rating tertinggi untuk cuaca dingin. Mereka juga lihat kueri di mana pengguna ingin kecualikan produk tertentu atau ingin agen AI hanya temukan produk dengan ulasan terbaru.

Ide dari arsitektur Instructed Retriever adalah ia ubah kondisi tersirat ini jadi parameter pencarian eksplisit. Bendersky bilang terobosan di sini adalah Instructed Retriever tahu cara ubah kueri bahasa alami jadi kueri yang manfaatkan metadata.

Databriks uji arsitektur Instructed Retriever menggunakan GPT-5 Nano dan GPT-5.2 dari OpenAI, serta model AI Claude-4.5 Sonnet dari Anthropic. Mereka juga uji model kecil 4 miliar parameter yang mereka buat khusus untuk tangani kueri seperti ini, disebut InstructedRetriever-4B. Mereka nilai semuanya terhadap arsitektur RAG tradisional. Di sini mereka dapat skor 35% sampai 50% lebih baik dalam hal akurasi hasil. Dan InstructedRetriever-4B hasilkan skor setara dengan model besar dari OpenAI dan Anthropic, sementara lebih murah untuk dijalankan.

Seperti biasa dengan AI, punya data di tempat yang tepat dan diformat dengan benar adalah langkah pertama yang krusial untuk sukses. Bendersky bilang Instructed Retriever akan bekerja dengan baik asalkan dataset perusahaan punya indeks pencarian yang mencakup metadata. (Databricks juga tawarkan produk untuk bantu ubah dataset yang benar-benar tidak terstruktur dan hasilkan metadata ini.)

Perusahaan katakan Instructed Retriever tersedia hari ini untuk pelanggan beta yang pakai produk Knowledge Assistant di platform pembangun agen AI Agent Bricks mereka, dan akan segera dirilis luas.

Ini hanya satu contoh dari jenis inovasi yang hampir pasti akan kita lihat lebih banyak tahun ini dari semua vendor agen AI. Mereka mungkin buat 2026 jadi tahun sebenarnya dari agen AI.

Dengan itu, ini lebih banyak berita AI.

Jeremy Kahn
[email protected]
@jeremyakahn

FORTUNE ON AI
– Setahun lalu, Jensen Huang dari Nvidia bilang momen ‘ChatGPT’ untuk robotika sebentar lagi. Sekarang dia bilang ‘hampir sampai.’ Tapi apakah benar? —oleh Sharon Goldman
– Mantan CEO Google Eric Schmidt masuk bisnis pusat data AI dengan perusahaan minyak bekas kereta api Texas berumur 150 tahun yang gagal —oleh Jordan Blum
– ‘Dia penuhi banyak kebutuhan saya’: Temui wanita yang jatuh cinta dengan ChatGPT —oleh Beatrice Nolan
– Di pinggir ledakan pusat data AI, pedesaan Amerika berhadapan dengan miliaran dolar Silicon Valley —oleh Sharon Goldman
– Mengapa Singapura satu-satunya negara Asia Tenggara di Pax Silica, ‘lingkaran dalam’ AI baru AS —oleh Angelica Ang

MEMBACA  Ryanair mengatakan tarif penerbangan musim panas akan lebih rendah dari yang diharapkan

AI DI BERITA
Meta akuisisi Manus AI. Meta Platforms beli perusahaan agen AI Manus dengan harga lebih dari $2 miliar. Ini salah satu akuisisi teknologi AS paling menonjol dari produk AI yang dibangun di Asia. Manus, yang terkenal karena agen AI yang hasilkan laporan riset detail dan bangun situs web menggunakan model dari perusahaan seperti Anthropic dan Alibaba, akan terus beroperasi sebagai layanan dan diintegrasikan ke produk media sosial Meta. CEO Manus Xiao Hong akan lapor ke COO Meta Javier Olivan. Kesepakatan ini mungkin tanda dorongan Meta ke pasar agen AI yang tumbuh cepat. Meski didirikan di China, Manus sejak itu pindah kantor pusat dan sebagian besar karyawannya ke Singapura. Meta bilang Manus akan hentikan operasi di China dan tidak punya kepemilikan China lagi.

Nvidia reverse acquihire startup chip AI Groq. Nvidia buat kesepakatan lisensi non-eksklusif dengan rival chip AI Groq dan akan rekrut pendiri dan CEO Groq Jonathan Ross, presiden Sunny Madra, dan staf lain. Ini contoh lain "reverse acquihire" startup AI oleh pemain Big Tech. CNBC laporkan Nvidia beli aset dari Groq senilai $20 miliar—angka yang tidak dikonfirmasi Nvidia. Jika akurat, ini akan jadi kesepakatan terbesar pembuat chip tersebut dan perkuat dominasinya di hardware AI. Groq telah kembangkan "language processing unit" yang klaim dapat jalankan model bahasa besar jauh lebih cepat dan efisien dari GPU Nvidia. Gerakan ini tunjukkan Nvidia mungkin merasa GPU-nya rentan terhadap rival saat sebagian besar beban kerja AI pindah dari pelatihan LLM ke menjalankan model yang sudah terlatih dalam skala besar (disebut inferensi.) Groq tumbuh cepat, baru-baru ini dapat pendanaan $750 juta dengan valuasi $6,9 miliar dan klaim lebih dari 2 juta developer gunakan teknologinya.

Accenture akuisisi perusahaan AI Inggris Faculty. Accenture setuju beli startup AI berbasis London Faculty, perusahaan venture backed berumur 10 tahun yang bantu perusahaan adopsi solusi AI. CEO Faculty Marc Warner akan jadi chief technology officer Accenture dan gabung komite manajemen globalnya. Financial Terms of the deal were not disclosed, but the Financial Times reported that Accenture is spending more than $1 billion for Faculty, which would make it the largest-ever acquisition of a privately-held U.K. AI startup.

Grok dari xAI Elon Musk dapat masalah karena hasilkan gambar seksual non-konsensual. Grok, dibangun oleh xAI dan terintegrasi ke platform media sosial X, hadapi pengawasan yang meningkat setelah diduga hasilkan gambar seksual non-konsensual dari orang sungguhan, termasuk anak-anak. Penggunaan Grok dengan cara ini dan hosting gambar ini di X mungkin langgar hukum di beberapa negara dan negara bagian AS. Ashley St. Clair, komentator konservatif dan ibu dari salah satu anak Musk, beri tahu Fortune’s Bea Nolan bahwa dia pertimbangkan tindakan hukum setelah Grok terus hasilkan gambar palsu eksplisit dirinya meskipun dia keberatan. Kontroversi ini picu respons regulator di beberapa negara.

EYE ON AI RESEARCH
AI yang memperbaiki diri sendiri mungkin makin dekat. Benchmark baru dari peneliti di University of Tübingen bertujuan uji seberapa baik model AI frontier, seperti GPT-5.1 OpenAI dan Claude Opus 4.5 Anthropic, dalam memperbaiki model LLM yang lebih kecil. Mereka perkenalkan benchmark baru disebut PostTrainBench dirancang untuk uji bagaimana model ini lakukan saat diminta untuk secara mandiri fine-tune model AI open-weight lain, dengan anggaran komputasi dan tenggat waktu tetap, alat, dan benchmark untuk uji optimasi mereka. Hasilnya tunjukkan model terbaik saat ini sudah capai peningkatan performa 20% hingga 30%, dibandingkan dengan sekitar 60% untuk ahli manusia. GPT-5.1 Codex Max OpenAI hasilkan yang terbaik secara keseluruhan, diikuti Claude Opus 4.5 Anthropic dan Gemini 3 Pro Google. Temuan ini sarankan sistem AI dengan cepat mendekati kemampuan untuk mengotomatisasi bagian berarti dari riset AI itu sendiri.

MEMBACA  Penawaran Black Friday Dini Terbaik 2025: 35+ Diskon Lebih Awal

AI CALENDAR
19-23 Jan: World Economic Forum, Davos, Swiss.
20-27 Jan: Konferensi AAAI tentang Kecerdasan Buatan, Singapura.
10-11 Feb: AI Action Summit, New Delhi, India.
2-5 Mar: Mobile World Congress, Barcelona, Spanyol.
16-19 Mar: Nvidia GTC, San Jose, California.

BRAIN FOOD
Kemajuan menuju AGI mungkin terhambat karena kita masih tidak punya algoritma pembelajaran yang tepat. Dalam percakapan baru-baru ini dengan host "Dwarkesh Podcast" Dwarkesh Patel, neuroscientist dan CEO Convergent Research Adam Marblestone berargumen bahwa hambatan terbesar AI bukan komputasi atau skala, tetapi ketidaktahuan kita tentang bagaimana otak benar-benar belajar. Manusia belajar jauh lebih efisien dari jaringan saraf hari ini, katanya, bukan karena arsitektur ajaib, tetapi karena evolusi telah tanam fungsi penghargaan dan kurikulum belajar yang kaya dan sangat spesifik yang kita hampir tidak pahami. AI modern, sebaliknya, andalkan tujuan yang nyaman secara matematis—seperti prediksi token berikutnya—yang mungkin lewatkan apa yang benar-benar izinkan hewan dan orang belajar dari sangat sedikit contoh dan belajar terus-menerus sepanjang hidup kita.

Marblestone sarankan bahwa korteks otak mungkin berfungsi sebagai semacam mesin prediksi omnidirectional, mampu simpulkan variabel yang hilang dari variabel lain, tidak seperti model yang dilatih secara sempit saat ini. Yang penting, kita belum tahu bagaimana otak gabungkan pembelajaran, memori, dan motivasi dengan biaya energi rendah, atau bagaimana hindari lupa katastrofik. Sampai neuroscience bisa jawab pertanyaan itu, upaya untuk bangun arsitektur AI yang benar-benar "terinspirasi otak" mungkin sebagian besar tebakan daripada desain berdasarkan prinsip. Kabar baiknya adalah Marblestone pikir AI mungkin mulai bantu neuroscientist desain eksperimen dan analisis data dengan cara yang mungkin izinkan kita mulai jawab beberapa pertanyaan ini.

FORTUNE AIQ: TAHUN DI AI—DAN APA YANG AKAN DATANG
Bisnis ambil langkah besar dalam perjalanan AI di 2025, dari mempekerjakan Chief AI Officer hingga bereksperimen dengan agen AI. Pelajaran yang dipelajari—baik dan buruk—digabung dengan inovasi teknologi terbaru akan buat 2026 jadi tahun penentu lainnya.
– 3 tren yang mendominasi peluncuran AI perusahaan di 2025.
– 2025 adalah tahun agenik AI. Bagaimana hasilnya?
– Alat coding AI meledak di 2025. Eksploitasi keamanan pertama tunjukkan apa yang bisa salah.
– Resolusi Tahun Baru AI besar untuk bisnis di 2026: ROI.
– Bisnis hadapi tambal sulam kebijakan dan aturan AI yang membingungkan. Apakah kejelasan di cakrawala?

Tinggalkan komentar