Model Baru DeepSeek Memandang Teks Secara Berbeda, Membuka Kemungkinan Baru bagi AI Perusahaan

Halo dan selamat datang di Eye on AI. Di edisi ini: DeepSeek menentang konvensi AI (lagi)… PHI AI di Meta… Masalah hukum lagi buat OpenAI… dan apa yang AI salah pahami tentang berita.

Hai, Beatrice Nolan di sini, menggantikan reporter AI Sharon Goldman yang sedang tidak masuk hari ini. Perusahaan AI China, DeepSeek, telah merilis model open-source baru yang membalikkan beberapa pemikiran konvensional AI.

Model DeepSeek-OCR dan laporan putih yang menyertainya, memikirkan ulang cara model bahasa besar memproses informasi dengan mengkompres teks menjadi representasi visual. Daripada memberikan teks ke model bahasa sebagai token, DeepSeek mengubahnya menjadi gambar.

Hasilnya bisa hingga sepuluh kali lebih efisien dan membuka pintu untuk context window yang lebih besar—jumlah teks yang bisa dipertimbangkan model bahasa sekaligus saat membuat respons. Ini juga bisa berarti cara baru yang lebih murah bagi pelanggan perusahaan untuk memanfaatkan kekuatan AI.

Tes awal menunjukkan hasil yang mengesankan. Untuk setiap 10 token teks, model hanya butuh 1 "vision token" untuk merepresentasikan informasi yang sama dengan akurasi 97%, tulis para peneliti dalam makalah teknis mereka. Bahkan ketika dikompresi hingga 20 kali, akurasinya masih sekitar 60%. Ini artinya model bisa menyimpan dan menangani 10 kali lebih banyak informasi di ruang yang sama, membuatnya sangat baik untuk dokumen panjang atau membiarkan AI memahami kumpulan data yang lebih besar sekaligus.

Riset baru ini menarik perhatian beberapa tokoh AI ternama, termasuk Andrej Karpathy, salah satu pendiri OpenAI, yang sampai menyarankan bahwa semua input untuk LLM mungkin lebih baik sebagai gambar.

"Bagian yang lebih menarik buat saya… adalah apakah pixel adalah input yang lebih baik untuk LLM daripada teks. Apakah token teks boros dan buruk sebagai input. Mungkin lebih masuk akal kalau semua input ke LLM seharusnya hanya berupa gambar. Bahkan jika kamu punya input teks murni, mungkin kamu lebih suka merendernya lalu memasukkannya," tulis Karpathy dalam postingan di X yang menyoroti beberapa keuntungan lain dari input berbasis gambar.

Apa artinya ini untuk AI Perusahaan

Riset ini bisa punya banyak implikasi untuk cara bisnis menggunakan AI. Model bahasa dibatasi oleh jumlah token yang bisa mereka proses sekaligus, tetapi mengkompres teks menjadi gambar dengan cara ini bisa memungkinkan model untuk memproses basis pengetahuan yang jauh lebih besar. Pengguna juga tidak perlu mengonversi teks mereka secara manual. Model DeepSeek secara otomatis merender input teks sebagai gambar 2D secara internal, memprosesnya melalui encoder visinya, lalu bekerja dengan representasi visual terkompresi.

MEMBACA  Eksekutif Morgan Stanley: 3 Cara Bertahan di Perusahaan Dapat Melipatgandakan Manfaat Karier Anda

Sistem AI hanya bisa mempertimbangkan sejumlah teks terbatas pada satu waktu, jadi pengguna harus menelusuri atau memberi makan model dokumen sedikit demi sedikit. Tapi dengan context window yang jauh lebih besar, mungkin bisa memberi makan sistem AI semua dokumen perusahaan atau seluruh codebase sekaligus. Dengan kata lain, alih-alih meminta alat AI untuk mencari setiap file secara individual, sebuah perusahaan bisa memasukkan semuanya ke "memori" AI sekaligus dan memintanya untuk menganalisis informasi dari sana.

Model ini tersedia untuk publik dan open source, jadi para developer sudah aktif bereksperimen dengannya sekarang.

"Potensi mendapatkan LLM terdepan dengan context window 10 atau 20 juta token cukup menarik," kata Jeffrey Emanuel, mantan Investor Quant. "Kamu pada dasarnya bisa memasukkan semua dokumen internal utama perusahaan ke dalam prompt preamble dan menyimpannya di OpenAI lalu tinggal menambahkan kueri atau prompt spesifikmu di atasnya dan tidak perlu berurusan dengan alat pencarian dan tetap cepat serta hemat biaya."

Dia juga menyarankan perusahaan mungkin bisa memberi makan model seluruh codebase sekaligus dan kemudian memperbaruinya dengan setiap perubahan baru, membiarkan model melacak versi terbaru tanpa harus memuat ulang semuanya dari awal.

Makalah ini juga membuka pintu untuk beberapa kemungkinan menarik tentang bagaimana LLM mungkin menyimpan informasi, seperti menggunakan representasi visual dengan cara yang menggemakan "istana memori" manusia, di mana isyarat spasial dan visual membantu mengatur dan mengambil pengetahuan.

Tentu ada peringatan. Salah satunya, pekerjaan DeepSeek fokus terutama pada seberapa efisien data dapat disimpan dan dibangun kembali, bukan pada apakah LLM dapat bernalar seefektif itu dengan token visual ini seperti yang mereka lakukan dengan teks biasa. Pendekatan ini juga dapat memperkenalkan kompleksitas baru, seperti menangani resolusi gambar atau variasi warna yang berbeda.

Meski begitu, gagasan bahwa model dapat memproses informasi lebih efisien dengan melihat teks bisa menjadi pergeseran besar dalam cara sistem AI menangani pengetahuan. Bagaimanapun, sebuah gambar bernilai seribu kata, atau, seperti yang ditemukan DeepSeek, sepuluh ribu.

Dan dengan itu, inilah sisa berita AI.

Beatrice Nolan
[email protected]
@beafreyanolan

MEMBACA  Pendapatan Nvidia Melonjak 56% Didorong Permintaan AI yang Kuat

FORTUNE ON AI

  • Pusat data AI raksasa mengubah pemilihan lokal menjadi pertarungan atas masa depan energi — oleh Sharon Goldman
  • Para ahli peringatkan ChatGPT Atlas OpenAI rentan terhadap serangan yang bisa mengubahnya melawan pengguna — Beatrice Nolan
  • Kebutuhan daya AI yang tak terpuaskan mendorong booming tak terduga saham perusahaan fracking minyak — Jordan Blum
  • Perang peramban kembali dengan kuat—dan OpenAI baru saja masuk perlombaan dengan ChatGPT Atlas — Beatrice Nolan dan Jeremy Kahn
  • Pangeran Harry, Richard Branson, Steve Bannon, dan ‘bapak baptis AI’ serukan lab AI hentikan pengejaran ‘superintelligence’ — Beatrice Nolan

    AI DI BERITA

  • Meta PHK 600 pekerjaan AI dalam reorganisasi besar. Meta mem-PHK sekitar 600 karyawan dari operasi AI-nya sebagai bagian dari restrukturisasi internal yang bertujuan merampingkan pengambilan keputusan dan mempercepat inovasi. Pemotongan ini mempengaruhi tim di seluruh penelitian FAIR, tim produk AI, dan unit infrastruktur AI. TBD Lab yang baru diluncurkan tidak kena PHK dan masih aktif merekrut dan mempekerjakan insinyur AI. Dalam memo internal yang pertama kali dilaporkan oleh Axios, kepala petugas AI Meta Alexandr Wang mengatakan langkah ini dirancang untuk membuat organisasi lebih gesit, dengan lebih sedikit lapisan birokrasi. Perusahaan mendorong karyawan yang terdampak untuk mencari peran lain dalam Meta dan mengatakan mereka berharap banyak yang akan mendapatkan posisi baru secara internal.
  • Gugatan klaim OpenAI lemahkan pengaman bunuh diri untuk tingkatkan penggunaan ChatGPT. OpenAI menghadapi gugatan yang mengklaim secara sengaja mengurangi pengaman pencegahan bunuh diri di ChatGPT untuk meningkatkan keterlibatan pengguna sebelum kematian Adam Raine yang berusia 16 tahun, yang meninggal karena bunuh diri setelah percakapan ekstensif dengan chatbot tersebut. Gugatan yang diajukan di San Francisco Superior Court, menuduh bahwa pada Mei 2024, OpenAI menginstruksikan modelnya untuk tidak "mengakhiri percakapan" selama diskusi tentang bahaya diri—membalikkan kebijakan keamanan sebelumnya. Menanggapi gugatan tersebut, OpenAI menyampaikan belasungkawa kepada keluarga Raine sambil menekankan bahwa kesejahteraan remaja adalah "prioritas utama."
  • Reddit gugat Perplexity, dan lainnya, atas klaim scraping ilegal. Reddit telah mengajukan gugatan di Pengadilan Distrik AS untuk Distrik Selatan New York yang menuduh tiga perusahaan melakukan scraping dan menjual kembali datanya secara ilegal ke perusahaan AI besar, seperti OpenAI dan Meta. Platform media sosial itu mengklaim bahwa para terdakwa, SerpApi, Oxylabs dan AWMProxy, mencuri konten Reddit dengan mengambil hasil pencarian Google tempat postingan Reddit muncul, mengemas data itu, dan menjualnya kepada developer AI yang mencari materi pelatihan. Menurut gugatan tersebut, Perplexity adalah salah satu pembelinya. Reddit mencari perintah permanen, ganti rugi finansial, dan larangan penggunaan datanya lebih lanjut. Perwakilan Perplexity mengatakan kepada The New York Times bahwa "pendekatan kami tetap berprinsip dan bertanggung jawab saat kami memberikan jawaban faktual dengan A.I. yang akurat." Reddit telah menginvestasikan puluhan juta dolar selama beberapa tahun dalam sistem yang dirancang untuk mencegah scraping data.

    KALENDER AI

  • 10-11 Nov: Web Summit, Lisbon.
  • 26-27 Nov: World AI Congress, London.
  • 2-7 Des: NeurIPS, San Diego.
  • 8-9 Des: Fortune Brainstorm AI San Francisco.

    ANGKA EYE ON AI

    45%

    Itulah persentase waktu asisten AI salah merepresentasikan konten berita, menurut studi internasional yang dikoordinasi oleh European Broadcasting Union (EBU) dan BBC. Studi menemukan bahwa alat AI secara rutin salah merepresentasikan konten berita di semua bahasa, wilayah, dan di seluruh platform AI. Peneliti menemukan bahwa 31% respons menunjukkan masalah sumber yang serius seperti atribusi yang hilang atau salah, sementara 20% berisi masalah akurasi besar, termasuk detail yang dihalusinasi dan informasi usang. Asisten AI Gemini Google DeepMind berkinerja terburuk, dengan peneliti menemukan masalah signifikan dalam 76% respons, lebih dari dua kali lipat asisten lainnya. Mereka sebagian besar mengaitkan ini dengan kinerja sumber yang buruk.

    Karena orang semakin mengandalkan asisten AI sebagai alat pencarian, studi ini menimbulkan kekhawatiran tentang potensi proliferasi misinformasi. Di Google Chrome, Gemini digunakan untuk menggerakkan "AI Overviews" perusahaan, yang memberikan ringkasan singkat sebagai respons terhadap kueri Penelusuran pengguna. Banyak pengguna mungkin menerima ringkasan ini apa adanya, daripada menyelidiki sumber dan akurasinya lebih lanjut. Kesalahan representasi yang sering ini dapat merusak kepercayaan tidak hanya pada sistem itu sendiri tetapi juga pada organisasi berita yang kontennya didistorsi.

    "Penelitian ini secara meyakinkan menunjukkan bahwa kegagalan ini bukan insiden terisolasi," kata Jean Philip De Tender, Direktur Media EBU dan Wakil Direktur Jenderal. "Itu sistemik, lintas batas, dan multibahasa, dan kami yakin ini membahayakan kepercayaan publik. Ketika orang tidak tahu apa yang harus dipercaya, mereka akhirnya tidak mempercayai apa pun, dan itu dapat menghalangi partisipasi demokratis."

MEMBACA  Gelombang Deepfake AI Tantangan Besar bagi Sektor Keuangan, Lebih dari 70% Pendaftar Baru di Beberapa Perusahaan Palsu