Ikon Tombol Panah Bawah

David Silver, seorang peneliti terkenal di Google DeepMind yang memainkan peran penting dalam banyak terobosan terkenal perusahaan, telah meninggalkan perusahaan itu untuk membentuk startup sendiri.

Silver meluncurkan startup baru bernama Ineffable Intelligence, yang berbasis di London, menurut seorang sumber yang tahu rencana Silver. Perusahaan itu sedang aktif merekrut peneliti AI dan mencari pendanaan modal ventura, kata sumber tersebut.

Google DeepMind memberi tahu staf tentang kepergian Silver awal bulan ini, kata sumber itu. Silver sedang mengambil cuti panjang di bulan-bulan sebelum kepergiannya dan tidak pernah kembali resmi ke perannya di DeepMind.

Juru bicara Google DeepMind mengonfirmasi kepergian Silver dalam pernyataan email ke Fortune. “Kontribusi Dave sangat berharga dan kami berterima kasih atas dampak yang dia berikan pada pekerjaan kami di Google DeepMind,” kata juru bicara itu.

Silver tidak dapat dihubungi untuk berkomentar.

Ineffable Intelligence dibentuk pada November 2025 dan Silver ditunjuk sebagai direktur perusahaan pada 16 Januari, menurut dokumen yang diajukan ke badan registrasi bisnis Inggris, Companies House.

Selain itu, halaman web pribadi Silver sekarang mencantumkan kontaknya sebagai Ineffable Intelligence dan menyediakan alamat email ineffable intelligence, meskipun masih menyatakan bahwa dia “memimpin tim pembelajaran penguatan” di Google DeepMind.

Di samping pekerjaannya di Google DeepMind, Silver adalah profesor di University College London. Dia masih mempertahankan afiliasi itu.

Figur kunci di balik banyak terobosan DeepMind

Silver adalah salah satu karyawan pertama DeepMind ketika perusahaan didirikan pada 2010. Dia mengenal pendiri bersama DeepMind, Demis Hassabis, dari universitas. Silver memainkan peran instrumental dalam banyak terobosan awal perusahaan, termasuk pencapaian pentingnya di tahun 2016 dengan AlphaGo, yang menunjukkan bahwa program AI bisa mengalahkan pemain manusia terbaik dunia dalam permainan strategi kuno Go.

MEMBACA  Tanya Jawab dengan Para Pensiunan: Penyesalan Terbesar di Usia 70-an, Berapa Banyak yang Anda Miliki?

Dia juga anggota kunci tim yang mengembangkan AlphaStar, program AI yang bisa mengalahkan pemain manusia terbaik dunia dalam game kompleks Starcraft 2, AlphaZero, yang bisa bermain catur dan shogi serta Go pada tingkat superhuman, dan MuZero, yang bisa menguasai banyak jenis game lebih baik dari manusia meski memulai tanpa pengetahuan apapun tentang permainan, termasuk tidak tahu aturan game.

Baru-baru ini, dia bekerja dengan tim DeepMind yang menciptakan AlphaProof, sistem AI yang bisa menjawab pertanyaan dari Olimpiade Matematika Internasional. Dia juga salah satu penulis makalah penelitian 2023 yang memperkenalkan keluarga model AI Gemini pertama Google. Gemini sekarang adalah produk dan merek AI komersial utama Google.

Mencari jalan menuju ‘kecerdasan super’ AI

Silver mengatakan kepada teman-temannya dia ingin kembali ke “kekaguman dan keajaiban memecahkan masalah terberat dalam AI” dan melihat superintelligence—atau AI yang lebih pintar dari manusia mana pun dan potensial lebih pintar dari seluruh umat manusia—sebagai tantangan terbesar yang belum terpecahkan di bidang ini, menurut sumber yang tahu pemikirannya.

Beberapa peneliti AI terkenal lainnya juga telah meninggalkan lab AI mapan dalam beberapa tahun terakhir untuk mendirikan startup yang didedikasikan untuk mengejar superintelligence. Ilya Sutskever, mantan kepala ilmuwan di OpenAI, mendirikan perusahaan bernama Safe Superintelligence (SSI) pada 2024. Perusahaan itu telah mengumpulkan $3 miliar dalam pendanaan modal ventura hingga saat ini dan dilaporkan bernilai hingga $30 miliar. Beberapa kolega Silver yang mengerjakan AlphaGo, AlphaZero, dan MuZero juga baru-baru ini pergi untuk mendirikan Reflection AI, startup AI yang juga menyatakan sedang mengejar superintelligence. Sementara itu, Meta tahun lalu mereorganisasi upaya AI-nya di sekitar “Superintelligence Labs” baru yang dipimpin oleh mantan CEO dan pendiri Scale AI, Alexandr Wang.

MEMBACA  Judul: Kevin O’Leary, Ikon ‘Shark Tank’, Ungkap 3 Hal yang Dicarinya Saat Berinvestasi Jutaan Dolar ke Seorang Pendiri (Desain visual: Gunakan font tebal atau ukuran lebih besar untuk nama "Kevin O’Leary" dan angka "3", serta tambahkan garis pembatas atau spasi ekstra untuk estetika.)

Melampaui model bahasa

Silver terkenal karena karyanya dalam pembelajaran penguatan, cara melatih model AI dari pengalaman bukan dari data sejarah. Dalam pembelajaran penguatan, sebuah model mengambil tindakan, biasanya dalam game atau simulator, dan kemudian menerima umpan balik tentang apakah tindakan itu produktif dalam membantunya mencapai tujuan. Melalui coba-coba selama banyak tindakan, AI belajar cara terbaik untuk mencapai tujuan.

Peneliti ini sering dianggap sebagai salah satu pendukung pembelajaran penguatan yang paling dogmatis, berargumen bahwa itu adalah satu-satunya cara untuk menciptakan kecerdasan buatan yang suatu hari nanti bisa melampaui pengetahuan manusia.

Dalam podcast produksi Google DeepMind yang dirilis April lalu, dia mengatakan bahwa model bahasa besar (LLM), jenis AI yang bertanggung jawab atas sebagian besar kegembiraan baru-baru ini tentang AI, memang kuat, tetapi juga dibatasi oleh pengetahuan manusia. “Kami ingin melampaui apa yang diketahui manusia dan untuk itu kami akan memerlukan metode yang berbeda dan metode itu akan mengharuskan AI kami untuk benar-benar mencari tahu sendiri dan menemukan hal-hal baru yang tidak diketahui manusia,” katanya. Dia telah menyerukan “era pengalaman” baru dalam AI yang akan berbasis pada pembelajaran penguatan.

Saat ini, LLM memiliki fase pengembangan “pra-pelatihan” yang menggunakan apa yang disebut pembelajaran tanpa pengawasan. Mereka menyerap sejumlah besar teks dan belajar memprediksi kata mana yang secara statistik paling mungkin mengikuti kata lain dalam konteks tertentu. Mereka kemudian memiliki fase pengembangan “pasca-pelatihan” yang memang menggunakan beberapa pembelajaran penguatan, seringkali dengan evaluator manusia melihat keluaran model dan memberi umpan balik ke AI, terkadang hanya dalam bentuk jempol atas atau jempol bawah. Melalui umpan balik ini, kecenderungan model untuk menghasilkan keluaran yang bermanfaat ditingkatkan.

MEMBACA  Amerika Serikat Perkenalkan RUU Baru untuk Perbaiki Celah Pajak di Sektor Kripto

Tapi pelatihan jenis ini pada akhirnya tergantung pada apa yang diketahui manusia—baik karena tergantung pada apa yang telah dipelajari dan ditulis manusia di masa lalu dalam fase pra-pelatihan dan karena cara LLM pasca-pelatihan melakukan pembelajaran penguatan pada akhirnya didasarkan pada preferensi manusia. Namun, dalam beberapa kasus, intuisi manusia bisa salah atau berpandangan sempit.

Misalnya, terkenal, dalam langkah 37 dari pertandingan kedua AlphaGo pada 2016 melawan juara dunia Go Lee Sedol, AlphaGo membuat langkah yang sangat tidak konvensional sehingga semua ahli manusia yang mengomentari permainan yakin itu adalah kesalahan. Tetapi kemudian terbukti menjadi kunci kemenangan AlphaGo dalam pertandingan itu. Demikian pula, pemain catur manusia sering menggambarkan cara bermain AlphaZero sebagai “asing”—namun langkah-langkahnya yang berlawanan dengan intuisi sering terbukti brilian.

Jika evaluator manusia memberikan penilaian pada langkah-langkah seperti itu dalam proses pembelajaran penguatan yang digunakan dalam pasca-pelatihan LLM, mereka mungkin memberi langkah-langkah itu “jempol ke bawah” karena menurut para ahli manusia itu terlihat seperti kesalahan. Inilah sebabnya para puris pembelajaran penguatan seperti Silver mengatakan bahwa untuk mencapai superintelligence, AI tidak hanya harus melampaui pengetahuan manusia, tetapi juga perlu membuangnya dan belajar mencapai tujuan dari awal, bekerja dari prinsip pertama.

Silver mengatakan Ineffable Intelligence akan bertujuan untuk membangun “superintelligence yang terus-menerus belajar yang menemukan sendiri fondasi semua pengetahuan,” kata sumber yang tahu pemikirannya.

Tinggalkan komentar