Masalah Terbesar pada AI dengan ‘Manusia dalam Proses’? Ternyata, Seringkali Manusianya

Selamat datang di Eye on AI. Di edisi ini…AI sudah lebih baik dari beberapa profesional…Google rencana bawa iklan ke Gemini…perusahaan AI utama kerja sama buat standar agen AI…upaya baru biar model AI punya memori lebih panjang…dan suasana berubah soal LLM dan AGI.

Salam dari San Francisco, di mana kami baru selesai mengadakan Fortune Brainstorm AI. Nanti hari Kamis, kami akan berikan rangkuman dari konferensi itu. Tapi hari ini, saya mau bahas beberapa studi penting beberapa minggu terakhir yang mungkin punya dampak besar untuk bisnis.

Pertama, ada studi dari perusahaan evaluasi AI Vals AI yang menguji beberapa aplikasi AI hukum dan ChatGPT melawan pengacara manusia dalam tugas riset hukum. Semua aplikasi AI mengalahkan rata-rata pengacara manusia (yang boleh pakai alat pencarian hukum digital) dalam membuat laporan riset hukum di tiga kriteria: akurasi, kewenangan, dan kepantasan. Nilai median gabungan pengacara adalah 69%, sementara ChatGPT dapat 74%, Midpage 76%, Alexi 77%, dan Counsel Stack, yang nilai tertinggi, 78%.

Salah satu temuan menarik adalah untuk banyak jenis pertanyaan, justru ChatGPT yang generalis itu paling akurat, mengalahkan aplikasi yang lebih spesialis. Walaupun ChatGPT kehilangan poin untuk kewenangan dan kepantasan, tetap lebih baik dari pengacara manusia.

Studi ini dikritik karena tidak menguji alat riset AI hukum yang lebih terkenal dan banyak dipakai, seperti Harvey, Legora, CoCounsel dari Thompson Reuters, atau LexisNexis Protégé, dan hanya menguji ChatGPT di antara model general purpose terbaru. Tapi temuan ini tetap penting dan sesuai dengan cerita yang saya dengar dari pengacara.

Beberapa waktu lalu saya ngobrol dengan Chris Kercher, seorang litigator di Quinn Emanuel yang mendirikan grup data dan analitik di firma itu. Quinn Emanuel sudah pakai model AI general purpose Anthropic, Claude, untuk banyak tugas. “Claude Opus 3 menulis lebih baik daripada kebanyakan associate saya,” kata Kercher. “Jelas dan terorganisir. Model yang bagus.” Dia bilang dia “terus takjub” dengan apa yang LLM bisa lakukan, menemukan isu, strategi, dan taktik baru untuk argumen di pengadilan.

Kercher bilang model AI memungkinkan Quinn Emanuel untuk “membalik” proses kerja sebelumnya. Dulu, pengacara junior (associate) menghabiskan hari untuk riset dan menulis memo hukum, mencari kutipan untuk setiap kalimat, sebelum memberi ke pengacara senior yang akan masukkan ke dokumen pengadilan. Sekarang, AI digunakan untuk buat draf yang katanya lebih baik, dalam waktu jauh lebih singkat, lalu draf itu diberikan ke associate untuk diperiksa. Associate tetap bertanggung jawab untuk akurasi memo dan kutipan—seperti biasa—tapi sekarang mereka memeriksa fakta dari AI dan mengeditnya, bukan melakukan riset awal dan penulisan.

Dia bilang pengacara senior yang paling berpengalaman sering dapat nilai paling banyak dari kerja dengan AI, karena mereka punya keahlian untuk buat prompt yang sempurna, ditambah penilaian profesional untuk cepat menilai kualitas respons AI. Apakah argumen dari model itu masuk akal? Apakah akan berhasil di depan hakim tertentu atau meyakinkan juri? Pertanyaan seperti ini masih butuh penilaian dari pengalaman, kata Kercher.

MEMBACA  Inflasi Zona Euro Turun di Bawah Target Menjadi 1,9%

Oke, itu di hukum, tapi kemungkinan juga terjadi di industri pengetahuan lainnya. Di Brainstorm AI kemarin, saya wawancarai Michael Truell, co-founder dan CEO dari alat coding AI populer Cursor. Dia catat bahwa dalam studi Universitas Chicago tentang efek developer pakai Cursor, justru insinyur perangkat lunak paling berpengalaman yang dapat manfaat paling banyak, mungkin karena alasan yang sama seperti kata Kercher soal pengacara—mereka punya pengalaman untuk buat prompt terbaik dan penilaian untuk menilai output alat.

Lalu ada studi tentang penggunaan AI generatif untuk buat visual iklan. Profesor bisnis dari New York University dan Emory University menguji apakah iklan produk kecantikan yang dibuat hanya oleh ahli manusia, diedit oleh AI, atau dibuat sepenuhnya oleh AI paling menarik bagi konsumen. Mereka temukan iklan yang sepenuhnya dibuat AI dipilih sebagai paling efektif—meningkatkan tingkat klik dalam uji coba online sebesar 19%. Sementara itu, iklan yang dibuat manusia lalu diedit AI justru kurang efektif dibanding yang hanya dibuat ahli manusia tanpa AI. Tapi, yang penting, jika orang diberi tahu iklan itu dibuat AI, kemungkinan mereka beli produk turun hampir sepertiga.

Temuan itu jadi tantangan etika besar untuk merek. Kebanyakan ahli etika AI berpikir orang umumnya harus diberi tahu ketika mereka mengonsumsi konten buatan AI. Dan pengiklan memang harus patuhi aturan FTC tentang “kejujuran dalam iklan”. Tapi banyak iklan sudah pakai aktor tanpa perlu beri tahu itu aktor—atau cuma ditulis kecil-kecil. Seberapa beda iklan buatan AI? Studi ini sepertinya menunjuk ke dunia di mana semakin banyak iklan dibuat AI dan pemberitahuan akan minimal.

Studi ini juga tampaknya tantang anggapan umum bahwa solusi “centaur” (gabungan kekuatan manusia dan AI) akan selalu lebih baik daripada hanya manusia atau hanya AI. (Kadang ini disingkat jadi “AI tidak akan ambil pekerjaanmu. Manusia yang pakai AI yang akan ambil pekerjaanmu.”) Semakin banyak penelitian tampaknya tunjukkan bahwa di banyak bidang, ini tidak benar. Seringkali, AI sendiri yang hasilkan yang terbaik.

Tapi juga benar bahwa apakah solusi centaur bekerja baik sangat tergantung pada desain interaksi manusia-AI. Studi tentang dokter manusia pakai ChatGPT untuk bantu diagnosis, contohnya, temukan bahwa manusia bekerja dengan AI memang bisa hasilkan diagnosis lebih baik daripada hanya dokter atau hanya ChatGPT—tapi hanya jika ChatGPT digunakan untuk beri diagnosis awal, lalu dokter manusia, dengan akses ke diagnosis ChatGPT, beri pendapat kedua. Jika prosesnya dibalik, dan ChatGPT diminta beri pendapat kedua atas diagnosis dokter, hasilnya lebih buruk—dan faktanya, hasil terbaik kedua adalah hanya ChatGPT yang beri diagnosis. Dalam studi iklan, akan bagus jika peneliti lihat apa yang terjadi jika AI buat iklan lalu ahli manusia edit.

Tapi bagaimanapun, momentum ke arah otomatisasi—sering tanpa manusia dalam proses—sedang tumbuh di banyak bidang.

Dengan catatan itu, ini berita AI lainnya.

MEMBACA  Roth/MKM meningkatkan target harga saham ChromaDex, menyoroti prospek pertumbuhan yang kuat

Jeremy Kahn

[email protected]

@jeremyakahn

FORTUNE ON AI

Exclusive: Glean hits $200 million ARR, up from $100 million 9 months back—by Allie Garfinkle

Cursor developed an internal AI help desk that handles 80% of its employees’ support tickets, says the $29 billion startup’s CEO —by Beatrice Nolan

HP’s chief commercial officer predicts the future will include AI-powered PCs that don’t share data in the cloud —by Nicholas Gordon

How Intuit’s chief AI officer supercharged the company’s emerging technologies teams—and why not every company should follow his lead —by John Kell

Google Cloud CEO lays out 3-part strategy to meet AI’s energy demands, after identifying it as ‘the most problematic thing’ —by Jason Ma

OpenAI COO Brad Lightcap says code red will ‘force’ the company to focus, as the ChatGPT maker ramps up enterprise push —by Beatrice Nolan

AI IN THE NEWS

Trump izinkan Nvidia jual chip H200 ke China, tapi China mungkin batasi adopsi. Presiden Trump memberi sinyal akan izinkan ekspor chip high-end H200 Nvidia ke pelanggan China yang disetujui. CEO Nvidia Jensen Huang sebut China adalah peluang penjualan $50 miliar per tahun, tapi Beijing mau batasi ketergantungan perusahaannya pada chip buatan AS, dan regulator China pertimbangkan sistem persetujuan yang mewajibkan pembeli jelaskan mengapa chip domestik tidak bisa penuhi kebutuhan. Mereka bahkan mungkin larang sektor publik beli H200. Tapi perusahaan China sering lebih suka pakai chip Nvidia dan bahkan latih model mereka di luar China untuk hindari kontrol ekspor AS. Keputusan Trump picu kritik politik di Washington, dengan grup senator dari dua partai berusaha blokir ekspor seperti itu. Baca lebih lanjut dari Financial Times di sini.

Trump rencanakan perintah eksekutif untuk standar AI nasional, tujuannya antisipasi regulasi tingkat negara bagian. Presiden Trump bilang akan keluarkan perintah eksekutif minggu ini buat buat satu standar kecerdasan buatan nasional, dengan argumen perusahaan tidak bisa navigasi 50 rezim persetujuan negara bagian yang berbeda, Politico laporkan. Langkah ini ikuti draf perintah November yang bocor yang berusaha blokir hukum AI negara bagian.

Google rencanakan bawa iklan ke chatbot Gemini tahun 2026. Itu menurut laporan di Adweek yang kutip informasi dari dua klien iklan Google yang tidak disebutkan namanya. Cerita itu bilang detail format, harga, dan pengujian masih belum jelas. Itu juga bilang format iklan baru untuk Gemini terpisah dari iklan yang akan muncul di pencarian Google “AI Mode”.

Startup AI baru mantan kepala AI Databricks dihargai $4.5 miliar di putaran seed. Unconventional AI, startup yang didirikan mantan kepala AI Databricks Naveen Rao, dapat $475 juta di putaran seed dipimpin Andreessen Horowitz dan Lightspeed Venture Partners dengan valuasi $4.5 miliar—hanya dua bulan setelah didirikan, Bloomberg News laporkan. Perusahaan ini bertujuan bangun arsitektur komputasi baru yang lebih hemat energi untuk beban kerja AI.

MEMBACA  Mengapa NewJeans Tidak Berpartisipasi dalam Pameran HYBE di Museum Grammy? Ini Penjelasannya

Anthropic bentuk kemitraan dengan Accenture untuk target pelanggan enterprise. Anthropic dan Accenture telah bentuk kemitraan tiga tahun yang buat Accenture salah satu pelanggan enterprise terbesar Anthropic dan bertujuan bantu bisnis—banyak yang masih skeptis—dapat hasil nyata dari investasi AI, Wall Street Journal laporkan. Accenture akan latih 30,000 karyawan tentang Claude dan, bersama Anthropic, luncurkan grup bisnis khusus yang target industri yang sangat diatur dan tempatkan insinyur langsung dengan klien untuk percepat adopsi dan ukur nilai.

OpenAI, Anthropic, Google, dan Microsoft kerja sama untuk standar baru untuk agen AI. Linux Foundation mengorganisir grup bernama Agentic Artificial Intelligence Foundation dengan partisipasi dari perusahaan AI besar, termasuk OpenAI, Anthropic, Google, dan Microsoft. Tujuannya buat standar open-source bersama yang izinkan agen AI berinteraksi dengan andal dengan perangkat lunak enterprise. Grup akan fokus standarkan alat kunci seperti Model Context Protocol, format Agents.md OpenAI, dan agen Goose Block, bertujuan pastikan konektivitas konsisten, praktik keamanan, dan aturan kontribusi di seluruh ekosistem. CIO semakin bilang protokol umum penting untuk perbaiki kerentanan dan izinkan agen berfungsi mulus di lingkungan bisnis nyata. Baca lebih lanjut di sini dari The Information.

EYE ON AI RESEARCH

Google telah buat arsitektur baru untuk beri model AI memori jangka lebih panjang. Arsitektur itu, disebut Titans—yang pertama kali Google perkenalkan awal 2025—dipasangkan dengan kerangka kerja bernama MIRAS yang dirancang untuk beri AI sesuatu yang mendekati memori jangka panjang. Alih-alih lupa detail lama ketika jendela memori pendeknya penuh, sistem ini pakai modul memori terpisah yang terus perbarui diri. Sistem menilai betapa mengejutkannya informasi baru dibandingkan dengan apa yang disimpan di memori jangka panjangnya, memperbarui modul memori hanya ketika temukan hal yang sangat mengejutkan. Dalam pengujian, Titans dengan MIRAS berkinerja lebih baik daripada model lama pada tugas yang butuh penalaran atas informasi panjang, menyarankan ini akhirnya bisa bantu hal seperti analisis dokumen kompleks, riset mendalam, atau belajar terus menerus. Kamu bisa baca blog riset Google di sini.

AI CALENDAR

6 Jan: Fortune Brainstorm Tech CES Dinner. Daftar untuk hadir di sini.

19-23 Jan: World Economic Forum, Davos, Swiss.

10-11 Feb: AI Action Summit, New Delhi, India.

BRAIN FOOD

Di NeurIPS, suasana beralih menentang LLM sebagai jalan ke AGI. The Information laporkan bahwa semakin banyak peneliti yang hadir NeurIPS, konferensi paling penting di bidang riset AI—yang berlangsung pekan lalu di San Diego—semakin skeptis dengan ide bahwa large language model (LLM) akan pernah menuju ke artificial general intelligence (AGI). Sebaliknya, mereka rasa bidang ini mungkin butuh arsitektur AI jenis baru sama sekali untuk maju ke AI yang lebih mirip manusia yang bisa terus belajar, bisa belajar efisien dari lebih sedikit contoh, dan bisa ekstrapolasi dan analogikan konsep ke masalah yang belum pernah dilihat.

Figur seperti David Luan dari Amazon dan co-founder OpenAI Ilya Sutskever berpendapat bahwa

Tinggalkan komentar