Databricks Memiliki Trik yang Memungkinkan Model AI Meningkatkan Diri Sendiri.

Databricks, sebuah perusahaan yang membantu bisnis besar membangun model kecerdasan buatan kustom, telah mengembangkan trik pembelajaran mesin yang dapat meningkatkan kinerja model AI tanpa membutuhkan data yang bersih dan berlabel dengan baik.

Jonathan Frankle, ilmuwan AI utama di Databricks, menghabiskan setahun terakhir berbicara dengan pelanggan tentang tantangan utama yang mereka hadapi dalam membuat AI bekerja secara dapat diandalkan.

Masalahnya, kata Frankle, adalah data yang kotor.

Semua orang memiliki beberapa data, dan memiliki gagasan tentang apa yang ingin mereka lakukan,” kata Frankle. Tetapi kurangnya data bersih membuat sulit untuk menyetel model untuk melakukan tugas tertentu. “Tidak ada yang datang dengan data penyetelan yang bagus dan bersih yang bisa Anda masukkan ke dalam prompt atau antarmuka pemrograman aplikasi untuk model.”

Model Databricks dapat memungkinkan perusahaan akhirnya mendeploy agen mereka sendiri untuk melakukan tugas, tanpa kualitas data menjadi kendala.

Teknik ini menawarkan pandangan langka pada beberapa trik kunci yang insinyur sekarang gunakan untuk meningkatkan kemampuan model AI canggih, terutama ketika data yang baik sulit didapat. Metode ini memanfaatkan ide-ide yang telah membantu menghasilkan model penalaran canggih dengan menggabungkan pembelajaran penguatan, cara bagi model AI untuk memperbaiki diri melalui latihan, dengan data pelatihan “sintetis,” atau AI-generated.

Model terbaru dari OpenAI, Google, dan DeepSeek semuanya sangat bergantung pada pembelajaran penguatan serta data pelatihan sintetis. WIRED mengungkapkan bahwa Nvidia berencana untuk mengakuisisi Gretel, sebuah perusahaan yang mengkhususkan diri dalam data sintetis. “Kita semua sedang menavigasi ruang ini,” kata Frankle.

Metode Databricks memanfaatkan fakta bahwa, dengan cukup percobaan, bahkan model lemah pun dapat mencetak dengan baik pada tugas atau benchmark tertentu. Peneliti menyebut metode ini untuk meningkatkan kinerja model “terbaik-dari-N.” Databricks melatih model untuk memprediksi hasil terbaik-dari-N yang diinginkan oleh pengujian manusia, berdasarkan contoh-contoh. Model imbalan Databricks, atau DBRM, kemudian dapat digunakan untuk meningkatkan kinerja model lain tanpa perlu data yang lebih lanjut yang berlabel.

MEMBACA  Bisakah Anjing Makan Belalang? Inilah yang Perlu Diketahui

DBRM kemudian digunakan untuk memilih output terbaik dari model yang diberikan. Hal ini menciptakan data pelatihan sintetis untuk lebih menyetel model sehingga menghasilkan output yang lebih baik pada kesempatan pertama. Databricks menyebut pendekatan baru mereka sebagai Optimisasi Adaptif Waktu Uji atau TAO. “Metode ini yang sedang kita bicarakan menggunakan pembelajaran penguatan yang relatif ringan untuk pada dasarnya menyatukan manfaat terbaik-dari-N ke dalam model itu sendiri,” kata Frankle.

Dia menambahkan bahwa penelitian yang dilakukan oleh Databricks menunjukkan bahwa metode TAO membaik seiring dengan ditingkatkannya model yang lebih besar dan lebih mampu. Pembelajaran penguatan dan data sintetis sudah banyak digunakan, tetapi menggabungkannya untuk meningkatkan model bahasa adalah teknik yang relatif baru dan menantang secara teknis.

Databricks tidak biasa terbuka tentang bagaimana mereka mengembangkan AI, karena mereka ingin menunjukkan kepada pelanggan bahwa mereka memiliki keterampilan yang diperlukan untuk membuat model kustom yang kuat untuk mereka. Perusahaan sebelumnya mengungkapkan kepada WIRED bagaimana mereka mengembangkan DBX, model bahasa besar open source (LLM) yang canggih dari awal.

Tinggalkan komentar