OpenAI menerjemahkan lebih dari satu juta jam video YouTube untuk melatih GPT-4 Translate to Indonesian: OpenAI menerjemahkan lebih dari satu juta jam video YouTube untuk melatih GPT-4

Sebelumnya pekan ini, The Wall Street Journal melaporkan bahwa perusahaan AI mengalami kendala dalam mengumpulkan data pelatihan berkualitas tinggi. Hari ini, The New York Times menguraikan beberapa cara perusahaan mengatasi masalah ini. Tidak mengherankan, hal itu melibatkan tindakan yang masuk ke dalam area abu-abu hukum hak cipta AI.

Cerita dimulai dengan OpenAI yang, putus asa akan data pelatihan, dilaporkan mengembangkan model transkripsi audio Whisper-nya untuk melewati hambatan tersebut, mentranskripsi lebih dari satu juta jam video YouTube untuk melatih GPT-4, model bahasa besar tercanggih mereka. Itu menurut The New York Times, yang melaporkan bahwa perusahaan mengetahui hal ini secara hukum meragukan tetapi percaya bahwa itu adalah penggunaan yang wajar. Presiden OpenAI, Greg Brockman, secara pribadi terlibat dalam mengumpulkan video yang digunakan, tulis Times.

Jurubicara OpenAI, Lindsay Held, mengatakan kepada The Verge dalam sebuah email bahwa perusahaan membuat “kumpulan data” yang unik untuk setiap model mereka untuk “membantu pemahaman mereka tentang dunia” dan menjaga daya saing penelitian globalnya. Held menambahkan bahwa perusahaan menggunakan “berbagai sumber termasuk data yang tersedia secara publik dan kemitraan untuk data yang tidak publik,” dan bahwa mereka sedang mempertimbangkan untuk menghasilkan data sintetis mereka sendiri.

Artikel Times mengatakan bahwa perusahaan kehabisan persediaan data yang berguna pada tahun 2021, dan membahas mentranskripsi video YouTube, podcast, dan buku audio setelah menggunakan sumber daya lainnya. Pada saat itu, mereka melatih model mereka dengan data yang mencakup kode komputer dari Github, basis data langkah catur, dan konten tugas sekolah dari Quizlet.

Jurubicara Google, Matt Bryant, mengatakan kepada The Verge dalam sebuah email bahwa perusahaan telah “melihat laporan yang belum dikonfirmasi” tentang aktivitas OpenAI, menambahkan bahwa “baik file robots.txt maupun Syarat Layanan kami melarang penyelamatan atau pengunduhan konten YouTube yang tidak sah,” mengulangi syarat penggunaan perusahaan. CEO YouTube, Neal Mohan, mengatakan hal yang serupa tentang kemungkinan OpenAI menggunakan YouTube untuk melatih model penghasil video Sora mereka pekan ini. Bryant mengatakan Google mengambil “langkah-langkah teknis dan hukum” untuk mencegah penggunaan yang tidak sah “ketika kami memiliki dasar hukum atau teknis yang jelas untuk melakukannya.”

MEMBACA Marvel Mengangkat Todd Stashwick dari Star Trek untuk Seri Visi-nya

Google juga mengumpulkan transkripsi dari YouTube, menurut sumber-sumber Times. Bryant mengatakan bahwa perusahaan telah melatih model mereka “pada sebagian konten YouTube, sesuai dengan perjanjian kami dengan pencipta YouTube.”

Times menulis bahwa departemen hukum Google meminta tim privasi perusahaan untuk menyesuaikan bahasa kebijakannya untuk memperluas apa yang dapat dilakukan dengan data konsumen, seperti alat kantor mereka seperti Google Docs. Kebijakan baru itu dilaporkan sengaja dirilis pada 1 Juli untuk memanfaatkan pengalihan perhatian akhir pekan libur Hari Kemerdekaan.

Meta juga bertabrakan dengan batasan ketersediaan data pelatihan yang baik, dan dalam rekaman yang didengar Times, tim AI-nya membahas penggunaan karya yang dilindungi hak cipta tanpa izin saat berusaha mengejar OpenAI. Perusahaan, setelah melalui “hampir semua buku, esai, puisi, dan artikel berbahasa Inggris yang tersedia di internet,” nampaknya mempertimbangkan langkah-langkah seperti membayar lisensi buku atau bahkan membeli penerbit besar. Mereka juga tampaknya dibatasi dalam cara mereka dapat menggunakan data konsumen oleh perubahan berorientasi privasi yang mereka lakukan setelah skandal Cambridge Analytica.

Google, OpenAI, dan dunia pelatihan AI lebih luas sedang berjuang dengan data pelatihan yang cepat hilang untuk model mereka, yang menjadi lebih baik seiring dengan data yang mereka serap. Journal menulis pekan ini bahwa perusahaan mungkin melampaui konten baru pada tahun 2028.

Solusi yang mungkin untuk masalah itu yang disebutkan oleh Journal pada hari Senin termasuk melatih model pada data “sintetis” yang dibuat oleh model mereka sendiri atau “pembelajaran kurikulum,” yang melibatkan memberikan data berkualitas tinggi kepada model secara berurutan dengan harapan bahwa mereka dapat membuat “koneksi yang lebih cerdas antara konsep” menggunakan informasi yang jauh lebih sedikit, tetapi kedua pendekatan tersebut belum terbukti. Tetapi opsi perusahaan lainnya adalah menggunakan apa pun yang mereka temukan, apakah dengan izin atau tidak, dan berdasarkan beberapa gugatan yang diajukan dalam setahun terakhir atau lebih, cara itu, katakanlah, lebih dari sekadar tegang.

MEMBACA Apa yang Dibutuhkan untuk Menciptakan Mammoth, Dodo, dan Thylacine Abad ke-21