Saya menguji Tantangan Koding AI Meta dengan 3 Tantangan Koding yang Berhasil diatasi oleh ChatGPT – dan itu tidak bagus

Beberapa minggu lalu, CEO Meta Mark Zuckerberg mengumumkan melalui Facebook bahwa perusahaannya akan mengopen-source model bahasa besar (LLM) Code Llama, yang merupakan mesin kecerdasan buatan (AI) yang mirip dengan GPT-3.5 dan GPT-4 di ChatGPT.

Zuck mengumumkan tiga hal menarik tentang LLM ini: itu diopen-source, dirancang untuk membantu menulis dan mengedit kode, dan modelnya memiliki 70 miliar parameter. Harapannya adalah bahwa pengembang dapat memberi model tantangan yang lebih menantang, dan mesin akan lebih akurat dalam menjawab.

Isu open-source ini menarik. Ini adalah pendekatan yang menyiratkan bahwa Anda dapat mengunduh semuanya, menginstalnya di server Anda sendiri, dan menggunakan model untuk mendapatkan bantuan pemrograman tanpa pernah mengambil risiko bahwa Raja-raja Besar Facebook akan mengambil kode Anda untuk pelatihan atau tujuan jahat lainnya.

Melakukan pekerjaan ini melibatkan pengaturan server Linux dan melakukan segala macam lompatan. Namun, ternyata para spesialis di Hugging Face telah mengimplementasikan Code Llama 70B LLM ke dalam antarmuka HuggingChat mereka. Jadi, itulah yang akan saya uji selanjutnya.

Memulai dengan Code Llama

Untuk memulai, Anda perlu membuat akun gratis di Hugging Face. Jika Anda sudah memiliki satu (seperti saya), Anda dapat menggunakan 70B Code Llama LLM dengan akun tersebut.

Salah satu hal yang penting untuk dicatat adalah, meskipun Anda dapat menginstal Code Llama di server Anda sendiri dan dengan demikian tidak membagikan kode Anda, ceritanya jauh berbeda di Hugging Face. Layanan tersebut mengatakan bahwa apa pun yang Anda ketik mungkin dibagikan dengan pengarang model kecuali Anda mematikan opsi tersebut di pengaturan.

Ketika Anda masuk ke HuggingChat, Anda akan disajikan dengan layar obrolan kosong. Seperti yang bisa Anda lihat di bawah ini, model LLM saya saat ini adalah openchat/openchat-3.5-0106, tetapi saya akan mengubahnya menjadi Code Llama – dan saya akan menunjukkan kepada Anda bagaimana melakukannya.

MEMBACA  Samsung menggembar-gemborkan Galaxy Z Flip sebagai bodycam polisi yang hebat.

Anda mengubah model saat ini di pengaturan, yang dapat Anda akses dengan menekan ikon gigi.

Sekali di pengaturan, klik (pada 1) codellama/CodeLlama-70b-Instruct-hf di sebelah kiri, verifikasi (pada 2) bahwa LLM Code Llama telah dipilih, dan kemudian klik Aktifkan (pada 3).

Sekarang, ketika Anda berbicara dengan antarmuka obrolan, Anda akan menggunakan model Code Llama, seperti yang terverifikasi di bagian atas antarmuka obrolan.

Untuk menguji, saya memutuskan untuk mengambil pemicu dari tes pemrograman sebelumnya yang saya lakukan dengan Bard (sekarang Gemini) dan saya menjalankan tes yang sama di HuggingChat.

Uji 1: Menulis plugin WordPress

Uji pertama saya adalah pembuatan plugin WordPress. ChatGPT berperforma cukup baik dalam tugas ini. Bard lemah, tetapi mencoba yang terbaik. Tetapi bagaimana dengan Code Llama? Nah, mari kita lihat. Berikut adalah pemicu.

Itu bukanlah sesuatu yang benar di banyak level. Pertama, Code Llama tidak membuat header plugin, serangkaian bidang yang sangat sederhana yang diperlukan oleh semua plugin. Kemudian, itu menghasilkan kode yang formatter kode editor pemrograman saya tidak bisa menafsirkan, menunjukkan bahwa ada elemen yang hilang dalam kode.

Lebih lanjut, kode itu tidak bisa diuji. Ini adalah kegagalan.

Uji 2: Menulis ulang fungsi string

Untuk uji ini, saya menggunakan permintaan penulisan ulang string yang pernah saya berikan kepada ChatGPT. Saya ingin memperbaiki bug dalam kode saya yang hanya mengizinkan bilangan bulat ketika seharusnya mengizinkan dolar dan sen (dengan kata lain, beberapa digit, kemungkinan diikuti titik, dan kemudian, jika ada titik, dua digit lagi).

Saya memberikan pemicu yang sama yang saya gunakan dalam artikel sebelumnya dan mendapatkan respons ini.

MEMBACA  CEO Apple Tim Cook tentang Magic Mouse: \'Uhhhhhhhhh\'

Kode ini berfungsi dan saya puas dengan itu.

Uji 3: Menemukan bug yang tidak bisa saya temukan

Sekali lagi, saya menggunakan tes yang saya tulis tentang dalam artikel sebelumnya. Saya akan mengarahkan Anda ke artikel asli jika Anda ingin mengetahui detail masalah yang saya coba di Code Llama. Masalah pemrograman itu panjang dan agak rumit, itulah sebabnya saya tidak bisa menemukan apa yang salah.

ChatGPT langsung memecahkan masalah; Bard tidak. Bard gagal karena ia melihat permukaan masalah, bukan bagaimana kode keseluruhan dibangun dan perlu dijalankan. Sebuah analogi adalah pergi ke dokter dengan sakit kepala. Satu dokter mungkin memberi tahu Anda untuk mengonsumsi dua aspirin dan tidak meneleponnya keesokan pagi. Dokter lain mungkin mencoba mencari tahu akar penyebab sakit kepala dan membantu memecahkannya.

ChatGPT fokus pada akar penyebab, dan saya dapat memperbaiki bug. Bard hanya melihat gejala dan tidak memberikan solusi.

Sayangnya, Code Llama melakukan hal yang sama dengan Bard, hanya melihat permukaan masalah. Kecerdasan buatan memberikan rekomendasi, tetapi rekomendasi itu tidak meningkatkan situasi.

Pemenangnya adalah…

Suite tes saya jauh dari komprehensif. Tetapi jika Code Llama gagal dalam dua dari tiga tes yang bahkan tidak memperlambat ChatGPT, tampaknya kecerdasan buatan belum siap untuk waktu prime.

Satu-satunya alasan mengapa Anda mungkin ingin menggunakan Code Llama daripada ChatGPT adalah jika Anda menginstalnya di server Anda sendiri karena maka kode Anda tidak akan dibagikan dengan Meta. Tetapi apa gunanya privasi jika hal itu tidak memberikan jawaban yang benar?

Jika ChatGPT tidak begitu baik, saya mungkin akan memberikan beberapa poin kepada Code Llama. Tetapi kita tahu apa yang mungkin dengan ChatGPT – dan Code Llama jauh dari tingkat itu. Singkatnya, tampaknya Facebook harus memperbaikinya.

MEMBACA  Pendiri Telegram Pavel Durov Dituduh atas Aktivitas Kriminal yang Diduga di Aplikasi tersebut.

Untuk jujur, saya berharap yang lebih baik dan saya sedikit kecewa. Tetapi jika ada satu hal yang kolumnis teknologi harus terbiasa, itu sedikit kecewa dengan banyak produk dan proyek yang kami tinjau. Saya pikir itulah mengapa kami begitu bersemangat ketika sesuatu menonjol dan mengguncang dunia kami. Dan Code Llama, sayangnya, bukan salah satunya.

Apakah Anda pernah mencoba AI untuk bantuan pemrograman? Mana yang pernah Anda gunakan? Bagaimana hasilnya? Beri tahu kami di kolom komentar di bawah.

Anda dapat mengikuti pembaruan proyek saya sehari-hari di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan saya di Substack, dan ikuti saya di Twitter di @DavidGewirtz, di Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, dan di YouTube di YouTube.com/DavidGewirtzTV.