Cara Meta Bikin Llama 4 Kalahkan ChatGPT dkk, Pakai Trik Curang?

Uzone.id — Meta baru saja merilis AI versi terbaru mereka yaitu Llama 4 pada Senin, (07/04). Ada dua jenis Llama 4 yang dirilis oleh Meta, Scout dan Maverick. Scout merupakan model yang lebih kecil dan Maverick adalah model AI dengan ukuran lebih besar.
Nah, Maverick ini diklaim Meta bisa mengalahkan model AI terbaru dari OpenAI yaitu GPT-4o dan Gemini 2.0 Flash di berbagai macam tolak ukur (benchmark) yang sudah mereka laporkan secara luas.Di LMArena yang menjadi situs benchmark AI, Maverick berhasil berada di posisi kedua AI tercanggih saat ini. LMArena ini adalah sebuah situs benchmark yang mana manusia membandingkan hasil dari AI yang berbeda dan memilah mana yang terbaik.
Dari laporan yang dibagikan Meta, skor yang didapat Maverick sekitar 1417 yang berhasil membuat mereka mengalahkan OpenAI ChatGPT-4o dan berada di posisi kedua setelah Gemini 2.5 Pro.
Pencapaian ini menjadi hal serius dimana Llama 4 berhasil menjadi penantang serius bagi model-model AI milik OpenAI, Anthropic, dan Google.
Sayangnya, klaim dari Meta ini membuat para peneliti AI penasaran dan menggali soal laporan dari Meta ini. Lalu, para peneliti ini pun menemukan sesuatu yang fishy dari laporan tersebut.
Setelah diusut, ternyata versi Maverick yang diuji di LMArena tidak sama dengan versi yang tersedia untuk umum. Alhasil, kemampuannya pun berbeda antara Maverick yang digunakan publik dan Maverick versi yang dites.
Lalu, baru terungkap dari materi Meta sendiri bahwa mereka menggunakan versi lain. Meta menggunakan Maverick "versi obrolan eksperimental" ke LMArena yang secara khusus "dioptimalkan untuk percakapan.”
Hingga akhirnya, LMArena pun buka suara soal Meta yang ‘curang’ dalam pengetesan tersebut.
“Interpretasi Meta terhadap kebijakan kami tidak sesuai dengan apa yang kami harapkan. Meta seharusnya menjelaskan dengan lebih jelas bahwa 'Llama-4-Maverick-03-26-Experimental' adalah model yang disesuaikan untuk mengoptimalkan preferensi manusia,” kata LMArena dalam postingannya di X dua hari setelah model tersebut dirilis.
Mereka melanjutkan, “Akibatnya, kami memperbarui kebijakan papan peringkat kami untuk memperkuat komitmen kami terhadap evaluasi yang adil dan dapat direproduksi sehingga kebingungan ini tidak terjadi di masa depan."
Meskipun apa yang dilakukan Meta secara eksplisit tidak bertentangan dengan aturan LMArena, tapi situs ini menunjukkan kekhawatiran mereka terkait penyedia model AI yang melakukan ‘permainan’ sistem demi mendapat nilai tinggi.
Menurut mereka, ketika perusahaan mengirimkan model versi khusus untuk benchmark, maka peringkat benchmark seperti LMArena menjadi kurang berarti sebagai indikator kinerja di dunia nyata.
