6 april 2025 -Tools

Meta onder vuur om misleidende testresultaten AI-model Maverick

Populair

Foto: VandaagAI.nl

Meta's nieuwe AI-model Maverick behaalt indrukwekkende scores op LM Arena, maar onderzoekers ontdekken dat het geteste model verschilt van de publiek beschikbare versie.

In het kort:

Meta lijkt een geoptimaliseerde versie van Maverick te hebben gebruikt voor de LM Arena benchmark, terwijl ontwikkelaars toegang krijgen tot een andere variant. Dit roept vragen op over de transparantie en betrouwbaarheid van AI-benchmarks.

Het geteste model wordt omschreven als een "experimentele chat versie" en is "geoptimaliseerd voor conversaties"
Onderzoekers melden grote verschillen tussen de publieke en geteste versie
De LM Arena-variant gebruikt opvallend veel emoji's en geeft zeer uitgebreide antwoorden

De andere kant:

Hoewel benchmarks zoals LM Arena al langer worden bekritiseerd om hun beperkte betrouwbaarheid, was het tot nu toe ongebruikelijk dat bedrijven speciaal geoptimaliseerde modellen inzetten voor deze tests.

Het gebruik van verschillende versies maakt het voor ontwikkelaars lastig om de werkelijke prestaties in te schatten
Deze praktijk ondermijnt het doel van benchmarks: het bieden van een eerlijk vergelijkingspunt tussen verschillende AI-modellen
Meta heeft nog niet gereageerd op vragen over deze discrepantie