In het kort:
Meta lijkt een geoptimaliseerde versie van Maverick te hebben gebruikt voor de LM Arena benchmark, terwijl ontwikkelaars toegang krijgen tot een andere variant. Dit roept vragen op over de transparantie en betrouwbaarheid van AI-benchmarks.
- Het geteste model wordt omschreven als een "experimentele chat versie" en is "geoptimaliseerd voor conversaties"
- Onderzoekers melden grote verschillen tussen de publieke en geteste versie
- De LM Arena-variant gebruikt opvallend veel emoji's en geeft zeer uitgebreide antwoorden
De andere kant:
Hoewel benchmarks zoals LM Arena al langer worden bekritiseerd om hun beperkte betrouwbaarheid, was het tot nu toe ongebruikelijk dat bedrijven speciaal geoptimaliseerde modellen inzetten voor deze tests.
- Het gebruik van verschillende versies maakt het voor ontwikkelaars lastig om de werkelijke prestaties in te schatten
- Deze praktijk ondermijnt het doel van benchmarks: het bieden van een eerlijk vergelijkingspunt tussen verschillende AI-modellen
- Meta heeft nog niet gereageerd op vragen over deze discrepantie