Logo van TechCrunchLogo van Wired

-Tools

Meta onder vuur om misleidende testresultaten AI-model Maverick

Populair
Copyright techcrunch
Foto: VandaagAI.nl

Meta's nieuwe AI-model Maverick behaalt indrukwekkende scores op LM Arena, maar onderzoekers ontdekken dat het geteste model verschilt van de publiek beschikbare versie.

In het kort:

Meta lijkt een geoptimaliseerde versie van Maverick te hebben gebruikt voor de LM Arena benchmark, terwijl ontwikkelaars toegang krijgen tot een andere variant. Dit roept vragen op over de transparantie en betrouwbaarheid van AI-benchmarks.

  • Het geteste model wordt omschreven als een "experimentele chat versie" en is "geoptimaliseerd voor conversaties"
  • Onderzoekers melden grote verschillen tussen de publieke en geteste versie
  • De LM Arena-variant gebruikt opvallend veel emoji's en geeft zeer uitgebreide antwoorden

De andere kant:

Hoewel benchmarks zoals LM Arena al langer worden bekritiseerd om hun beperkte betrouwbaarheid, was het tot nu toe ongebruikelijk dat bedrijven speciaal geoptimaliseerde modellen inzetten voor deze tests.

  • Het gebruik van verschillende versies maakt het voor ontwikkelaars lastig om de werkelijke prestaties in te schatten
  • Deze praktijk ondermijnt het doel van benchmarks: het bieden van een eerlijk vergelijkingspunt tussen verschillende AI-modellen
  • Meta heeft nog niet gereageerd op vragen over deze discrepantie

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Bekijk ook