De meetcrisis van AI: waarom benchmarks de werkelijkheid missen

Er gaapt een kloof tussen de officiële meetlat van de AI-industrie en de economische praktijk op de werkvloer. In april verscheen de ARC-AGI-3 benchmark, een gerespecteerde test voor abstract redeneren. De resultaten waren mager: waar een gemiddeld mens de 100 procent haalt, bleven de slimste modellen van OpenAI en Anthropic steken op minder dan 0,5 procent.

In diezelfde periode herdefinieerde NVIDIA-CEO Jensen Huang het begrip AGI in interviews met Lex Fridman en Dwarkesh Patel. Volgens Huang is kunstmatige algemene intelligentie voor kenniswerk en softwareontwikkeling feitelijk al een feit. De botsing tussen de marginale testscore van wetenschappers en de zegetocht van de chipkoning legt een meetcrisis bloot. Het probleem schuilt in een factor die benchmarks structureel negeren: het 'harnas' waarin een model aan het werk wordt gezet.

De motor versus de werkplaats

De meeste benchmarks waar beleidsmakers op varen, testen AI via een naakte API. Dat is een statische opstelling waarbij het model één keer antwoord geeft zonder hulpmiddelen. In de context van ARC-AGI moet een AI het probleem kaal oplossen, puur op basis van de patronen in zijn eigen neurale netwerk.

Professionals gebruiken AI echter niet als een geïsoleerde chatbot. De werkelijke kracht van moderne modellen komt naar voren in een harnas: een omgeving zoals Cursor of de Codex-app van OpenAI. Hier krijgt het model sensoren en actuatoren. De AI kan bestanden lezen, zelfstandig code draaien, internetbronnen raadplegen en zijn eigen fouten corrigeren voordat de gebruiker het resultaat ziet.

Ethan Mollick waarschuwt dat het testen van modellen via een naakte API de werkelijke vooruitgang systematisch onderschat. Het is de intelligentie van een timmerman meten terwijl hij opgesloten zit in een lege cel. Zonder hamer of zaag is hij nutteloos. In een volledig uitgeruste werkplaats bouwt hij een huis.

Agents draaien de nachtdienst

Voor wie software ontwikkelt is de claim van Huang een procesverschuiving die al plaatsvindt. Rick Lamers, AI-researcher bij NVIDIA, bevestigde begin mei in de AI Report podcast dat agents in de praktijk al autonoom taken voltooien.

Agents kunnen een complexe opdracht krijgen waarna de programmeur de volgende ochtend terugkomt om het resultaat te bekijken. In deze sector is de drempel van 'algemene intelligentie' gepasseerd, niet omdat het model alles weet, maar omdat het proces volledig digitaal en verifieerbaar is. Het model draait de nachtdienst.

Dit vormt de blinde vlek van de officiële cijfers. Terwijl we staren naar grafieken uit de Stanford AI Index over analoge klokken die AI niet kan aflezen — een van de diepe dalen in de jagged frontier — is de grens in de software-industrie al kilometers opgeschoven.

Van engineering naar management

De onzekerheid ligt inmiddels niet meer bij de capaciteit van het individuele model, maar bij de organisatie eromheen. Mollick signaleert dat we redelijk begrijpen hoe één mens met één AI werkt, maar dat we blind zijn voor de jagged frontier in multi-agent workflows.

Wanneer tien agents tegelijkertijd aan een architectuur werken, ontstaan er patronen waar we nog geen vocabulaire voor hebben. We proberen deze systemen te begrijpen met termen uit de informatica, zoals control planes en hooks. De inzet van agents in teams is echter eerder een vraagstuk voor management- en organisatietheorie. Het gaat over spans of control en het delegeren van verantwoordelijkheid aan systemen die we niet volledig kunnen voorspellen.

De leugen van de benchmarks is de suggestie dat intelligentie een enkel getal op een schaal is. De makers van ARC-AGI hebben gelijk dat AI op fundamenteel niveau nog steeds niet kan abstraheren zoals een kind dat kan. Voor de economische realiteit van kenniswerk doet dat er steeds minder toe.

We leven in twee werkelijkheden tegelijk. In de ene werkelijkheid struikelt de computer over simpele logica. In de andere werkelijkheid bouwen agents infrastructuren terwijl de programmeur slaapt. De professional die wacht op een hoge score in academische tests om AI serieus te nemen, hanteert een meetlat die de werkelijke verschuiving niet langer vangt.

De meetcrisis van AI: waarom benchmarks de werkelijkheid missen

De motor versus de werkplaats

Agents draaien de nachtdienst

Van engineering naar management

Bekijk ook

Waarom AI op papier alles kan, maar in de praktijk struikelt

De nieuwe wet van de AI-economie

Waarom je het je niet kunt veroorloven om AI te haten

Nieuwsbrieven

Het nieuws

Gepersonaliseerde nieuwsbrief