Waarom AI op papier alles kan, maar in de praktijk struikelt
Duiding

Waarom AI op papier alles kan, maar in de praktijk struikelt

AI scoort inmiddels 100% op programmeertests, maar kan in de helft van de gevallen nog geen analoge klok aflezen. Welkom bij de ‘jagged frontier’.

Vandaag, 07:12


Wie dagelijks met Claude of ChatGPT werkt, herkent de frustratie: het ene moment lost de AI een complexe bug op in een fractie van een seconde, het volgende moment struikelt hij over een simpele logische rekensom of begrijpt hij een basale instructie verkeerd.

Deze onvoorspelbaarheid heeft een naam: de jagged frontier. Het is een term van Wharton-professor Ethan Mollick die in het Stanford-rapport centraal staat. Het beschrijft een grillige grens van mogelijkheden: AI is niet over de hele linie 'slim', maar vertoont extreme pieken en diepe dalen. Een model dat een gouden medaille wint op de Wiskunde Olympiade, kan volgens Stanford in de helft van de gevallen nog steeds geen analoge klok aflezen.

Het verschil tussen de 100 procent op code-benchmarks en de flaters in het dagelijks gebruik zit in de manier waarop AI leert. Zoals Wietse Hage uitlegt in de podcast AI Report, boekt AI enorme vooruitgang in domeinen waar een 'verificatie-loop' mogelijk is.

Bij softwarecode kan een AI miljoenen keren per seconde een oplossing proberen, die laten draaien, kijken of het werkt, en zichzelf corrigeren zonder dat er een mens aan te pas komt. Dit proces, self-play of recursieve verbetering, zorgt voor de verticale stijging in benchmarks. Maar bij subjectieve taken, zoals het schrijven van een echt goed essay of het inschatten van een menselijke emotie, ontbreekt die automatische scheidsrechter. Daar moet de AI wachten op een duimpje omhoog of omlaag van een mens. Die feedback-loop is traag, vaag en inconsistent.

Dat verklaart waarom AI-agents in een gepubliceerde studie in Nature op echte wetenschappelijke workflows (zoals het schrijven van beursonderzoek of complexe data-analyse) nog maar op 50 procent van het niveau van een PhD-onderzoeker zitten. De grillige grens is hier pijnlijk zichtbaar: uitmuntend in het kraken van een geïsoleerd probleem, matig in het overzien van een proces.

Deze jagged frontier zorgt voor een groeiende maatschappelijke spanning. Uit data van het Stanford-rapport blijkt dat 73 procent van de AI-experts positief is over de impact van AI op werk, terwijl slechts 23 procent van het publiek dat optimisme deelt.

De experts kijken naar de pieken — de 100 procent scores en de razendsnelle automatisering van code. Het publiek ervaart de dalen: de onbetrouwbaarheid, de hallucinaties en de angst dat hun baan verdwijnt door een technologie die ze niet volledig kunnen vertrouwen. Die angst is niet ongegrond: Stanford rapporteert dat de werkgelegenheid voor junior software-ontwikkelaars (22-25 jaar) sinds 2022 met bijna 20 procent is gedaald.

Voor de professional die AI-native wil werken, is de belangrijkste les: stop met blind vertrouwen op benchmarks. Een model dat 'beter is dan 99 procent van de mensen' in een test, kan in jouw specifieke workflow nog steeds op 40 procent zitten.

De vaardigheid van 2026 is niet het 'prompten', maar het herkennen van de grens. Je moet weten waar jouw werkterrein in een piek valt (verifieerbaar, gestructureerd) en waar het in een dal ligt (contextgevoelig, subjectief). De professional die de jagged frontier begrijpt, gebruikt AI niet als vervanger van zijn oordeelsvermogen, maar als een krachtige, zij het grillige, versneller. We weten nog steeds niet hoe slim AI werkelijk is, simpelweg omdat het antwoord elke dag — en voor elke taak — anders is.

Deel dit artikel

Nieuwsbrieven

Krijg het laatste van VandaagAI.nl direct in je inbox

Ontvang dagelijks een selectie met de belangrijkste verhalen direct in je inbox.


PRO

Coming soon. Het nieuws afgestemd op jouw werk en interesses.