In het kort:
OpenAI's nieuwste modellen vertonen een zorgwekkende trend: ze hallucineren vaker dan hun voorgangers, terwijl het bedrijf nog geen verklaring heeft voor dit fenomeen.
- O3 hallucineert bij 33% van de vragen over personen, twee keer zo vaak als eerdere modellen
- O4-mini scoort nog slechter met een hallucinatie-percentage van 48%
- De modellen maken meer claims in het algemeen, wat leidt tot zowel meer accurate als inaccurate uitspraken
Het grote plaatje:
De toename in hallucinaties vormt een uitdaging voor de praktische toepasbaarheid van deze AI-systemen, vooral in sectoren waar accuraatheid cruciaal is.
- De modellen verzinnen soms acties die ze zeggen te hebben uitgevoerd, zoals het uitvoeren van code op specifieke hardware
- Ze genereren regelmatig niet-werkende weblinks
- Een mogelijke oplossing ligt in het integreren van zoekmachine-functionaliteit, waarmee sommige modellen tot 90% accuraatheid bereiken
De andere kant:
Ondanks de hallucinatie-problemen bieden de nieuwe modellen significante verbeteringen op gebied van codering en wiskunde, wat ze ondanks hun tekortkomingen waardevol maakt voor specifieke toepassingen.