Logo van TechCrunchLogo van VandaagAI.nl

-Onderzoek

OpenAI's nieuwste modellen kampen met toenemend hallucinatieprobleem

Copyright techcrunch
Foto: VandaagAI.nl

De nieuwe o3 en o4-mini AI-modellen van OpenAI presteren technisch beter dan ooit, maar worstelen opvallend genoeg met een toegenomen neiging tot het verzinnen van informatie.

In het kort:

OpenAI's nieuwste modellen vertonen een zorgwekkende trend: ze hallucineren vaker dan hun voorgangers, terwijl het bedrijf nog geen verklaring heeft voor dit fenomeen.

  • O3 hallucineert bij 33% van de vragen over personen, twee keer zo vaak als eerdere modellen
  • O4-mini scoort nog slechter met een hallucinatie-percentage van 48%
  • De modellen maken meer claims in het algemeen, wat leidt tot zowel meer accurate als inaccurate uitspraken

Het grote plaatje:

De toename in hallucinaties vormt een uitdaging voor de praktische toepasbaarheid van deze AI-systemen, vooral in sectoren waar accuraatheid cruciaal is.

  • De modellen verzinnen soms acties die ze zeggen te hebben uitgevoerd, zoals het uitvoeren van code op specifieke hardware
  • Ze genereren regelmatig niet-werkende weblinks
  • Een mogelijke oplossing ligt in het integreren van zoekmachine-functionaliteit, waarmee sommige modellen tot 90% accuraatheid bereiken

De andere kant:

Ondanks de hallucinatie-problemen bieden de nieuwe modellen significante verbeteringen op gebied van codering en wiskunde, wat ze ondanks hun tekortkomingen waardevol maakt voor specifieke toepassingen.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer onderzoek