Logo van TechCrunchLogo van Ars Technica

-Onderzoek

AI-modellen falen bij het oplossen van complexe programmeerproblemen

Populair
Copyright techcrunch
Foto: VandaagAI.nl

Nieuw onderzoek van Microsoft Research toont aan dat zelfs geavanceerde AI-modellen zoals Claude 3.7 Sonnet en OpenAI's o3-mini worstelen met het debuggen van software, ondanks grootse beloftes van techbedrijven.

In het kort:

Microsoft's studie onthult de beperkingen van AI in softwareontwikkeling. Het beste model slaagde er slechts in 48,4% van de debugging-taken succesvol af te ronden.

  • Claude 3.7 Sonnet presteerde het best met 48,4% succes, gevolgd door OpenAI's o1 (30,2%) en o3-mini (22,1%).
  • De modellen hadden moeite met het effectief gebruiken van debugging-tools en het begrijpen van verschillende probleemoplossende strategieën.
  • Onderzoekers wijten de tegenvallende resultaten vooral aan een gebrek aan gespecialiseerde trainingsdata.

Het grote plaatje:

De resultaten temperen de verwachtingen rond AI-gedreven softwareontwikkeling, ondanks dat grote techbedrijven als Google en Meta steeds meer inzetten op AI-gegenereerde code.

  • Google claimt dat 25% van nieuwe code door AI wordt gegenereerd.
  • Bestaande studies tonen aan dat AI-gegenereerde code vaak beveiligingsproblemen en fouten bevat.
  • Toonaangevende tech-leiders, waaronder Bill Gates en IBM's CEO, benadrukken dat programmeurs voorlopig onmisbaar blijven.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Bekijk ook