AI-modellen falen bij het oplossen van complexe programmeerproblemen

In het kort:

Microsoft's studie onthult de beperkingen van AI in softwareontwikkeling. Het beste model slaagde er slechts in 48,4% van de debugging-taken succesvol af te ronden.

Claude 3.7 Sonnet presteerde het best met 48,4% succes, gevolgd door OpenAI's o1 (30,2%) en o3-mini (22,1%).
De modellen hadden moeite met het effectief gebruiken van debugging-tools en het begrijpen van verschillende probleemoplossende strategieën.
Onderzoekers wijten de tegenvallende resultaten vooral aan een gebrek aan gespecialiseerde trainingsdata.

Het grote plaatje:

De resultaten temperen de verwachtingen rond AI-gedreven softwareontwikkeling, ondanks dat grote techbedrijven als Google en Meta steeds meer inzetten op AI-gegenereerde code.

Google claimt dat 25% van nieuwe code door AI wordt gegenereerd.
Bestaande studies tonen aan dat AI-gegenereerde code vaak beveiligingsproblemen en fouten bevat.
Toonaangevende tech-leiders, waaronder Bill Gates en IBM's CEO, benadrukken dat programmeurs voorlopig onmisbaar blijven.

AI-modellen falen bij het oplossen van complexe programmeerproblemen

Nieuw onderzoek van Microsoft Research toont aan dat zelfs geavanceerde AI-modellen zoals Claude 3.7 Sonnet en OpenAI's o3-mini worstelen met het debuggen van software, ondanks grootse beloftes van techbedrijven.

In het kort:

Het grote plaatje:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Bekijk ook

AI vertoont verrassend menselijke denkfouten in baanbrekend onderzoek

Wetenschappers ontdekken dat ChatGPT bij psychologische tests opvallend vaak dezelfde denkfouten maakt als mensen, vooral bij het inschatten van risico's en beslissen onder onzekerheid.