In het kort:
Microsoft's studie onthult de beperkingen van AI in softwareontwikkeling. Het beste model slaagde er slechts in 48,4% van de debugging-taken succesvol af te ronden.
- Claude 3.7 Sonnet presteerde het best met 48,4% succes, gevolgd door OpenAI's o1 (30,2%) en o3-mini (22,1%).
- De modellen hadden moeite met het effectief gebruiken van debugging-tools en het begrijpen van verschillende probleemoplossende strategieën.
- Onderzoekers wijten de tegenvallende resultaten vooral aan een gebrek aan gespecialiseerde trainingsdata.
Het grote plaatje:
De resultaten temperen de verwachtingen rond AI-gedreven softwareontwikkeling, ondanks dat grote techbedrijven als Google en Meta steeds meer inzetten op AI-gegenereerde code.
- Google claimt dat 25% van nieuwe code door AI wordt gegenereerd.
- Bestaande studies tonen aan dat AI-gegenereerde code vaak beveiligingsproblemen en fouten bevat.
- Toonaangevende tech-leiders, waaronder Bill Gates en IBM's CEO, benadrukken dat programmeurs voorlopig onmisbaar blijven.