In het kort:
S2 zet een belangrijke stap voorwaarts in het automatiseren van computertaken door grote taalmodellen te combineren met gespecialiseerde modellen voor specifieke taken.
- Het systeem overtreft bestaande oplossingen met een slagingspercentage van 34,5% op complexe computertaken en 50% op smartphone-gerelateerde taken.
- De agent gebruikt een extern geheugen om te leren van eerdere acties en feedback.
- Hoewel indrukwekkend, blijft de technologie ver achter bij menselijke prestaties van 72% op dezelfde taken.
Het grote plaatje:
De hybride aanpak van Simular AI laat zien dat de toekomst van AI-agenten mogelijk ligt in het combineren van verschillende gespecialiseerde modellen, in plaats van te vertrouwen op één groot model.
- GPT-4 en Claude worden ingezet voor redenering en planning.
- Kleinere, opensource modellen nemen specifieke taken over zoals het interpreteren van gebruikersinterfaces.
- Deze aanpak lost belangrijke beperkingen op van grote taalmodellen bij visuele taken.
De andere kant:
Een interessante ontwikkeling is de mens-AI samenwerking via tools zoals CowPilot, waarbij menselijke interventie de effectiviteit drastisch verhoogt tot 95% succesvolle taakuitvoering, terwijl slechts 15% menselijke input nodig is.