In het kort:
Het nieuwe veiligheidssysteem is een directe reactie op de toegenomen capaciteiten van OpenAI's nieuwste modellen. De monitor is specifiek getraind om risicovolle prompts te herkennen en te blokkeren.
- Tijdens tests blokkeerde het systeem 98,7% van de risicovolle prompts succesvol
- Red teamers besteedden 1.000 uur aan het markeren van onveilige bio-gerelateerde gesprekken
- De nieuwe modellen tonen verhoogde capaciteiten bij het beantwoorden van vragen over biologische wapens
De andere kant:
Onderzoekers uiten hun zorgen over OpenAI's veiligheidsprioriteiten. Het bedrijf gaf testpartner Metr beperkte tijd voor het testen van o3, en er verscheen geen veiligheidsrapport bij de lancering van GPT-4.1.
Vooruitkijkend:
OpenAI erkent dat het systeem niet volledig waterdicht is tegen gebruikers die nieuwe prompts proberen na een blokkade. Het bedrijf blijft daarom vertrouwen op een combinatie van geautomatiseerde systemen en menselijke monitoring om risico's te beheersen.