16 april 2025 -Mens & Impact

OpenAI's nieuwe veiligheidssysteem moet biologische dreigingen voorkomen

Foto: VandaagAI.nl

OpenAI heeft een nieuw monitoringssysteem geïmplementeerd dat zijn nieuwste AI-modellen, o3 en o4-mini, controleert op prompts die gerelateerd zijn aan biologische en chemische dreigingen.

In het kort:

Het nieuwe veiligheidssysteem is een directe reactie op de toegenomen capaciteiten van OpenAI's nieuwste modellen. De monitor is specifiek getraind om risicovolle prompts te herkennen en te blokkeren.

Tijdens tests blokkeerde het systeem 98,7% van de risicovolle prompts succesvol
Red teamers besteedden 1.000 uur aan het markeren van onveilige bio-gerelateerde gesprekken
De nieuwe modellen tonen verhoogde capaciteiten bij het beantwoorden van vragen over biologische wapens

De andere kant:

Onderzoekers uiten hun zorgen over OpenAI's veiligheidsprioriteiten. Het bedrijf gaf testpartner Metr beperkte tijd voor het testen van o3, en er verscheen geen veiligheidsrapport bij de lancering van GPT-4.1.

Vooruitkijkend:

OpenAI erkent dat het systeem niet volledig waterdicht is tegen gebruikers die nieuwe prompts proberen na een blokkade. Het bedrijf blijft daarom vertrouwen op een combinatie van geautomatiseerde systemen en menselijke monitoring om risico's te beheersen.

Bronnen

VANDAAG

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Bekijk ook

OpenAI eist ID-verificatie na ontdekking van model-imitatie

16 april 2025

Copyright businessinsider — Foto: VandaagAI.nl

Onderzoek toont aan dat het Chinese DeepSeek-R1 voor 74% overeenkomt met OpenAI's schrijfstijl, wat wijst op mogelijk ongeoorloofd gebruik van OpenAI's technologie voor training.

Bouwbedrijf Shawmut zet AI in voor revolutionaire veiligheidsaanpak

15 april 2025

Impact

Het Amerikaanse bouwbedrijf Shawmut Design and Construction gebruikt AI om de veiligheid van 30.000 medewerkers te waarborgen. De technologie analyseert risico's en voorspelt incidenten op meer dan 150 bouwlocaties.