Logo van Ars Technica

-Onderzoek

Google's CaMeL biedt doorbraak in strijd tegen AI-manipulatie

Copyright arstechnica
Foto: VandaagAI.nl

Google DeepMind introduceert een revolutionaire aanpak om prompt-injectie aanvallen tegen te gaan, door AI-modellen als onbetrouwbare componenten te behandelen binnen een veilig softwareraamwerk.

In het kort:

CaMeL is de eerste geloofwaardige oplossing voor prompt-injectie die niet meer AI gebruikt, maar vertrouwt op bewezen beveiligingsprincipes uit de software-engineering.

  • Het systeem splitst taken tussen twee taalmodellen: één voor planning en één voor het verwerken van data
  • De architectuur behandelt AI-modellen als fundamenteel onbetrouwbaar, in tegenstelling tot eerdere benaderingen
  • Het systeem gebruikt een speciaal Python-framework om datastromen te monitoren en te controleren

Het grote plaatje:

De impact van prompt-injectie is geëvolueerd van hypothetisch naar existentieel nu AI-assistenten emails versturen, geld verplaatsen en afspraken plannen. CaMeL's architectuur voorkomt dat kwaadwillende instructies in content het gedrag van AI kunnen beïnvloeden.

  • Het planningsmodel (P-LLM) ziet nooit de inhoud van emails of documenten
  • Een geïsoleerd model (Q-LLM) verwerkt data zonder toegang tot systeemacties
  • Het systeem volgt het principe van minimale rechten uit de computerbeveiliging

De andere kant:

Hoewel veelbelovend, vereist CaMeL dat gebruikers beveiligingsbeleid specificeren en onderhouden. Dit kan leiden tot 'beveiligingsmoeheid' waarbij gebruikers automatisch alles goedkeuren.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer onderzoek