In het kort:
Een onderzoek door AI Disclosures Project onthult dat OpenAI's GPT-4o model opvallend veel kennis bevat van O'Reilly's betaalde boeken, zonder dat daar een licentieovereenkomst voor bestaat.
- Het onderzoek gebruikte DE-COP, een methode om auteursrechtelijk beschermde content in AI-trainingsdata op te sporen.
- De tests werden uitgevoerd op bijna 14.000 tekstfragmenten uit 34 O'Reilly-boeken.
- GPT-4o toonde significant meer herkenning van betaalde content dan eerdere modellen zoals GPT-3.5.
De andere kant:
De onderzoekers erkennen dat hun methode niet onfeilbaar is. OpenAI zou de content bijvoorbeeld via gebruikers van ChatGPT verzameld kunnen hebben.
- Het onderzoek testte niet de nieuwste modellen zoals GPT-4.5 en o3-mini.
- OpenAI heeft wel degelijk licentieovereenkomsten met verschillende uitgevers en mediabedrijven.
- Het bedrijf biedt ook opt-out mogelijkheden aan voor rechthebbenden die hun content willen beschermen.
Het grote plaatje:
Deze onthulling komt op een gevoelig moment voor OpenAI, dat al verschillende rechtszaken heeft lopen over hun gebruik van auteursrechtelijk beschermde trainingsdata. Het onderstreept de groeiende spanning tussen AI-bedrijven en contentmakers over het gebruik van beschermde content.