Onderzoek: OpenAI trainde GPT-4 op ongelicentieerde O'Reilly-boeken

In het kort:

Een onderzoek door AI Disclosures Project onthult dat OpenAI's GPT-4o model opvallend veel kennis bevat van O'Reilly's betaalde boeken, zonder dat daar een licentieovereenkomst voor bestaat.

Het onderzoek gebruikte DE-COP, een methode om auteursrechtelijk beschermde content in AI-trainingsdata op te sporen.
De tests werden uitgevoerd op bijna 14.000 tekstfragmenten uit 34 O'Reilly-boeken.
GPT-4o toonde significant meer herkenning van betaalde content dan eerdere modellen zoals GPT-3.5.

De andere kant:

De onderzoekers erkennen dat hun methode niet onfeilbaar is. OpenAI zou de content bijvoorbeeld via gebruikers van ChatGPT verzameld kunnen hebben.

Het onderzoek testte niet de nieuwste modellen zoals GPT-4.5 en o3-mini.
OpenAI heeft wel degelijk licentieovereenkomsten met verschillende uitgevers en mediabedrijven.
Het bedrijf biedt ook opt-out mogelijkheden aan voor rechthebbenden die hun content willen beschermen.

Het grote plaatje:

Deze onthulling komt op een gevoelig moment voor OpenAI, dat al verschillende rechtszaken heeft lopen over hun gebruik van auteursrechtelijk beschermde trainingsdata. Het onderstreept de groeiende spanning tussen AI-bedrijven en contentmakers over het gebruik van beschermde content.

Onderzoek: OpenAI trainde GPT-4 op ongelicentieerde O'Reilly-boeken

Een nieuwe paper van AI Disclosures Project beschuldigt OpenAI ervan dat het zonder toestemming gebruik maakte van betaalde O'Reilly-boeken om GPT-4 te trainen, wat juridische en ethische vragen oproept.

In het kort:

De andere kant:

Het grote plaatje:

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Meer mens & impact

OpenAI's nieuwe veiligheidssysteem moet biologische dreigingen voorkomen

OpenAI heeft een nieuw monitoringssysteem geïmplementeerd dat zijn nieuwste AI-modellen, o3 en o4-mini, controleert op prompts die gerelateerd zijn aan biologische en chemische dreigingen.

OpenAI eist ID-verificatie na ontdekking van model-imitatie

Onderzoek toont aan dat het Chinese DeepSeek-R1 voor 74% overeenkomt met OpenAI's schrijfstijl, wat wijst op mogelijk ongeoorloofd gebruik van OpenAI's technologie voor training.