Logo van TechCrunchLogo van VandaagAI.nl

-Mens & Impact

Onderzoek: OpenAI trainde GPT-4 op ongelicentieerde O'Reilly-boeken

Populair
Copyright techcrunch
Foto: VandaagAI.nl

Een nieuwe paper van AI Disclosures Project beschuldigt OpenAI ervan dat het zonder toestemming gebruik maakte van betaalde O'Reilly-boeken om GPT-4 te trainen, wat juridische en ethische vragen oproept.

In het kort:

Een onderzoek door AI Disclosures Project onthult dat OpenAI's GPT-4o model opvallend veel kennis bevat van O'Reilly's betaalde boeken, zonder dat daar een licentieovereenkomst voor bestaat.

  • Het onderzoek gebruikte DE-COP, een methode om auteursrechtelijk beschermde content in AI-trainingsdata op te sporen.
  • De tests werden uitgevoerd op bijna 14.000 tekstfragmenten uit 34 O'Reilly-boeken.
  • GPT-4o toonde significant meer herkenning van betaalde content dan eerdere modellen zoals GPT-3.5.

De andere kant:

De onderzoekers erkennen dat hun methode niet onfeilbaar is. OpenAI zou de content bijvoorbeeld via gebruikers van ChatGPT verzameld kunnen hebben.

  • Het onderzoek testte niet de nieuwste modellen zoals GPT-4.5 en o3-mini.
  • OpenAI heeft wel degelijk licentieovereenkomsten met verschillende uitgevers en mediabedrijven.
  • Het bedrijf biedt ook opt-out mogelijkheden aan voor rechthebbenden die hun content willen beschermen.

Het grote plaatje:

Deze onthulling komt op een gevoelig moment voor OpenAI, dat al verschillende rechtszaken heeft lopen over hun gebruik van auteursrechtelijk beschermde trainingsdata. Het onderstreept de groeiende spanning tussen AI-bedrijven en contentmakers over het gebruik van beschermde content.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer mens & impact