Logo van TechCrunchLogo van TweakersLogo van VandaagAI.nl

-Mens & Impact

Wikimedia worstelt met explosieve groei AI-scraping van mediabestanden

Populair
Copyright techcrunch
Foto: VandaagAI.nl

De Wikimedia Foundation ziet een zorgwekkende stijging van 50% in bandbreedte voor mediadownloads sinds januari 2024, niet door menselijke bezoekers maar door AI-scrapers die content verzamelen voor modeltraining.

In het kort:

De ongekende toename van geautomatiseerd verkeer zorgt voor grote uitdagingen bij Wikimedia Commons, de vrij toegankelijke mediabibliotheek van de Wikipedia-familie.

  • Bots zijn verantwoordelijk voor 65% van het meest resource-intensieve verkeer
  • Slechts 35% van de totale pageviews komt van deze bots
  • Het blokkeren van crawlers kost het team steeds meer tijd en middelen

Het grote plaatje:

Deze ontwikkeling past in een zorgelijke trend die de toekomst van het open internet bedreigt. AI-crawlers negeren steeds vaker de 'robots.txt' bestanden die automatisch verkeer moeten reguleren.

  • Cloudflare lanceerde AI Labyrinth om crawlers te vertragen met AI-gegenereerde content
  • Ontwikkelaars zoeken naar manieren om zich te verdedigen tegen ongewenste scraping
  • De situatie zou kunnen leiden tot meer websites achter logins en betaalmuren

De andere kant:

De infrastructuur van Wikimedia is gebouwd voor menselijke verkeerspieken, maar botverkeer volgt een ander patroon. Waar mensen populaire pagina's bezoeken die in cache blijven, zoeken bots juist naar minder bezochte content die duurder is om te serveren.

Bronnen

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer mens & impact