2 april 2025 -Mens & Impact

Wikimedia worstelt met explosieve groei AI-scraping van mediabestanden

Populair

Foto: VandaagAI.nl

De Wikimedia Foundation ziet een zorgwekkende stijging van 50% in bandbreedte voor mediadownloads sinds januari 2024, niet door menselijke bezoekers maar door AI-scrapers die content verzamelen voor modeltraining.

In het kort:

De ongekende toename van geautomatiseerd verkeer zorgt voor grote uitdagingen bij Wikimedia Commons, de vrij toegankelijke mediabibliotheek van de Wikipedia-familie.

Bots zijn verantwoordelijk voor 65% van het meest resource-intensieve verkeer
Slechts 35% van de totale pageviews komt van deze bots
Het blokkeren van crawlers kost het team steeds meer tijd en middelen

Het grote plaatje:

Deze ontwikkeling past in een zorgelijke trend die de toekomst van het open internet bedreigt. AI-crawlers negeren steeds vaker de 'robots.txt' bestanden die automatisch verkeer moeten reguleren.

Cloudflare lanceerde AI Labyrinth om crawlers te vertragen met AI-gegenereerde content
Ontwikkelaars zoeken naar manieren om zich te verdedigen tegen ongewenste scraping
De situatie zou kunnen leiden tot meer websites achter logins en betaalmuren

De andere kant:

De infrastructuur van Wikimedia is gebouwd voor menselijke verkeerspieken, maar botverkeer volgt een ander patroon. Waar mensen populaire pagina's bezoeken die in cache blijven, zoeken bots juist naar minder bezochte content die duurder is om te serveren.

Bronnen

VANDAAG

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.

Meer mens & impact

OpenAI's nieuwe veiligheidssysteem moet biologische dreigingen voorkomen

4 uur geleden -Mens & Impact

Copyright techcrunch — Foto: VandaagAI.nl

OpenAI heeft een nieuw monitoringssysteem geïmplementeerd dat zijn nieuwste AI-modellen, o3 en o4-mini, controleert op prompts die gerelateerd zijn aan biologische en chemische dreigingen.

OpenAI eist ID-verificatie na ontdekking van model-imitatie

5 uur geleden -Mens & Impact

Copyright businessinsider — Foto: VandaagAI.nl

Onderzoek toont aan dat het Chinese DeepSeek-R1 voor 74% overeenkomt met OpenAI's schrijfstijl, wat wijst op mogelijk ongeoorloofd gebruik van OpenAI's technologie voor training.