IA Aumenta em 50% o Uso de Banda do Wikimedia Commons

IA Aumenta em 50% o Uso de Banda do Wikimedia Commons

Créditos da imagem:Riccardo Milani / Hans Lucas / Hans Lucas via AFP / Getty Images

A Wikimedia Foundation, que supervisiona a Wikipédia e vários outros projetos de conhecimento de crowdsourcing, relatou na quarta-feira que a largura de banda de download de multimídia do Wikimedia Commons aumentou em 50% desde janeiro de 2024.

De acordo com uma postagem de blog publicada na terça-feira, esse aumento não é impulsionado por usuários humanos, mas por scrapers automatizados que coletam dados para treinar modelos de IA.

“Nossa infraestrutura é projetada para lidar com picos repentinos no tráfego humano durante grandes eventos, mas a escala de tráfego de robôs scrapers não tem precedentes, representando riscos e custos crescentes”, afirmou a postagem.

O Wikimedia Commons serve como um repositório de acesso aberto para imagens, vídeos e arquivos de áudio, todos disponíveis sob licenças abertas ou como conteúdo de domínio público.

Bots Direcionam a Maioria do Tráfego Pesado em Recursos na Wikimedia

A Wikimedia relata que quase dois terços (65%) de seu tráfego mais intensivo em recursos — conteúdo que requer mais poder de processamento para servir — vem de robôs. No entanto, esses robôs respondem por apenas 35% do total de visualizações de página. Esse desequilíbrio ocorre porque o conteúdo acessado com frequência permanece em cache mais próximo dos usuários, enquanto o conteúdo menos popular é armazenado no centro de dados principal, o que o torna mais caro para recuperar. Os bots geralmente têm como alvo esse conteúdo menos acessado, aumentando as demandas de recursos.

“Enquanto os leitores humanos tendem a se concentrar em tópicos específicos — geralmente semelhantes —, os bots rastreadores tendem a ‘ler em massa’ um número maior de páginas e visitar também as páginas menos populares”, explica a Wikimedia. “Isso significa que esses tipos de solicitações têm mais probabilidade de serem encaminhadas para o centro de dados principal, o que o torna muito mais caro em termos de consumo de nossos recursos.”

Como resultado, a equipe de confiabilidade do site da Wikimedia deve investir tempo e recursos significativos no bloqueio de rastreadores para evitar interrupções para usuários regulares — além dos crescentes custos de nuvem que a Fundação enfrenta.

Os Rastreadores de IA Intensificam as Ameaças à Internet Aberta

De forma mais ampla, isso destaca uma tendência preocupante que ameaça a Internet aberta. No mês passado, o engenheiro de software e defensor do código aberto Drew DeVault criticou os rastreadores de IA por desconsiderar os arquivos “robots.txt” destinados a bloquear o acesso automatizado. Da mesma forma, o escritor de tecnologia Gergely Orosz observou que os scrapers de IA de empresas como a Meta aumentaram significativamente as demandas de largura de banda para seus projetos.

A infraestrutura de código aberto é um alvo principal, mas os desenvolvedores estão reagindo com engenhosidade e determinação, como o TechCrunch relatou na semana passada. Algumas empresas de tecnologia também estão intervindo para resolver o problema — a Cloudflare, por exemplo, introduziu recentemente o AI Labyrinth, uma ferramenta que gera conteúdo criado por IA para atrapalhar os rastreadores da web.

Ainda assim, isso continua sendo um jogo constante de gato e rato, que pode eventualmente levar muitos editores a esconder seu conteúdo atrás de logins e paywalls — tornando a internet menos acessível para todos.


Leia o Artigo Original TechCrunch

Leia mais Investigadores Sugerem que a OpenAI Treinou os seus Modelos em Livros O’Reilly Pagos

Share this post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *