Veículos de mídia vetam Internet Archive contra bots de IA - 13/03/2026 - Economia

A cruzada global de produtores de conteúdo a fim de impedir que robôs de inteligência artificial se apropriem de suas publicações —muitas vezes sem pagar por isso— pode deixar uma vítima inesperada no fogo cruzado: o site Wayback Machine, mantido pela organização sem fins lucrativos Internet Archive, que há 30 anos arquiva cópias digitais do que é publicado na rede.

Os chamados “crawlers” de IA são bots que raspam o conteúdo dos sites para o treinamento de modelos de linguagem. Essa prática, que está na origem de serviços como o ChatGPT, é motivo de diversos processos judiciais pelo mundo —como o que o jornal americano The New York Times move contra a OpenAI.

Robôs são comuns na internet e servem a várias funções, nem sempre maliciosas; mas, desde o surgimento dos grandes modelos de linguagem, eles são tema de controvérsia. Afinal, está claro o potencial de serviços como o ChatGPT para substituir mecanismos de busca, criando uma ameaça ao modelo de negócios das empresas de mídia.

“As empresas de tecnologia utilizam as reportagens, análises, os dados produzidos nas redações, muitas vezes com alto custo, para treinar esses modelos que depois oferecem respostas diretamente aos usuários”, diz Samira de Castro, presidente da Fenaj (Federação Nacional dos Jornalistas).

“Sem o acesso ao tráfego, à publicidade ou às assinaturas, os veículos correm o risco de ver o seu conteúdo gerar valor para terceiros sem qualquer retorno financeiro.”

Empresas de mídia pelo mundo já vêm tomando medidas para bloquear os bots de IA. Mas, agora, o Internet Archive passou a ser visto também como um risco —afinal, os robôs poderiam usar o arquivo do Wayback Machine, uma espécie de máquina do tempo de sites da internet, como uma forma de contornar as restrições que enfrentam nos sites oficiais de cada veículo.

Esse arquivo da plataforma, aliás, também é construído com a ajuda de robôs que buscam cópias do que é publicado em cada site.

O jornal britânico The Guardian, por exemplo, já anunciou que bloqueou o acesso de robôs do Internet Archive às suas páginas. O veículo, aliás, foi mais longe: tomou medidas para retirar seu conteúdo da API da plataforma e do Wayback Machine, só permitindo cópias de sua home e páginas internas, não de artigos. Jornais como o Financial Times e o próprio The New York Times, entre outros, também adotam medidas semelhantes.

Em agosto do ano passado, o Reddit também determinou o bloqueio dos bots do Internet Archive, que tem em seus registros cópias de perfis, comentários e fóruns da rede social. Um tipo de conteúdo, diga-se, que a plataforma tenta licenciar —como em um acordo recente que fez com o Google.

Parcerias de licenciamento de conteúdo, aliás, já se espalharam pela indústria como forma de evitar novos litígios. Por exemplo, a Meta tem acordo com CNN; a OpenAI, com The Washington Post; e o Google se juntou à Associated Press.

Nascido ainda nos anos 1990, o Internet Archive se propunha a resolver uma questão trazida pela nova tecnologia: a preservação do conteúdo digital. As bibliotecas tradicionais, por exemplo, conseguiam armazenar por séculos livros, periódicos e documentos; já no ambiente digital, ficou mais comum as publicações se perderem para sempre.

Dessa forma, o Wayback Machine se tornou uma ferramenta de pesquisa não só na mão de historiadores e outros especialistas, mas também para investigações jornalísticas. O site é um fruto da época da internet aberta, cujos defensores pregavam que o conhecimento digital deveria estar acessível como parte de um patrimônio cultural coletivo.

“O Internet Archive deu uma espécie de permanência para conteúdos que nasceram digitais. Eles parecem permanentes, mas na verdade são efêmeros”, diz Diogo Cortiz, professor da PUC-SP. “Era a época em que as pessoas estavam começando a criar seus sites e blogs, que rapidamente saíam do ar. Acho que foi um projeto bem-sucedido, que hoje tem uma abrangência bastante ampla.”

Há diversas evidências, contudo, de que o Wayback Machine foi usado por empresas de IA para treinar modelos de linguagem. No começo da atual onda dessa tecnologia, era comum as companhias deixarem claro em relatórios técnicos públicos quais bases de dados utilizaram —é assim que é possível saber, por exemplo, que recorreram a cópias piratas de livros, inclusive de autores brasileiros.

Uma investigação do The Washington Post em 2023 mostrou que o Wayback Machine estava entre os milhões de sites usados pelo Google e pela Meta para desenvolver modelos. Em uma das bases de dados, com 15 milhões de domínios, o arquivo da internet aparecia na posição 187 como o mais presente.

Em um post numa rede social, o fundador do Internet Archive, Brewster Kahle, disse que a organização toma medidas para se proteger, como impedir o download em massa de algumas coleções digitais —algo essencial para o treinamento de IA. Críticos apontam, contudo, que o projeto não bloqueia os bots das principais empresas de tecnologia.

Mesmo diante da disputa entre produtores de informação e empresas de IA, a preservação do conteúdo digital continua uma questão relevante.

“O Internet Archive sempre cumpriu um papel fundamental de preservação da memória digital para jornalistas, pesquisadores e historiadores”, diz Samira de Castro, da Fenaj.

“Então, limitar esse acesso pode enfraquecer a preservação do registro histórico na internet. A longo prazo, o caminho mais equilibrado provavelmente passa por novos marcos regulatórios e modelos de licenciamento que possam remunerar o jornalismo sem comprometer iniciativas legítimas de preservação da memória web.”

Autor Original

Veículos de mídia vetam Internet Archive contra bots de IA – 13/03/2026 – Economia

Casa Branca posta vídeo e promove ataques contra o Irã – 13/03/2026 – Você viu?

You may also like

Leave a Comment Cancel Reply