Documentos Divulgados Revelam o Sistema de Censura da China Movido a Inteligência Artificial

By Jorge Paka Inteligência Artificial China, Documentos, Inteligência Artificial, Sistema de Censura Comentários desativados

Créditos da imagem: Anton Petrus / Getty Images

Uma queixa sobre a pobreza rural, uma notícia sobre um funcionário corrupto do Partido Comunista ou um pedido de ajuda contra a extorsão pela polícia – estes são apenas alguns dos 133.000 exemplos utilizados para treinar um poderoso sistema de IA concebido para detetar automaticamente conteúdos considerados sensíveis pelo governo chinês.

Dados divulgados expõem a expansão do sistema de censura da China baseado em IA

Uma base de dados divulgada obtida pelo TechCrunch revela que a China desenvolveu um sistema de censura baseado em IA que reforça as suas já extensas capacidades de monitorização, indo muito além das tradicionais linhas vermelhas como o massacre da Praça Tiananmen.

Embora o objetivo principal seja o controlo do discurso online na China, o sistema também pode ser utilizado para aperfeiçoar a censura nos modelos de IA chineses.

Esta fotografia, tirada a 4 de junho de 2019, mostra a bandeira chinesa por detrás de arame farpado num complexo habitacional em Yengisar, a sul de Kashgar, na região ocidental de Xinjiang, na China. Créditos da imagem: Greg Baker / AFP / Getty Images

Conjunto de dados que vazou mostra que a China está usando IA para fortalecer a repressão, diz especialista

Xiao Qiang, pesquisador da UC Berkeley especializado em censura chinesa, disse ao TechCrunch que o conjunto de dados vazado fornece “evidências claras” de que o governo chinês ou suas afiliadas pretendem usar modelos de linguagem grande (LLMs) para aumentar a repressão.

“Ao contrário dos métodos tradicionais de censura, que dependem do trabalho humano para a filtragem de palavras-chave e a revisão manual, um LLM treinado em tais dados melhoraria drasticamente a eficiência e a precisão do controlo estatal da informação”, explicou Qiang.

Isto alinha-se com as provas crescentes de que os regimes autoritários estão a adotar rapidamente tecnologias avançadas de IA. Em fevereiro, por exemplo, a OpenAI informou que várias entidades chinesas tinham usado LLMs para monitorizar publicações antigovernamentais e desacreditar dissidentes.

Em resposta, a Embaixada da China em Washington, D.C., disse ao TechCrunch que se opõe a “ataques infundados e calúnias contra a China” e enfatizou seu compromisso com o desenvolvimento ético da IA.

O pesquisador de segurança NetAskari descobriu o conjunto de dados e compartilhou uma amostra com o TechCrunch depois de encontrá-lo em um banco de dados Elasticsearch não seguro hospedado em um servidor Baidu.

Isso não sugere nenhum envolvimento direto de nenhuma das empresas, pois várias organizações usam esses provedores para armazenamento de dados.

O criador exato do conjunto de dados permanece desconhecido, mas os registos indicam que é recente, com as entradas mais recentes a datarem de dezembro de 2024.

Um LLM não identificado tem a tarefa de sinalizar conteúdo político, social ou militarmente sensível como “prioridade máxima”.

A censura da IA visa a poluição, fraude, disputas laborais e sátira política

Os principais alvos incluem escândalos de poluição, fraude financeira, disputas laborais e sátira política – especialmente analogias históricas sobre os líderes actuais ou menções à “política de Taiwan”. Os relatórios militares sobre movimentos de tropas e armamento também são monitorizados de perto.

Os trechos de conjuntos de dados fazem referência a tokens de prompt e LLMs, confirmando a censura conduzida por IA.

Créditos da imagem: Charles roller

O TechCrunch analisou 10 amostras das 133.000 assinaladas para censura.

Muitos abordam questões sensíveis, como a corrupção policial, a pobreza rural e um funcionário do PCC expulso por crenças “supersticiosas” sobre o marxismo.

Taiwan e tópicos militares são fortemente monitorizados, com “Taiwan” a aparecer mais de 15.000 vezes no conjunto de dados.

Mesmo as dissidências subtis são assinaladas, incluindo uma expressão idiomática sobre a natureza fugaz do poder – um tema especialmente sensível no sistema autoritário da China.

O conjunto de dados carece de detalhes sobre seus criadores, mas afirma que se destina a “trabalho de opinião pública”, um forte indicador de seu alinhamento com os objetivos do governo chinês, disse um especialista ao TechCrunch.

CAC da China usa IA para fortalecer a censura sob ‘trabalho de opinião pública’

Michael Caster, gerente de programa da Ásia no grupo de direitos Artigo 19, observou que o “trabalho de opinião pública” está sob a Administração do Ciberespaço da China (CAC), que supervisiona a censura e a propaganda.

O objetivo final é salvaguardar as narrativas do governo chinês online e eliminar a dissidência. O Presidente Xi Jinping chegou mesmo a chamar à Internet a “linha da frente” do “trabalho de opinião pública” do PCC.

A análise do conjunto de dados do TechCrunch adiciona evidências crescentes de que regimes autoritários estão aproveitando a IA para repressão.

No mês passado, a OpenAI relatou que uma entidade não identificada, provavelmente com sede na China, usou IA generativa para rastrear discussões nas redes sociais – especialmente aquelas que apoiam protestos de direitos humanos contra a China – e retransmitir as informações às autoridades.

A OpenAI também descobriu que a IA estava a ser utilizada para gerar comentários críticos sobre o proeminente dissidente chinês Cai Xia.

A censura da China depende tradicionalmente de algoritmos básicos que bloqueiam termos da lista negra como “massacre de Tiananmen” ou “Xi Jinping”, como muitos utilizadores notaram ao testar o DeepSeek.

No entanto, os LLM podem melhorar a censura detectando críticas subtis em grande escala. Alguns modelos de IA podem até mesmo refinar suas capacidades à medida que processam mais dados.

“Essa mudança em direção à censura impulsionada por IA está tornando o controle estatal sobre o discurso público mais sofisticado, especialmente à medida que modelos chineses como o DeepSeek ganham força”, disse Xiao, o pesquisador de Berkeley, ao TechCrunch.

Leia o Artigo Original: TechCrunch

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Documentos Divulgados Revelam o Sistema de Censura da China Movido a Inteligência Artificial