A Consanguinidade Digital Pode Provocar o Colapso dos Sistemas de IA

A Consanguinidade Digital Pode Provocar o Colapso dos Sistemas de IA

Crédito: Pixabay

Os profetas da inteligência artificial (IA) e os jornalistas estão a prever o fim da moda da IA generativa, falando de um iminente e catastrófico “colapso do modelo”.

Mas até que ponto são realistas estas previsões? E, afinal, o que é o colapso do modelo?

O “colapso do modelo”, um conceito debatido em 2023 mas que ganhou mais atenção recentemente, descreve uma situação hipotética em que os sistemas de IA se tornam cada vez menos eficazes à medida que a quantidade de dados gerados por IA na Internet aumenta.

Os sistemas modernos de IA baseiam-se na aprendizagem automática, em que os programadores estabelecem o quadro matemático, mas a “inteligência” provém do treino do sistema para reconhecer padrões nos dados.

No entanto, estes sistemas de IA generativa requerem grandes quantidades de dados de alta qualidade. Grandes empresas tecnológicas como a OpenAI, a Google, a Meta e a Nvidia recolhem continuamente terabytes de conteúdo da Internet para treinar os seus modelos. Desde a ascensão da IA generativa em 2022, tem-se registado um aumento do conteúdo gerado por IA online.

Explorar dados gerados por IA para modelos de treino

Em 2023, os investigadores começaram a explorar a possibilidade de utilizar apenas os dados gerados pela IA para treino, em vez de dependerem de dados gerados por humanos. Esta abordagem tem vantagens significativas: O conteúdo criado pela IA é mais barato e menos problemático de recolher em comparação com os dados humanos.

No entanto, os investigadores descobriram que treinar a IA apenas com dados gerados pela IA conduz a uma diminuição do desempenho. À medida que cada modelo aprende com os anteriores, resulta num efeito de “treino regurgitativo”, reduzindo tanto a qualidade como a diversidade dos resultados da IA. Por qualidade entende-se a utilidade, a segurança e a honestidade da IA, enquanto a diversidade se refere à gama de respostas e à representação de diferentes perspectivas culturais e sociais.

Em resumo, a utilização excessiva de sistemas de IA pode estar a contaminar as fontes de dados essenciais para a sua eficácia.

A grande tecnologia pode simplesmente filtrar os conteúdos gerados pela IA? Nem por isso. As empresas tecnológicas já investem muito tempo e recursos na limpeza e filtragem dos dados que recolhem, sendo que algumas descartam até 90% dos dados iniciais utilizados para treinar modelos.

À medida que a necessidade de excluir conteúdos gerados por IA aumenta, estes esforços tornar-se-ão ainda mais difíceis. Além disso, distinguir o conteúdo gerado pela IA tornar-se-á cada vez mais difícil ao longo do tempo, tornando o processo de filtragem de dados sintéticos menos viável do ponto de vista financeiro.

Em última análise, a investigação indica que os dados humanos continuam a ser essenciais, uma vez que são a base da “inteligência” da IA.

Desafios na aquisição de dados de alta qualidade

Há sinais de que os programadores estão a lutar cada vez mais para obter dados de alta qualidade. Por exemplo, a documentação para o lançamento do GPT-4 assinalou um número invulgarmente elevado de pessoal dedicado a lidar com aspectos do projeto relacionados com dados.

Também podemos estar a ficar sem novos dados gerados por humanos, com algumas estimativas a sugerir que o fornecimento pode esgotar-se até 2026.

Isto pode explicar a razão pela qual a OpenAI e outras empresas estão a formar parcerias exclusivas com grandes empresas como a Shutterstock, a Associated Press e a NewsCorp, que possuem extensas colecções de dados humanos proprietários não disponíveis na Internet pública.

No entanto, o risco de um colapso catastrófico do modelo pode ser exagerado. A maior parte da investigação centra-se em cenários em que os dados sintéticos substituem completamente os dados humanos, mas, na realidade, é provável que os dados humanos e os dados gerados por IA cresçam lado a lado, atenuando o risco de colapso.

Um cenário futuro mais provável envolve uma gama diversificada de plataformas de IA geradoras que criam e publicam conteúdos, em vez de um único modelo dominante. Esta diversidade aumenta a resiliência contra o colapso.

Este facto sublinha a importância de as entidades reguladoras promoverem uma concorrência saudável, travando os monopólios no sector da IA e apoiando o desenvolvimento de tecnologias de interesse público.

Há também perigos mais subtis associados a uma superabundância de conteúdos gerados por IA.

Um excesso de conteúdos sintéticos pode não pôr em perigo o progresso do desenvolvimento da IA, mas ameaça o bem público digital da Internet humana.

Impacto da assistência da IA

Por exemplo, os investigadores observaram um declínio de 16% na atividade do site de codificação StackOverflow um ano após o lançamento do ChatGPT, o que sugere que a assistência da IA pode estar a diminuir as interações diretas em algumas comunidades online.

O aumento de conteúdos gerados por IA torna difícil encontrar material que não seja clickbait

Está a tornar-se cada vez mais difícil distinguir o conteúdo gerado por humanos do conteúdo gerado por IA. Uma solução poderia ser a marca de água ou a rotulagem do conteúdo gerado por IA, um conceito recentemente apoiado pela legislação provisória do governo australiano e discutido por muitos especialistas.

Além disso, a crescente uniformidade dos conteúdos gerados por IA corre o risco de diminuir a diversidade sociocultural, conduzindo potencialmente ao apagamento cultural de alguns grupos. Há uma necessidade urgente de investigação interdisciplinar para abordar as implicações sociais e culturais dos sistemas de IA.

A proteção das interações e dos dados humanos é crucial, tanto para o nosso próprio bem-estar como para mitigar potencialmente o risco de um futuro colapso do modelo.


Leia o Artigo Original: Science Alert

Leia mais: As Imagens de Inteligência Artificial Tendem a Exagerar os Estereótipos

Share this post