Investigadores Sugerem que a OpenAI Treinou os seus Modelos em Livros O’Reilly Pagos

Investigadores Sugerem que a OpenAI Treinou os seus Modelos em Livros O’Reilly Pagos

Crédito: Jakub Porzycki/NurPhoto / Getty Images

A OpenAI tem sido alvo de várias acusações de utilização de conteúdos protegidos por direitos de autor sem autorização para treinar os seus modelos de IA. Um novo documento do AI Disclosures Project, uma organização que se dedica à transparência da IA, afirma seriamente que a OpenAI tem recorrido cada vez mais a livros não públicos e não licenciados para treinar os seus modelos avançados de IA.

Os modelos de IA funcionam como sofisticados motores de previsão, treinados com base em vastos conjuntos de dados, como livros, filmes e programas de televisão, para aprender padrões e gerar respostas com base em solicitações. Quando um modelo “escreve” um ensaio ou “desenha” uma imagem, está simplesmente a basear-se na sua extensa formação para fazer aproximações, em vez de criar algo totalmente novo.

Embora muitos laboratórios de IA, incluindo o OpenAI, tenham recorrido a dados gerados por IA para treinar modelos à medida que vão ficando sem dados do mundo real, poucos abandonaram completamente as fontes do mundo real. Treinar exclusivamente com dados sintéticos pode prejudicar o desempenho do modelo.

O Projeto AI Disclosures sugere que a OpenAI utilizou livros da O’Reilly com acesso pago para treinar o modelo GPT-4o

O Projeto AI Disclosures, uma organização sem fins lucrativos fundada pelo magnata dos media Tim O’Reilly e pelo economista Ilan Strauss, sugere no seu artigo que a OpenAI utilizou provavelmente livros da O’Reilly Media com acesso pago para treinar o seu modelo GPT-4o. A O’Reilly Media, liderada por Tim O’Reilly, não tem um acordo de licenciamento com a OpenAI, segundo o documento.

Os co-autores do artigo observaram que “o GPT-4o, o modelo mais avançado e capaz da OpenAI, mostra um forte reconhecimento do conteúdo dos livros da O’Reilly com acesso pago, especialmente quando comparado com o anterior modelo GPT-3.5 Turbo”. Eles acrescentaram: “Em contraste, o GPT-3.5 Turbo mostra maior reconhecimento de amostras de livros O’Reilly disponíveis publicamente.”

O artigo utilizou um método chamado DE-COP, introduzido pela primeira vez num estudo académico de 2024, que detecta conteúdo protegido por direitos de autor em dados de treino de modelos de linguagem. Este “ataque de inferência de associação” testa se um modelo pode distinguir entre textos de autoria humana e paráfrases geradas por IA do mesmo conteúdo. Se for bem sucedido, sugere que o modelo pode ter encontrado o texto durante o treino.

Co-autores analisam o conhecimento dos modelos OpenAI sobre os livros da O’Reilly Media

Os co-autores do artigo – O’Reilly, Strauss e o investigador de IA Sruly Rosenblat – examinaram o conhecimento do GPT-4o, GPT-3.5 Turbo e de outros modelos OpenAI sobre os livros da O’Reilly Media, antes e depois das datas de corte do treino. Utilizaram 13 962 excertos de parágrafos de 34 livros da O’Reilly para estimar a probabilidade de um excerto específico ter sido incluído nos dados de formação.

Os resultados mostraram que o GPT-4o reconheceu muito mais conteúdo de livros da O’Reilly com acesso pago em comparação com modelos mais antigos, particularmente o GPT-3.5 Turbo. Isto era verdade mesmo quando se consideravam factores potenciais como a capacidade melhorada dos modelos mais recentes para identificar texto de autoria humana.

Os co-autores concluíram que “o GPT-4o provavelmente reconhece e, portanto, tem conhecimento prévio de muitos livros não públicos da O’Reilly publicados antes da data de corte do treinamento”.

Os co-autores são rápidos a esclarecer que as suas descobertas não são provas definitivas. Eles reconhecem que seu método experimental não é infalível e que o OpenAI poderia ter coletado trechos de livros com acesso pago de usuários copiando e colando-os no ChatGPT.

Os co-autores não avaliaram os modelos mais recentes da OpenAI

Para complicar ainda mais a situação, os co-autores não avaliaram os modelos mais recentes da OpenAI, incluindo o GPT-4.5 e modelos de “raciocínio” como o3-mini e o1. É possível que estes modelos mais recentes não tenham sido treinados em livros da O’Reilly com acesso pago, ou que tenham sido treinados numa porção mais pequena desses dados em comparação com o GPT-4o.

Dito isto, é sabido que a OpenAI tem procurado ativamente dados de treino de maior qualidade, defendendo menos restrições à utilização de conteúdos protegidos por direitos de autor. A empresa até contratou jornalistas para ajudar a aperfeiçoar os resultados dos seus modelos. Esta tendência reflecte-se em toda a indústria da IA, com as empresas a recrutarem especialistas em áreas como a ciência e a física para incorporarem os seus conhecimentos nos sistemas de IA.

É importante notar que a OpenAI paga, pelo menos, alguns dos seus dados de treino, com acordos de licenciamento em vigor com editores de notícias, redes sociais, bibliotecas de stock media e outros. A empresa também fornece mecanismos de auto-exclusão, embora imperfeitos, que permitem aos detentores de direitos de autor assinalar conteúdos que preferem que não sejam utilizados para formação.

No entanto, como a OpenAI enfrenta vários processos judiciais relativos às suas práticas de dados de formação e ao tratamento da lei dos direitos de autor nos tribunais dos EUA, o documento da O’Reilly acrescenta um maior escrutínio à abordagem da empresa.


Leia o Artigo Original: TechCrunch

Leia mais: Pequeno Robô Recordista Descarrega Eletrônicos para Voar por Magnetismo

Share this post