Microsoft Está a Investigar um Método para Reconhecer e Atribuir Crédito aos Contribuintes dos Dados de Treino de IA

Microsoft Está a Investigar um Método para Reconhecer e Atribuir Crédito aos Contribuintes dos Dados de Treino de IA

Créditos da imagem: JASON REDMOND / AFP / Getty Images

A Microsoft está a lançar uma iniciativa de investigação para avaliar a forma como os dados de formação específicos influenciam o texto, as imagens e outros meios de comunicação gerados pelos modelos de IA.

Uma lista de empregos recentemente reaparecida em dezembro revela que a empresa está à procura de um estagiário de investigação para o projeto, que visa demonstrar que os modelos de IA podem ser treinados para estimar o impacto de dados específicos – como fotografias e livros – nos seus resultados de forma eficiente e significativa.

O anúncio refere que as actuais arquitecturas de redes neuronais carecem de transparência na atribuição das suas fontes. Salienta a importância de alterar esta situação para proporcionar incentivos, reconhecimento e, possivelmente, uma compensação para quem contribui com dados valiosos, especialmente porque os modelos de IA continuam a evoluir de forma inesperada.

A batalha legal sobre os conteúdos gerados por IA

Os textos, códigos, imagens, vídeos e música gerados por IA estão no centro de várias acções judiciais de propriedade intelectual contra empresas de IA. Estas empresas treinam frequentemente os seus modelos em vastos conjuntos de dados retirados de sítios Web públicos, alguns dos quais contêm material protegido por direitos de autor. Embora muitos argumentem que a utilização justa protege as suas práticas de recolha de dados, os artistas, programadores e autores discordam em grande medida.

A própria Microsoft está a enfrentar pelo menos duas acções judiciais relacionadas com direitos de autor. Em dezembro, o The New York Times processou a Microsoft e o seu parceiro de IA, OpenAI, alegando que os seus modelos foram treinados em milhões de artigos do jornal sem autorização. Além disso, os programadores de software intentaram uma ação judicial contra a Microsoft, alegando que o seu assistente de IA GitHub Copilot foi ilegalmente treinado com base no seu código protegido por direitos de autor.

A mais recente iniciativa de pesquisa da Microsoft, referida na lista de empregos como “proveniência do tempo de treinamento”, supostamente envolve Jaron Lanier, um importante tecnólogo e pesquisador da Microsoft. Num artigo de opinião publicado na New Yorker em abril de 2023, Lanier discutiu a “dignidade dos dados”, um conceito centrado na ligação dos conteúdos digitais às pessoas que os criaram.

“Uma abordagem de dignidade de dados identificaria os contribuidores mais exclusivos e influentes sempre que um grande modelo de IA gerasse um resultado valioso”, explicou Lanier. “Por exemplo, se um modelo cria ‘um filme animado dos meus filhos num mundo pintado a óleo de gatos falantes numa aventura’, os principais pintores a óleo, retratistas de gatos, actores de voz e escritores – ou as suas propriedades – poderiam ser reconhecidos como essenciais para a sua criação. Receberiam reconhecimento, incentivos e, potencialmente, até uma indemnização.”

Modelos de compensação emergentes para dados de formação de IA

Várias empresas já estão a explorar ideias semelhantes. A desenvolvedora de IA Bria, que recentemente garantiu US$ 40 milhões em financiamento de risco, afirma compensar os proprietários de dados com base em sua “influência geral”. A Adobe e a Shutterstock também pagam aos contribuidores de conjuntos de dados, embora os pormenores destes pagamentos permaneçam em grande parte não revelados.

A maioria dos principais laboratórios de IA, no entanto, não implementou programas de compensação direta para contribuidores individuais, optando por garantir acordos de licenciamento com editores, plataformas e corretores de dados. Em muitos casos, oferecem aos detentores de direitos de autor a possibilidade de “optarem por não participar” em futuros treinos, embora estes processos possam ser complicados e não se apliquem retroativamente a modelos já treinados com os dados.

A iniciativa da Microsoft poderá, em última análise, não passar de uma prova de conceito. A OpenAI fez promessas semelhantes em maio, anunciando planos para desenvolver uma ferramenta que permitisse aos criadores controlar a forma como o seu trabalho é utilizado no treino de IA. Quase um ano depois, a ferramenta ainda não se concretizou e, segundo consta, não tem sido uma prioridade interna.

Os críticos sugerem que a Microsoft pode estar envolvida em “lavagem ética” para evitar possíveis ações regulatórias ou decisões legais que possam atrapalhar seus negócios de IA. Este esforço é particularmente notável, dada a posição de outros laboratórios de IA líderes sobre o uso justo. Empresas como a Google e a OpenAI têm defendido protecções de direitos de autor mais fracas relacionadas com o treino de IA, com a OpenAI a instar especificamente o governo dos EUA a consagrar formalmente isenções de utilização justa para o treino de modelos, de modo a aliviar as restrições legais dos programadores.


Leia o Artigo Original: TechCrunch

Leia mais: Cientistas Observam Células Vegetais Vivas Produzindo Celulose pela 1ª vez

Share this post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *