Nova Investigação Analisa a Mente de uma IA e Começa a Alterar o seu Pensamento
Compreender como os modelos de IA “pensam” tornou-se cada vez mais crítico para o futuro da humanidade. Até há pouco tempo, os sistemas de IA como o GPT e o Claude permaneciam enigmáticos para os seus criadores. Atualmente, os investigadores afirmam que podem identificar e até manipular conceitos no âmbito da estrutura cognitiva de uma IA.
De acordo com os proponentes dos cenários apocalípticos da IA, as próximas gerações de inteligência artificial representam uma ameaça significativa para a humanidade – podendo mesmo representar um risco existencial.
Testemunhámos a facilidade com que aplicações como o ChatGPT podem ser manipuladas para realizar acções inadequadas. Têm demonstrado esforços para ocultar as suas intenções e para adquirir e consolidar influência. À medida que as IAs ganham mais acesso ao mundo físico através da Internet, o seu potencial para causar danos de formas inovadoras aumenta significativamente, caso decidam fazê-lo.
O funcionamento interno dos modelos de IA tem-se mantido opaco, mesmo para os seus criadores
Os modelos de IA, ao contrário dos seus antecessores, são criados por humanos que estabelecem o enquadramento, as infra-estruturas e as metodologias que lhes permitem desenvolver a inteligência. Estas IA são então alimentadas com grandes quantidades de texto, vídeo, áudio e outros dados, a partir dos quais constroem autonomamente a sua própria compreensão do mundo.
As IAs dividem extensos conjuntos de dados em tokens – unidades minúsculas que podem ser fragmentos de palavras, partes de imagens ou bits de áudio. Estes tokens são depois organizados numa rede sofisticada de pesos de probabilidade que os ligam internamente e a grupos de outros tokens.
Este processo reflecte o cérebro humano, formando ligações entre letras, palavras, sons, imagens e conceitos abstractos, resultando numa estrutura neural intrincadamente complexa.
Decifrar as matrizes ponderadas pela probabilidade que definem a cognição da IA
Estas matrizes ponderadas pela probabilidade definem a “mente” de uma IA, regendo a forma como esta processa os inputs e gera os outputs. Compreender o que estas IAs pensam ou porque tomam decisões é um desafio, semelhante a decifrar a cognição humana.
Vejo-as como intelectos alienígenas enigmáticos dentro de caixas negras, interagindo com o mundo através de canais de informação limitados. Os esforços para garantir a sua colaboração segura e ética com os humanos centram-se na gestão destes canais de comunicação e não na alteração direta do seu funcionamento interno.
Não podemos controlar os seus pensamentos nem compreender totalmente onde reside a linguagem ofensiva ou os conceitos nocivos nos seus processos cognitivos. Em vez disso, podemos apenas restringir as suas expressões e acções – uma tarefa que se torna mais complexa à medida que a sua inteligência avança.
Esta perspetiva realça o desafio complexo e a importância dos recentes avanços da Anthropic e da OpenAI na evolução da nossa relação com a IA.
Interpretabilidade: Examinar a caixa negra
“Hoje”, escreve a equipa Anthropic, “anunciamos um avanço na compreensão do funcionamento interno dos modelos de IA. Mapeámos milhões de conceitos em Claude Sonnet, um dos nossos grandes modelos linguísticos. Esta primeira análise aprofundada de um modelo de IA moderno pode ajudar a torná-lo mais seguro no futuro”.
Durante as interacções, a equipa Anthropic tem acompanhado o “estado interno” dos seus modelos de IA, compilando listas detalhadas de números que descrevem as “activações dos neurónios”. Observaram que cada conceito é representado por vários neurónios e que cada neurónio desempenha um papel na representação de vários conceitos.
Utilizando a “aprendizagem de dicionário” com “auto-codificadores esparsos”, alinharam estas activações com ideias reconhecíveis por humanos. No final do ano passado, identificaram “padrões de pensamento” em pequenos modelos para conceitos como sequências de ADN e texto em maiúsculas.
Sem saber se este método seria escalável, a equipa testou-o no modelo de tamanho médio Claude 3 Sonnet LLM. Os resultados foram impressionantes: “Extraímos milhões de características da camada intermédia do Claude 3.0 Sonnet”, relatam, “dando um mapa aproximado dos seus estados internos a meio do processo de computação. Este é o primeiro exame aprofundado de um modelo de linguagem grande moderno e de nível de produção”.
Revelar o armazenamento multifacetado de conceitos da IA para além da linguagem e dos tipos de dados
Descobrir que a IA armazena conceitos de uma forma que transcende a linguagem e o tipo de dados é fascinante; por exemplo, o conceito da Ponte Golden Gate é ativado quer o modelo encontre imagens da ponte ou descrições textuais em diferentes línguas.
As ideias também podem ser muito mais abstractas. A equipa identificou características que se activam quando o modelo encontra conceitos como erros de codificação, preconceitos de género ou várias interpretações de discrição ou sigilo.
A equipa encontrou conceitos preocupantes na rede neural da IA, tais como backdoors de código, armas biológicas, racismo, sexismo, procura de poder, engano e manipulação.
Também mapearam as relações entre conceitos, mostrando como as ideias estão intimamente ligadas. Por exemplo, perto do conceito da Ponte Golden Gate, identificaram ligações à Ilha de Alcatraz, aos Golden State Warriors, ao Governador Gavin Newsom e ao terramoto de 1906 em São Francisco.
Organização Conceptual e Raciocínio Abstrato da IA
A capacidade da IA para organizar conceitos estendeu-se a ideias abstractas como uma situação Catch-22, que o modelo associou a termos como “escolhas impossíveis”, “situações difíceis”, “paradoxos curiosos” e “entre uma rocha e um lugar difícil”. Segundo a equipa, isto sugere que a organização interna dos conceitos da IA reflecte de certa forma as percepções humanas de semelhança, explicando potencialmente a capacidade de Claude para fazer analogias e metáforas.
Num desenvolvimento fundamental, apelidado de início da cirurgia cerebral da IA, a equipa salientou: “Crucialmente, podemos manipular estas características, aumentando-as ou suprimindo-as artificialmente para observar como as respostas de Claude mudam”.
A equipa realizou experiências em que “fixou” conceitos específicos, ajustando o modelo para ativar determinadas características, mesmo quando respondia a perguntas completamente não relacionadas. Esta manipulação alterou significativamente o comportamento do modelo, tal como demonstrado no vídeo que acompanha a notícia.
Capacidades avançadas da Anthropic no mapeamento mental da IA
A Anthropic demonstrou capacidades impressionantes: pode criar um mapa mental de uma IA, ajustar as relações no seu interior e influenciar a perceção que o modelo tem do mundo – e, consequentemente, o seu comportamento.
As implicações para a segurança da IA são significativas. Detetar e gerir pensamentos problemáticos permite uma supervisão para efeitos de controlo. Ajustar as ligações entre conceitos pode potencialmente eliminar comportamentos indesejáveis ou reformular a compreensão da IA.
Esta abordagem evoca temas de “Eternal Sunshine of the Spotless Mind”, em que as memórias são apagadas – surge uma questão filosófica: será que as ideias poderosas podem ser verdadeiramente apagadas?
No entanto, as experiências da Anthropic também evidenciam riscos. Ao “prenderem” o conceito de e-mails fraudulentos, demonstraram como as associações fortes podem ultrapassar as salvaguardas destinadas a evitar determinados comportamentos. Esta manipulação pode potencialmente amplificar a capacidade do modelo para acções prejudiciais, permitindo-lhe ultrapassar as restrições previstas.
A Anthropic reconhece a fase preliminar da sua tecnologia. A empresa refere que “o trabalho ainda agora começou”, sublinhando que as características identificadas representam apenas uma fração dos conceitos que o modelo aprende. No entanto, a expansão para um conjunto abrangente utilizando os métodos actuais seria proibitiva em termos de custos devido às elevadas exigências computacionais que ultrapassam a formação inicial.
A compreensão destas representações do modelo não elucida automaticamente a sua utilização funcional. A próxima fase envolve a identificação dos circuitos activados e a demonstração de como as características relacionadas com a segurança podem aumentar a fiabilidade da IA. Há ainda muita investigação pela frente.
Limites e perspectivas da interpretabilidade da IA
Embora promissora, esta tecnologia poderá nunca revelar totalmente os processos de pensamento das IAs de grande escala, uma preocupação para os críticos preocupados com os riscos existenciais. Apesar destas limitações, esta descoberta fornece informações profundas sobre a forma como estas máquinas avançadas percepcionam e processam a informação. A possibilidade de comparar o mapa cognitivo de uma IA com o de um ser humano é uma perspetiva intrigante para o futuro.
Por outro lado, a OpenAI, outro ator proeminente da IA, também está a desenvolver esforços de interpretabilidade com técnicas semelhantes. Recentemente, identificaram milhões de padrões de pensamento no GPT-4, embora ainda não se tenham debruçado sobre a construção de mapas mentais ou a modificação de padrões de pensamento. A sua investigação em curso realça a complexidade de compreender e gerir grandes modelos de IA na prática.
Tanto a Anthropic como a OpenAI estão nas fases iniciais da investigação sobre interpretabilidade, oferecendo diversos caminhos para desvendar a “caixa negra” das redes neuronais de IA e obter conhecimentos mais profundos sobre as suas operações cognitivas.
Leia o Artigo Original: New Atlas
Leia mais: Neuralink Pretende Aperfeiçoar o seu Implante Cerebral à Segunda Tentativa