O DeepSeek está a fazer Sucesso em todo o Mundo – Eis porquê!

Crédito: IA
A empresa chinesa de IA DeepSeek causou um grande impacto na indústria tecnológica ao lançar modelos de IA altamente eficientes que rivalizam com as ofertas avançadas de empresas americanas como a OpenAI e a Anthropic.
Fundada em 2023, a DeepSeek alcançou os seus objectivos com um financiamento e uma capacidade de computação significativamente inferiores aos dos seus rivais.
Na semana passada, a empresa revelou o seu modelo R1 de “raciocínio”, suscitando entusiasmo entre os investigadores, surpreendendo os investidores e provocando reacções dos principais intervenientes na IA. Em 28 de janeiro, a DeepSeek foi mais longe, introduzindo um modelo capaz de processar imagens e texto. Então, o que é que o DeepSeek conseguiu exatamente e como é que o conseguiu?

(Justin Sullivan/Getty Images)
Em dezembro, a DeepSeek apresentou o seu modelo V3, um modelo de linguagem de grande dimensão altamente capaz que rivaliza em desempenho com o GPT-4o da OpenAI e o Claude 3.5 da Anthropic.
Tal como outros modelos, o V3 pode cometer erros ou gerar informações incorrectas, mas destaca-se em tarefas como responder a perguntas, escrever ensaios e produzir código informático. Em testes de resolução de problemas e raciocínio matemático, superou o desempenho de um ser humano médio em alguns casos.
O treino do V3 terá custado cerca de 5,58 milhões de dólares – significativamente menos do que o GPT-4, que exigiu mais de 100 milhões de dólares para ser desenvolvido.
A DeepSeek afirma ter treinado o V3 usando cerca de 2.000 GPUs H800 especializadas da NVIDIA – muito menos do que alguns concorrentes, que supostamente usaram até 16.000 dos chips H100 mais poderosos.
Em 20 de janeiro, a empresa apresentou o R1, um modelo de “raciocínio” concebido para resolver problemas complexos passo a passo. Estes modelos são excelentes em tarefas que exigem compreensão contextual e raciocínio interligado, como a compreensão de leitura e o planeamento estratégico.
O R1 é uma versão melhorada do V3, aperfeiçoada através da aprendizagem por reforço. O seu desempenho parece ser comparável ao do o1 da OpenAI, lançado no ano passado. O DeepSeek também aplicou a mesma técnica para criar versões de “raciocínio” de modelos de código aberto mais pequenos que podem ser executados em computadores pessoais.
Impacto do DeepSeek
Este lançamento alimentou um interesse intenso no DeepSeek, aumentando a popularidade da sua aplicação de chatbot com V3 e causando um abalo dramático no mercado tecnológico. As reacções dos investidores levaram a um declínio acentuado nos preços das acções, com a NVIDIA a perder aproximadamente 600 mil milhões de dólares em valor de mercado no momento em que este artigo foi escrito.
A principal inovação do DeepSeek está na melhoria da eficiência – alcançar um forte desempenho com menos recursos. A empresa introduziu duas técnicas inovadoras que podem influenciar a pesquisa de IA de forma mais ampla.
A primeira envolve um conceito matemático conhecido como “esparsidade”. Os modelos de IA contêm um vasto número de parâmetros (o V3 tem cerca de 671 mil milhões), mas apenas uma pequena parte é utilizada para uma determinada entrada. Identificar quais os parâmetros necessários é um desafio, mas o DeepSeek desenvolveu um novo método para prever e treinar apenas os parâmetros relevantes, reduzindo significativamente os recursos de treino necessários.
Armazenamento e Compressão de Dados Melhorados na V3
O segundo avanço está relacionado à forma como o V3 gerencia o armazenamento de dados na memória do computador. O DeepSeek desenvolveu uma técnica de compressão eficiente que torna o armazenamento e a recuperação de informações essenciais mais rápidos e eficazes.
O DeepSeek lançou os seus modelos e técnicas sob a licença aberta MIT, permitindo que qualquer pessoa os descarregue, modifique e utilize livremente.
Embora esta medida possa desafiar as empresas de IA que dependem de modelos proprietários para obter lucro, é uma grande vitória para a comunidade de investigação de IA em geral.
Atualmente, a investigação em IA exige muitas vezes um enorme poder de computação, limitando a capacidade dos investigadores universitários e daqueles que não pertencem a grandes empresas de tecnologia para realizar experiências. No entanto, os métodos focados na eficiência do DeepSeek podem reduzir essas barreiras, tornando a experimentação e o desenvolvimento mais acessíveis.
Para os consumidores, o acesso à IA pode também tornar-se mais económico. Mais modelos poderão ser executados diretamente em dispositivos pessoais como computadores portáteis e smartphones, reduzindo a dependência de serviços baseados na nuvem com taxas de subscrição.
Para as equipas de investigação bem financiadas, uma maior eficiência poderá não ser tão transformadora. Resta saber se a abordagem da DeepSeek conduzirá a modelos de IA com um desempenho global superior ou simplesmente a modelos que requerem menos recursos para serem treinados e executados.
Leia o Artigo Original Science Alert
Leia mais O Popular Relógio Inteligente Pebble E-Paper está de Regresso
Deixe um comentário