O Chip de IA Mais Rápido Irá Acelerar Significativamente o Progresso da IA
Quer se considere a IA como uma ferramenta extraordinária com imensas vantagens ou um prejuízo para a sociedade que favorece apenas os poderosos, um novo chip inovador pode agora treiná-los a velocidades sem precedentes. A Cerebras Systems apresentou o Wafer Scale Engine 3 (WSE-3), o chip de IA mais rápido do mundo, que alimenta o supercomputador de IA Cerebras CS-3 com um desempenho máximo de 125 petaFLOPS, e a sua escalabilidade é notável.
Antes de um sistema de IA criar um vídeo cativante, mas ligeiramente assustador, de um gato a acordar o seu dono, tem de ser treinado com um volume de dados verdadeiramente notável, consumindo energia equivalente à de mais de 100 casas no processo. No entanto, o novo chip, juntamente com os computadores construídos com ele, aumentará a velocidade e a eficiência deste processo.
Desempenho Revolucionário do Chip e Compacidade do Sistema
Cada chip WSE-3, aproximadamente do tamanho de uma caixa de pizza, contém uns espantosos quatro triliões de transístores, proporcionando o dobro do desempenho do modelo anterior da empresa, que detinha o recorde mundial anterior, tudo com o mesmo custo e consumo de energia. Quando montados no sistema CS-3, estes chips oferecem o desempenho equivalente a uma sala cheia de servidores, condensados numa única unidade do tamanho de um mini-frigorífico.
A Cerebras afirma que o sistema CS-3 abriga 900.000 núcleos de IA e 44 GB de SRAM no chip, fornecendo até 125 petaFLOPS de desempenho máximo de IA. Em teoria, isso deve colocá-lo entre os 10 melhores supercomputadores do mundo, embora testes formais de benchmark ainda não tenham confirmado seu desempenho.
Capacidade de Dados e Tratamento de Modelos sem Precedentes
Para acomodar a vasta quantidade de dados, as opções de memória externa variam de 1,5 TB a colossais 1,2 Petabytes (1.200 TB). O CS-3 supera os padrões atuais ao lidar com modelos de IA com até 24 trilhões de parâmetros, excedendo em muito o máximo projetado de cerca de 1,8 trilhão de parâmetros para modelos como o GPT-4. A Cerebras afirma que o CS-3 pode treinar sem esforço um modelo de um trilião de parâmetros, o que equivale à carga de trabalho dos actuais computadores baseados em GPU que lidam com um modelo de apenas um bilião de parâmetros.
O método de fabrico de bolachas utilizado para os chips WSE-3 permite que o CS-3 seja concebido para ser escalável. Permite agrupar até 2.048 unidades num único supercomputador, que pode atingir até 256 exaFLOPS, ultrapassando as capacidades dos principais supercomputadores actuais. Este nível de potência poderia, alegadamente, treinar um modelo Llama 70B a partir do zero em apenas um dia, de acordo com a empresa.
O rápido avanço dos modelos de IA já é palpável, mas esta tecnologia está destinada a acelerar ainda mais o progresso. Independentemente da profissão ou dos passatempos de cada um, parece que os sistemas de IA vão continuar a invadir vários domínios a um ritmo sem precedentes.
Leia O Artigo Original: New Atlas
Leia Mais: Especialistas em Coração Recomendam a Música de Taylor Swift para Salvar Vidas