DeepMind Revela seu Primeiro Robô Pensante com IA

Crédito:Google
A IA generativa também pode produzir ações robóticas — a ideia central por trás do projeto Gemini Robotics, da DeepMind. A equipe revelou dois novos modelos que trabalham juntos para permitir que os robôs “pensem” antes de agir. O raciocínio simulado aprimorou os modelos de linguagem, e esse avanço pode em breve chegar à robótica.
A DeepMind argumenta que a IA generativa é fundamental para robôs porque permite funcionalidades amplas e flexíveis. Ao contrário dos robôs atuais, que precisam ser meticulosamente treinados para tarefas específicas, os sistemas generativos podem lidar com ambientes inteiramente novos sem reprogramação. Carolina Parada, da DeepMind, observou que a maioria dos robôs é construída sob medida e leva meses para ser configurada para uma única tarefa. A Gemini Robotics, em vez disso, utiliza uma abordagem de dois modelos: um para raciocínio e outro para execução.
Gemini Robotics 1.5 vs. Gemini Robotics-ER 1.5
Os dois modelos são chamados de Gemini Robotics 1.5 e Gemini Robotics-ER 1.5. O modelo Gemini Robotics 1.5 pertence à classe VLA (Vision-Language-Action), combinando dados visuais e textuais para gerar ações automatizadas em robôs. Por outro lado, o Gemini Robotics-ER 1.5 é um VLM (Vision-Language Model) com foco em raciocínio incorporado, produzindo sequências estruturadas de instruções que orientam todo o processo de execução de tarefas desafiadoras.
O Gemini Robotics-ER 1.5 é a primeira IA robótica com raciocínio simulado, obtendo altas pontuações em testes de tomada de decisão em ambientes físicos. A execução das ações fica a cargo do Gemini Robotics 1.5 — ele é quem as realiza diretamente.
Por exemplo, se você pedisse a um robô para separar roupas brancas e coloridas, o Gemini Robotics-ER 1.5 analisaria a solicitação juntamente com imagens da pilha de roupas. Ele também pode usar ferramentas externas, como a Pesquisa Google, para coletar informações adicionais. Com base nisso, o modelo ER produz instruções em linguagem natural — instruções passo a passo que o robô deve seguir para realizar a tarefa.
Transformando Instruções em Ações
O Gemini Robotics 1.5, o modelo de ação, pega as instruções passo a passo do modelo ER e as traduz em movimentos robóticos, usando informações visuais para orientação. Ele também utiliza seu próprio processo de raciocínio para decidir como executar cada etapa. Como explicou Kanishka Rao, da DeepMind, os humanos dependem de pensamentos intuitivos para concluir tarefas, mas os robôs não têm essa intuição — portanto, um avanço fundamental com o VLA do Gemini 1.5 é sua capacidade de “pensar antes de agir”.
A DeepMind construiu as duas novas IAs robóticas com base nos modelos Gemini e as ajustou com dados para interação física. Esse design permite que os robôs lidem com tarefas mais complexas e em vários estágios, efetivamente conferindo-lhes capacidades semelhantes às de um agente.
Para testar esse sistema, a DeepMind o implementou em máquinas como o Aloha 2, de dois braços, e o humanoide Apollo. Ao contrário de abordagens anteriores que exigiam modelos personalizados para cada robô, a Gemini Robotics 1.5 pode generalizar para diferentes implementações — por exemplo, transferindo habilidades das garras do Aloha 2 para as mãos mais hábeis do Apollo sem ajustes especiais.
Dito isso, robôs domésticos práticos ainda são uma meta distante. Por enquanto, apenas testadores confiáveis podem acessar a Gemini Robotics 1.5, o modelo que controla máquinas físicas. O modelo ER, no entanto, já está disponível no Google AI Studio, permitindo que os desenvolvedores gerem instruções robóticas para experimentos no mundo real.
Leia o artigo original em: Arstechnica
Leia mais: IA Identifica Indicadores Sutis de Depressão nas Expressões Faciais dos Alunos