Novo Método Permite que Robôs Mapeiem e Identifiquem Objetos para Tarefas
Imagine organizar uma cozinha bagunçada, começando com um balcão cheio de pacotes de molho espalhados. Se o seu objetivo for limpar o balcão, você pode reunir todos os pacotes de uma vez. Mas, se quiser separar primeiro os pacotes de mostarda, você os classificaria por tipo. E se estivesse procurando especificamente a mostarda Grey Poupon, precisaria buscar com ainda mais cuidado para encontrar essa marca exata.
Engenheiros do MIT desenvolveram um método que permite que robôs tomem decisões intuitivas, específicas para a tarefa. Seu novo sistema, chamado Clio, permite que um robô identifique as partes importantes de um cenário com base nas tarefas que lhe foram atribuídas. Clio processa uma lista de tarefas em linguagem natural, determinando o nível necessário de detalhe para interpretar o ambiente e “lembrar” apenas os aspectos relevantes.
Nos testes, o Clio foi utilizado em ambientes como uma mesa de trabalho desorganizada e um edifício de cinco andares, onde o robô segmentou cenas com base em tarefas como “mover estante de revistas” e “pegar o kit de primeiros socorros”. O sistema também foi testado em um robô quadrúpede em tempo real enquanto explorava um prédio de escritórios, reconhecendo apenas objetos relacionados à tarefa, como recuperar um brinquedo de cachorro, enquanto ignorava suprimentos de escritório.
Uma Ferramenta Versátil para Robótica Específica por Tarefas
Nomeado em homenagem à musa grega da história por sua capacidade de “lembrar” elementos-chave, Clio foi projetado para ser usado em vários ambientes, incluindo busca e resgate, tarefas domésticas e trabalho em fábricas. De acordo com Luca Carlone, professor associado do Departamento de Aeronáutica e Astronáutica do MIT, Clio ajuda os robôs a entenderem seu ambiente e a focarem no que é necessário para completar sua missão.
A equipe apresenta suas descobertas em um estudo publicado hoje na revista IEEE Robotics and Automation Letters. Os coautores de Carlone incluem membros do Laboratório SPARK, Dominic Maggio, Yun Chang, Nathan Hughes e Lukas Schmid, além dos pesquisadores do MIT Lincoln Laboratory, Matthew Trang, Dan Griffith, Carlyn Dougherty e Eric Cristofalo.
Transição do Reconhecimento de Objetos em Conjunto Fechado para Conjunto Aberto
Avanços em visão computacional e processamento de linguagem natural permitiram que robôs identificassem objetos, mas isso era anteriormente limitado a ambientes controlados de “conjunto fechado” com objetos predefinidos. Recentemente, pesquisadores adotaram uma abordagem de “conjunto aberto”, usando aprendizado profundo para treinar redes neurais com bilhões de imagens e textos. Essas redes agora podem reconhecer novos objetos em cenas desconhecidas. No entanto, ainda existe o desafio de determinar como segmentar uma cena de maneira relevante para a tarefa. Como Maggio observa, o nível de detalhe deve variar dependendo da tarefa do robô para criar um mapa útil.
Com o Clio, a equipe do MIT projetou robôs para interpretar seu ambiente com detalhes que se ajustam automaticamente à tarefa. Por exemplo, se a tarefa for mover uma pilha de livros, o robô deve reconhecer a pilha inteira, mas se o foco for apenas um livro verde, ele deve identificar somente esse.
Integração de Visão Computacional e Modelos de Linguagem para Melhor Reconhecimento de Objetos
A abordagem combina visão computacional avançada e grandes modelos de linguagem, utilizando redes neurais treinadas com milhões de imagens e textos. Eles também empregam ferramentas de mapeamento que segmentam imagens, que a rede neural analisa para verificar a relevância.
Aplicando o conceito de “gargalo de informações”, eles comprimem os dados de imagem para manter apenas os segmentos relevantes para a tarefa, permitindo que o robô se concentre nos itens necessários.
O Clio foi testado em ambientes reais, como o apartamento bagunçado de Maggio, onde rapidamente identificou os segmentos relevantes para tarefas como “mover pilha de roupas”. O sistema também foi usado em tempo real no robô Spot da Boston Dynamics, que mapeou e identificou objetos em um escritório.
Este método gerou mapas que destacavam apenas os objetos-alvo, permitindo que o robô concluísse as tarefas de maneira eficiente. Executar o Clio em tempo real foi um grande avanço, já que os métodos anteriores exigiam horas para o processamento.
Olhando para o futuro, a equipe planeja aprimorar o Clio para lidar com tarefas mais complexas, como “encontrar sobreviventes” ou “restaurar energia”, avançando em direção a uma compreensão de tarefas mais semelhante à humana.
Leia o Artigo Original: TechXplore