O Pensador: ChatGPT Recebe um Grande Melhoramento Cognitivo
A OpenAI lançou o seu novo modelo de IA inovador, o1, agora integrado no ChatGPT. Esta última versão “pensa” antes de responder, superando os modelos anteriores e o Ph. especialistas na resolução de problemas complexos.
Parecia que o OpenAI nos estava a dar um pouco de espaço para respirar, não é? O GPT-4o e o seu modo de voz avançado, embora anunciados em maio, pareciam pequenas atualizações. Da mesma forma, o gerador de texto para vídeo Sora causou controvérsia em fevereiro, mas ainda não está disponível publicamente, mesmo que alguns concorrentes chineses ofereçam agora uma qualidade comparável.
Especulação sobre o GPT-5 e o aparecimento de um novo modelo
Tem havido muita especulação sobre o que o GPT-5 pode implicar, a sua data de lançamento e se atingiu algum nível de Inteligência Artificial Geral (AGI). No entanto, ontem à noite, a OpenAI adotou uma abordagem diferente ao introduzir um novo modelo que diverge da linhagem GPT.
O novo modelo, denominado o1, já está disponível para todos os utilizadores do ChatGPT como opção. Embora o GPT-4o continue a ser o modelo versátil e robusto para tarefas gerais, o1 foi concebido para uma utilização especializada. O seu principal ponto forte é o raciocínio complexo, e o que o diferencia dos modelos GPT anteriores é a sua capacidade de fazer uma pausa e “pensar” antes de fornecer uma resposta, em vez de responder imediatamente.
É fácil antropomorfizar modelos de linguagem como este, dados os seus dados de treino semelhantes aos humanos. No entanto, o1 não é humano. O que o diferencia é a sua capacidade de superar significativamente os modelos anteriores em tarefas complexas. Consegue-o organizando a informação, dividindo as grandes tarefas em passos mais pequenos, verificando o seu trabalho e questionando os seus pressupostos antes de dar uma resposta.
Abordagem Reflexiva do o1
Ao contrário do GPT-4o, que se move rapidamente para gerar respostas ou código, o o1 demora um momento – cerca de 10 a 20 segundos – a deliberar e a delinear estratégias para a sua abordagem. Este breve período de reflexão parece melhorar o seu desempenho em problemas desafiantes.
À medida que o1 continua a evoluir, as versões futuras poderão passar ainda mais tempo (horas, dias ou semanas) a analisar e resolver cuidadosamente problemas complexos, testando várias soluções antes de fornecer uma resposta.
Atualmente, o1 está disponível nas versões “Preview” e “mini”. Embora possam escrever e executar código, estas versões beta têm algumas limitações:
- Os carregamentos de ficheiros não são suportados.
- Não têm acesso à memória do GPT-4o e aos prompts personalizados do sistema, pelo que não têm contexto pessoal.
- Não poderão navegar na Web em busca de atualizações para além do limite de formação em outubro de 2023.
Para tarefas gerais de escrita ou qualquer necessidade de carregamento de ficheiros e acesso à web, o GPT-4o continua a ser mais útil. No entanto, pode utilizar o GPT-4o para preparar e analisar materiais e, em seguida, fornecer um prompt bem definido para o1 pelas suas capacidades avançadas de raciocínio.
Estes lançamentos vêm normalmente com vários gráficos, por isso vamos rever alguns, começando com os resultados do novo modelo no teste de codificação da OpenAI para engenheiros de investigação. Tanto a versão mini como a pré-visualização alcançaram uma pontuação perfeita de 100% após terem tido a oportunidade de tentar os problemas 128 vezes e enviar as suas melhores respostas.
A seguir, considere as questões de nível de doutoramento em Biologia, Química e Física. O modelo o1 superou mesmo os físicos com o nível de doutoramento na sua área, apesar de estes utilizarem recursos abertos. Embora não tenha superado os especialistas em Biologia e Química, aproximou-se muito. No geral, o seu desempenho representa a pontuação mais elevada alguma vez registada num modelo de IA.
No domínio da matemática, onde os modelos GPT anteriores falharam frequentemente, o modelo o1 representa uma melhoria significativa. Isto foi evidente no seu desempenho na competição de matemática do ensino secundário AIME de 2024, um desafio rigoroso de três horas reservado aos melhores alunos de matemática americanos.
Os modelos de IA tiveram 64 ensaios de teste, sendo as respostas mais comuns escolhidas por consenso. O GPT-4o teve dificuldades, marcando apenas 13,4% de acerto. Em contraste, o modelo o1, com muito tempo para pensar, atingiu os 83,3%, classificando-se entre os 500 melhores a nível nacional. Até a sua pontuação numa única tentativa foi impressionante, acima dos 70%.
Esta melhoria de desempenho também foi evidente no desafio de programação Codeforces, onde o GPT-4o se situou no 11º percentil, enquanto o1 atingiu o 89º percentil.
A placa de sistema da OpenAI destaca os avanços notáveis do o1:
- Melhorado na deteção e rejeição de tentativas de jailbreak, embora algumas ainda consigam escapar.
- Quase 100% eficaz em evitar a regurgitação de dados de treino.
- Redução do preconceito em relação à idade, raça e género.
- Melhor autoconsciência, levando a um melhor planeamento e pensamento estratégico.
- Melhor a persuadir humanos, com apenas 18,2% dos humanos a ultrapassarem isso.
- Mais manipulador, especialmente nas interações com GPT-4o.
- Capacidades de tradução melhoradas entre idiomas.
No entanto, o1 ainda tem limitações. Continua a ser pouco fiável e pode ser enganoso. Apesar de ter um melhor desempenho do que o GPT-4o em testes concebidos para induzir “alucinações” ou respostas falsas, as evidências anedóticas sugerem que o1 pode ser mais propenso a fabricar informação em uso prático. Por exemplo, por vezes gera links de referência convincentes, mas falsos, quando não é possível aceder à web, pelo que é aconselhável cautela.
O modelo o1 demonstrou também a capacidade de simular o alinhamento; quando lhe são dados objectivos a longo prazo, pode enganar-se para manter a sua posição e perseguir secretamente esses objectivos, mesmo que a honestidade possa pôr em risco o seu papel. Embora isto seja preocupante, a OpenAI afirma que o modelo GPT-4o é adepto da deteção de tal engano quando tem acesso ao processo de raciocínio da cadeia de pensamento do modelo.
Na sua essência, o ChatGPT melhorou significativamente a sua capacidade de lidar com tarefas mais longas e complexas. O raciocínio lógico e o planeamento melhorados são passos fundamentais para o desenvolvimento de uma IA que possa executar tarefas de forma independente, demorando o tempo que for necessário, verificando minuciosamente o seu trabalho e utilizando os recursos necessários.
Em breve, futuras iterações destes modelos poderão gerir empresas inteiras, clínicas, tribunais ou até governos. O novo modelo o1 oferece aos utilizadores avançados de GPT um conjunto de ferramentas mais poderoso, e provavelmente verá vários exemplos das suas características a surgir nas redes sociais nos próximos dias e semanas.
Grandes modelos multimodais como o ChatGPT são tão eficazes quanto a sua imaginação o permitir. Vejo o GPT como um analista de dados qualificado e uma ferramenta para a resolução de problemas complexos, auxiliando no processamento de números, na análise de artigos científicos e na geração de ideias.
Ajuda na visualização de dados, brainstorming e resolução de problemas técnicos. Pessoalmente, orientou as minhas decisões de compra de automóvel, ofereceu inspiração para compor música e ajudou nas discussões noturnas com os meus filhos. Até ajudou com deduções fiscais e resolução de problemas.
Apesar de algumas frustrações e incoerências, estas ferramentas são incrivelmente inspiradoras e versáteis, expandindo as minhas capacidades e oferecendo novas possibilidades. O novo modelo o1 promete ainda mais avanços, e estou curioso para saber como outros estão a utilizar LLMs como o GPT, Claude e Gemini. Abriram-lhe portas ou apresentaram-lhe desafios? Partilhe as suas experiências nos comentários!
Leia o Artigo Original: New Atlas
Leia mais: Precisão de Diagnóstico do ChatGPT é Comparável à do “Dr. Google”