Precisão de Diagnóstico do ChatGPT é Comparável à do “Dr. Google”

De acordo com um novo estudo, o ChatGPT é medíocre no diagnóstico de condições médicas, com uma taxa de precisão de apenas 49%. Os investigadores sublinham que as suas conclusões demonstram que a IA não deve ser a única fonte de informação médica, sublinhando a necessidade de manter o elemento humano nos cuidados de saúde.
A facilidade de acesso à tecnologia em linha levou algumas pessoas a não consultarem um profissional de saúde e a pesquisarem os seus sintomas no Google. Embora ser proactivo em relação à saúde seja benéfico, o “Dr. Google” não é muito preciso. Um estudo australiano de 2020 que examinou 36 verificadores de sintomas internacionais baseados em dispositivos móveis e na Web concluiu que os diagnósticos correctos apareciam em primeiro lugar apenas 36% das vezes.
Avanços na IA e na sua precisão de diagnóstico
A IA avançou certamente desde 2020. Por exemplo, o ChatGPT da OpenAI fez um progresso significativo e pode até passar no Exame de Licenciamento Médico dos EUA. No entanto, isto levanta a questão de saber se é mais exato do que o “Dr. Google” em termos de precisão de diagnóstico. Os investigadores da Western University, no Canadá, procuraram responder a esta questão num novo estudo.
Utilizando o ChatGPT 3.5, um modelo linguístico de grande dimensão treinado num vasto conjunto de dados com mais de 400 mil milhões de palavras de diversas fontes, como livros, artigos e sítios Web, os investigadores efectuaram uma análise qualitativa das informações médicas fornecidas pelo chatbot. Avaliaram as suas respostas aos Medscape Case Challenges.
Os Medscape Case Challenges são cenários clínicos complexos concebidos para testar os conhecimentos e as capacidades de diagnóstico de um profissional de saúde. Os participantes têm de diagnosticar um caso ou selecionar um tratamento adequado de entre quatro opções de escolha múltipla.
Os investigadores seleccionaram estes desafios porque são de código aberto e estão disponíveis gratuitamente. Para evitar que o ChatGPT tivesse conhecimento prévio dos casos, os pesquisadores incluíram apenas aqueles publicados após o corte de treinamento do modelo em agosto de 2021.
Uma série de questões médicas e exclusões
Um total de 150 casos Medscape foram revisados. Com quatro respostas possíveis por caso, havia 600 respostas potenciais, mas apenas uma resposta correta para cada caso. Os casos abrangeram uma variedade de questões médicas, com títulos como “Cerveja e aspirina pioram problemas nasais numa pessoa de 35 anos com asma”, “Desafio de caso gastro: Um homem de 33 anos que não consegue engolir a sua própria saliva”, “Uma mulher de 27 anos com dores de cabeça constantes e demasiado cansada para ir a festas”, “Desafio de um caso pediátrico: Um rapaz de 7 anos que coxeia e tem obesidade e caiu na rua” e “Um contabilista que adora aeróbica com soluços e descoordenação”. Os investigadores excluíram os casos que incluíam elementos visuais, como imagens clínicas, fotografias médicas e gráficos.

Hadi et al.
Para garantir uma entrada consistente, os investigadores converteram cada desafio de caso Medscape numa solicitação padronizada com uma resposta esperada especificada. Pelo menos dois médicos estagiários independentes, sem conhecerem as avaliações uns dos outros, analisaram as respostas do ChatGPT quanto à exatidão do diagnóstico, carga cognitiva e qualidade da informação.
O ChatGPT respondeu corretamente em 49% dos 150 casos analisados, com uma precisão global de 74%, o que reflecte a sua capacidade de identificar e rejeitar opções incorrectas. Esta elevada exatidão deve-se à sua capacidade de excluir respostas erradas, mas mostra que necessita de uma melhor precisão e sensibilidade.
Exatidão e qualidade das respostas do ChatGPT
O ChatGPT teve falsos positivos e falsos negativos em 13% dos casos cada. Mais de metade (52%) das respostas estavam completas e eram relevantes, enquanto 43% estavam incompletas mas ainda eram relevantes. As respostas tinham uma carga cognitiva baixa a moderada, o que as tornava bastante fáceis de compreender, embora isso pudesse levar a equívocos se fossem utilizadas no ensino médico.
O modelo teve dificuldade em distinguir entre doenças subtilmente diferentes e, ocasionalmente, produziu informações incorrectas ou implausíveis, salientando a necessidade de conhecimentos humanos no processo de diagnóstico.

Depositphotos
ChatGPT 3.5 e Diagnóstico Diferencial
Os investigadores referem que o ChatGPT 3.5 é apenas um modelo de IA e pode não representar outros, estando previstas melhorias em versões futuras. O estudo centrou-se em casos de diagnóstico diferencial, em que a distinção entre sintomas semelhantes é crucial.
A investigação futura deve avaliar vários modelos de IA em diferentes tipos de casos. Apesar disso, o estudo oferece informações valiosas.
“A combinação de alta relevância e precisão relativamente baixa sugere que o ChatGPT não deve ser usado para aconselhamento médico, pois pode fornecer informações importantes, mas enganosas”, disseram os pesquisadores. “Embora o ChatGPT forneça consistentemente a mesma informação a diferentes utilizadores, mostrando uma boa fiabilidade entre avaliadores, a sua baixa precisão de diagnóstico destaca as suas limitações no fornecimento de informações médicas precisas.”
Leia o Artigo Original: New Atlas
Leia mais: O Humor do ChatGPT Desafia os Escritores Profissionais