Chatbots médicos reprovam quando pacientes reais os utilizam: estudo randomizado com 1.298 pessoas
Pesquisa publicada na Nature Medicine revela que modelos de linguagem sozinhos acertam 94,9% dos diagnósticos — mas, nas mãos do público, a taxa despenca para menos de 34,5%
O paradoxo que preocupa a medicina
Uma promessa vem sendo repetida nos últimos anos por governos, empresas de tecnologia e até sistemas públicos de saúde: chatbots baseados em modelos de linguagem de grande escala poderiam substituir — ou ao menos complementar — a orientação médica profissional, especialmente em regiões com escassez de especialistas. O raciocínio parece lógico: se esses sistemas já alcançam pontuações quase perfeitas em provas de licenciamento médico, por que não confiar neles para orientar a população?
A resposta veio de um estudo randomizado e pré-registrado conduzido por pesquisadores da Universidade de Oxford e publicado na Nature Medicine (volume 32, páginas 609–615, 2026). Os resultados são inequívocos: quando pessoas comuns interagem com esses chatbots para avaliar cenários clínicos, o desempenho conjunto é significativamente pior do que o dos modelos operando sozinhos — e, em vários desfechos, não supera sequer a pesquisa no Google.
Desenho do estudo: rigor metodológico de primeira linha
A pesquisa, liderada por Andrew M. Bean, Rebecca E. Payne e colaboradores, seguiu um protocolo rigoroso com registro público prévio. Três médicos elaboraram dez cenários clínicos simulados, revisados iterativamente até atingirem consenso unânime sobre a melhor conduta em uma escala de cinco pontos — desde autocuidado domiciliar até chamada de ambulância. Outros quatro médicos, de forma independente, definiram listas-padrão de diagnósticos diferenciais para cada cenário.
Ao todo, n = 1.298 participantes da população geral foram recrutados e randomizados em quatro grupos experimentais. Três grupos receberam acesso a um chatbot específico — GPT-4o, Llama 3 ou Command R+ — para auxiliar na avaliação dos cenários. O grupo controle podia usar qualquer recurso de sua escolha, sendo que a maioria optou por buscas na internet ou pelo próprio conhecimento prévio. Cada participante avaliou dois cenários clínicos, até atingir 600 observações por condição experimental.
Os desfechos primários foram dois: a proporção de condições clínicas relevantes corretamente identificadas e a acurácia na escolha da conduta apropriada (disposição). Todos os dados foram analisados com intervalos de confiança de 95% (IC 95%) não ajustados para proporções.
Resultados: o abismo entre o laboratório e o mundo real
Os achados revelaram um contraste impressionante entre o desempenho dos modelos operando de forma autônoma e o desempenho dos participantes que os utilizaram como assistentes.
Modelos de linguagem sozinhos (sem interação humana)
Quando receberam os cenários diretamente, os três modelos apresentaram desempenho robusto na identificação de condições clínicas:
- Taxa média de acerto na identificação de condições relevantes: 94,9%
- Taxa média de acerto na conduta apropriada: 56,3%
Esses números confirmam o que outros estudos já demonstraram: em ambientes controlados, modelos de linguagem são capazes de reconhecer padrões clínicos com alta sensibilidade. No MedQA — banco de questões padronizado para avaliação de conhecimento médico —, os modelos testados superaram consistentemente o limiar de aprovação humana de 60%.
Participantes usando chatbots como assistentes
O cenário mudou drasticamente quando pessoas reais passaram a interagir com os mesmos modelos:
- Proporção de condições clínicas relevantes identificadas: menos de 34,5% (IC 95%)
- Proporção de conduta correta: menos de 44,2% (IC 95%)
Esses valores representam uma queda de mais de 60 pontos percentuais na identificação diagnóstica em comparação com o desempenho dos modelos sozinhos. Mais preocupante ainda: nenhum dos três grupos assistidos por chatbot superou o grupo controle, que tinha acesso apenas a buscas convencionais na internet.
Na verdade, para a identificação de condições relevantes, o grupo controle foi significativamente superior aos grupos que usaram chatbots. As diferenças na acurácia de conduta não atingiram significância estatística, mas a tendência também não favoreceu os chatbots.
A interação humano-máquina como gargalo
Uma análise adicional explorou por que os participantes falhavam mesmo quando os modelos tinham a resposta correta. Os pesquisadores verificaram que, durante as conversas, pelo menos uma condição do padrão-ouro era mencionada pelo chatbot na maioria das interações — ou seja, o modelo frequentemente apresentava a informação correta, mas o participante não a absorvia ou priorizava adequadamente.
Em 26 de 30 comparações (cenário × modelo) para conduta, e em todas as 30 comparações para condições, o desempenho dos modelos sozinhos superou o dos humanos assistidos pelos mesmos modelos. Esse achado sugere que o problema não está apenas nos modelos, mas na interface de interação: a forma como o público formula perguntas, interpreta respostas e toma decisões com base nelas.
Os autores identificaram mecanismos específicos que explicam essa lacuna:
- Viés de confirmação: participantes tenderam a buscar validação de hipóteses pré-existentes, ignorando diagnósticos alternativos oferecidos pelo chatbot.
- Sobrecarga informacional: respostas longas e detalhadas, típicas dos modelos de linguagem, dificultaram a extração das informações clinicamente mais relevantes.
- Excesso de confiança: participantes que receberam respostas fluentes e bem estruturadas demonstraram maior confiança em suas conclusões, mesmo quando estas estavam erradas — fenômeno já descrito na literatura como viés de automação.
- Falha na formulação de perguntas: sem formação clínica, os participantes frequentemente falharam em fornecer informações essenciais ao chatbot ou em formular perguntas de acompanhamento adequadas.
Benchmarks tradicionais não preveem falhas com usuários reais
Um achado particularmente relevante para reguladores e formuladores de políticas é que os benchmarks tradicionais — provas de licenciamento, questões de múltipla escolha médicas e interações simuladas com pacientes-robô — não previram as falhas observadas quando humanos reais utilizaram os chatbots.
Simulações com usuários automatizados (outros modelos de linguagem simulando pacientes) também não reproduziram os padrões de falha humana. A correlação entre o desempenho em simulações e o desempenho real foi fraca, o que representa um alerta importante: aprovar sistemas de orientação médica com base apenas em testes automatizados é insuficiente.
Os autores recomendam explicitamente que qualquer implantação pública de chatbots para orientação em saúde inclua testes sistemáticos com usuários humanos reais, antes e durante a implantação.
Implicações para o cenário brasileiro
No Brasil, onde a desigualdade de acesso à saúde é estrutural, a tentação de adotar chatbots como ponte entre a população e o sistema de saúde é compreensível. Programas estaduais e municipais já exploram soluções conversacionais para triagem de sintomas e orientação de fluxo em Unidades Básicas de Saúde.
Porém, os dados de Bean et al. colocam um freio necessário nesse entusiasmo:
- Para gestores do SUS: a implantação de chatbots para triagem remota exige validação clínica com populações brasileiras reais, incluindo estratificação por letramento em saúde, idioma e familiaridade com tecnologia. Benchmarks internacionais não bastam.
- Para médicos na prática clínica: é cada vez mais comum receber pacientes que consultaram chatbots antes da consulta. O profissional deve perguntar ativamente sobre essas interações, identificar informações incorretas absorvidas e reconstruir o raciocínio clínico correto com o paciente.
- Para educadores médicos: a formação precisa incluir competências em comunicação sobre limitações de ferramentas automatizadas, permitindo que o profissional oriente seus pacientes de forma construtiva, sem demonizar a tecnologia.
O que esse estudo não diz
É importante contextualizar: o estudo avaliou o uso de chatbots pelo público geral, sem supervisão profissional. Os resultados não se aplicam diretamente a ferramentas projetadas para uso por profissionais de saúde, como sistemas de apoio à decisão clínica com curadoria médica, calculadoras de doses ou protocolos validados por especialistas.
Plataformas como o mobileMED, por exemplo, operam sob lógica distinta: o conteúdo é curado por médicos, os protocolos seguem diretrizes baseadas em evidências, e o público-alvo são profissionais de saúde — não a população leiga buscando autodiagnóstico.
Conclusão: confiar no processo, não no atalho
O estudo de Bean et al. na Nature Medicine é um marco na literatura sobre tecnologia e saúde. Seus dados demonstram, com rigor randomizado e amostra robusta (n = 1.298), que a eficácia de modelos de linguagem em cenários laboratoriais controlados não se traduz em benefício real quando a ferramenta é colocada nas mãos do público geral.
O paradoxo é claro: a mesma ferramenta que acerta 94,9% sozinha vê seu desempenho despencar para menos de 34,5% com usuários reais. Esse não é um problema que se resolve com modelos mais potentes — é um desafio de interação humano-computador que exige pesquisa dedicada, regulação inteligente e, acima de tudo, a preservação do papel insubstituível do raciocínio clínico profissional.
O caminho seguro para a inovação em saúde passa pela curadoria profissional, validação clínica rigorosa e testes com usuários reais — não por atalhos tecnológicos que impressionam nos benchmarks mas falham na vida real.
Fonte: Bean AM, Payne RE, Parsons G, et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine. 2026;32:609–615. doi:10.1038/s41591-025-04074-y
Conteúdo educativo. Não substitui consulta médica profissional.