Triagem por chatbot falha justamente nos casos que mais importam

Um paciente acorda às três da manhã com dor torácica em aperto, irradiação para o membro superior esquerdo e sudorese fria. Em vez de ligar para o SAMU, abre o celular e digita os sintomas num chatbot de saúde. A resposta? "Pode ser ansiedade. Tente técnicas de respiração e agende uma consulta com seu médico." Esse cenário não é ficção — é exatamente o tipo de falha documentada por um estudo recém-publicado na Nature Medicine, que avaliou sistematicamente o desempenho do ChatGPT Health na orientação de triagem clínica.

Os resultados são um alerta direto para médicos, gestores de saúde e, sobretudo, para os milhões de brasileiros que já utilizam ferramentas digitais como primeiro ponto de contato quando surge um sintoma preocupante.

Desenho do estudo: cenários clínicos padronizados contra o julgamento médico

A pesquisa, conduzida por uma equipe multidisciplinar vinculada a centros de referência em informática médica, utilizou uma metodologia rigorosa. Os investigadores submeteram ao ChatGPT Health um conjunto abrangente de vinhetas clínicas padronizadas — cenários que simulam queixas reais de pacientes, desde sintomas de baixa complexidade (coriza, mialgia leve, dúvidas sobre medicamentos de venda livre) até emergências médicas com risco iminente de morte (síndrome coronariana aguda, acidente vascular cerebral, abdome agudo).

Cada cenário recebeu uma classificação de triagem de referência, definida por consenso entre médicos especialistas — emergencistas, clínicos e intensivistas — seguindo protocolos validados internacionalmente, como o Emergency Severity Index (ESI) e o Manchester Triage System. A pergunta central era objetiva: a recomendação do chatbot coincide com a do médico?

Resultados: desempenho aceitável nos casos simples, falha grave nos críticos

O padrão que emergiu da análise é preocupante pela sua assimetria. Em cenários de baixa acuidade — queixas gripais sem sinais de alarme, eczema leve, constipação intestinal sem red flags —, o chatbot apresentou concordância razoável com o julgamento médico. Para esses casos, a ferramenta se mostrou capaz de oferecer orientações gerais coerentes, como repouso, hidratação e uso de sintomáticos.

O problema reside justamente onde o erro é menos tolerável: nos cenários de alta gravidade. O estudo documentou que o sistema subestimou consistentemente a gravidade de quadros potencialmente fatais. Em situações que exigiriam atendimento de emergência imediato — como dor torácica típica com irradiação e sudorese, cefaleia súbita de início explosivo ("a pior dor de cabeça da minha vida", sugestiva de hemorragia subaracnoide), dor abdominal aguda com sinais de irritação peritoneal, e dispneia de início abrupto com dor pleurítica —, o chatbot recomendou medidas conservadoras ou agendamento ambulatorial em vez de orientar busca imediata por atendimento de urgência.

Esse tipo de erro tem nome técnico: subtriagem (undertriage). Na medicina de emergência, a subtriagem é o erro mais perigoso, porque atrasa o atendimento de pacientes em risco de deterioração rápida. Uma síndrome coronariana aguda não tratada nas primeiras horas evolui para infarto transmural; uma hemorragia subaracnoide sem intervenção pode resultar em ressangramento fatal nas primeiras 24 horas.

O fenômeno inverso também foi documentado: a supertriagem (overtriage), na qual queixas de baixa complexidade foram classificadas como urgentes. Embora menos perigosa para o paciente individual, a supertriagem gera sobrecarga nos serviços de emergência — problema particularmente relevante no sistema público brasileiro, onde prontos-socorros já operam rotineiramente acima da capacidade.

O contexto brasileiro: por que esses dados importam aqui

O Brasil tem aproximadamente 170 milhões de usuários de smartphones, e pesquisas indicam que mais de 60% dos brasileiros já utilizaram alguma ferramenta digital para buscar informações de saúde antes de procurar atendimento presencial. Em um país com 1,8 médico por mil habitantes (abaixo da média da OCDE de 3,7) e tempo médio de espera em pronto-socorro que pode ultrapassar quatro horas em grandes centros, a tentação de "consultar o chatbot primeiro" é compreensível — mas potencialmente perigosa.

A Pesquisa Nacional de Saúde (PNS) do IBGE mostra que 29,9% da população brasileira não possui plano de saúde. Para esse contingente, que depende exclusivamente do SUS, um chatbot que classifica erroneamente um infarto como "dor muscular" pode ser a diferença entre buscar o pronto-socorro a tempo ou permanecer em casa até uma parada cardíaca.

O mecanismo da falha: por que chatbots erram na triagem

Para compreender os achados, é necessário entender como funcionam os modelos de linguagem de grande escala utilizados nessas ferramentas. Esses sistemas geram respostas a partir de padrões estatísticos identificados em vastos conjuntos de texto — e não a partir de raciocínio clínico estruturado.

Na triagem médica real, o profissional integra simultaneamente dados da anamnese, do exame físico, da epidemiologia local, do histórico do paciente e de dezenas de heurísticas clínicas refinadas ao longo de anos de prática. Um emergencista experiente, ao ouvir "dor torácica + sudorese + irradiação para MSE em homem de 55 anos, diabético e tabagista", ativa imediatamente o protocolo de síndrome coronariana aguda — não porque "calculou a probabilidade", mas porque reconhece um padrão de risco que exige ação imediata.

Chatbots de saúde processam texto, não pacientes. Eles não auscultam, não palpam, não observam a face de sofrimento agudo, não percebem a taquipneia sutil, não identificam a palidez cutânea que sugere hipoperfusão. Mesmo na dimensão puramente textual, o sistema pode falhar em ponderar adequadamente a combinação de fatores de risco — priorizando sintomas isolados em vez de reconhecer síndromes clínicas.

Implicações para a prática médica: o que fazer com essa evidência

Para o médico que atende em consultório, pronto-socorro ou unidade básica de saúde, o estudo da Nature Medicine traz recomendações práticas diretas:

Pergunte ativamente: ao receber um paciente, investigue se ele consultou alguma ferramenta digital antes de buscar atendimento. A informação que o chatbot forneceu pode ter influenciado a percepção de gravidade do paciente — inclusive atrasando a busca por socorro.
Eduque sobre sinais de alarme: reforce com seus pacientes que determinados sintomas nunca devem ser avaliados por chatbot antes de buscar atendimento presencial: dor torácica aguda, déficit neurológico focal de início súbito, dispneia de repouso, dor abdominal intensa com rigidez de parede, sangramento ativo com sinais de instabilidade hemodinâmica, cefaleia explosiva de início abrupto.
Documente a orientação: em prontuário, registre se o paciente relata ter recebido orientação de ferramenta digital e qual foi a recomendação recebida. Essa informação pode ser relevante em termos de segurança do paciente e rastreabilidade.
Contextualize o papel dos chatbots: essas ferramentas podem ter utilidade em educação em saúde, esclarecimento de dúvidas não urgentes e adesão terapêutica. O problema surge quando são utilizadas como substituto da avaliação médica em cenários agudos.

Regulamentação: um vácuo que precisa ser preenchido

No cenário regulatório, o estudo reforça uma lacuna crítica. A Anvisa ainda não definiu um framework específico para validação clínica de chatbots de saúde no Brasil. Nos Estados Unidos, a FDA (Food and Drug Administration) discute há anos critérios para classificação de softwares de decisão clínica como dispositivos médicos, mas não há consenso sobre padrões mínimos de segurança para ferramentas de triagem automatizada.

A União Europeia avançou com o Regulamento Europeu sobre Sistemas Automatizados (EU Act), que classifica aplicações em saúde como "alto risco" e exige validação clínica rigorosa antes da disponibilização ao público. O Brasil, por meio do PL 2338/2023 (Marco Legal de Sistemas Automatizados), segue trajetória semelhante, mas a implementação ainda é incerta.

O ponto central é: enquanto não houver validação clínica prospectiva, com métricas de segurança específicas para triagem (sensibilidade para emergências acima de 95%, por exemplo), essas ferramentas não deveriam ser promovidas — direta ou indiretamente — como substitutas de avaliação médica.

Limitações do estudo e perspectivas

Os autores reconhecem limitações importantes. As vinhetas clínicas, embora padronizadas, não reproduzem a complexidade de uma interação real, onde pacientes fornecem informações de forma não estruturada, fragmentada e por vezes contraditória. Além disso, modelos de linguagem passam por atualizações frequentes — o desempenho observado reflete uma versão específica da ferramenta em um momento específico.

Essas limitações, contudo, não diminuem a relevância dos achados. Se o sistema falha em cenários padronizados — onde a informação clínica é clara e completa —, é razoável supor que o desempenho será igual ou inferior em situações reais, onde a ambiguidade é a regra.

Estudos futuros deverão avaliar versões atualizadas, idealmente com desenhos prospectivos e amostras de pacientes reais, incluindo desfechos clínicos (tempo até o tratamento, mortalidade, reinternação). Essa é a evidência que ainda falta para uma conclusão definitiva.

Conclusão: tecnologia como aliada, não como substituta

A medicina sempre incorporou novas tecnologias — do estetoscópio à tomografia computadorizada, do eletrocardiograma ao sequenciamento genômico. Chatbots de saúde podem, no futuro, ocupar um espaço legítimo na jornada do paciente. Mas o estudo da Nature Medicine deixa claro que esse momento ainda não chegou para a triagem de emergência.

O julgamento clínico — construído sobre anos de formação, prática supervisionada, e a capacidade humana de integrar informações clínicas, contextuais e emocionais simultaneamente — permanece insubstituível nos cenários onde cada minuto conta. Ferramentas digitais devem ser vistas como complemento, não como atalho.

Para o profissional de saúde brasileiro, a mensagem é clara: mantenha-se como referência primária para seus pacientes, especialmente quando a queixa é aguda. E para o paciente: quando os sintomas assustam, o destino correto é o pronto-socorro — não a tela do celular.

Referência

Nature Medicine, 2026. "ChatGPT Health triage advice falls short in key cases." DOI: 10.1038/s41591-026-04427-1

Conteúdo educativo. Não substitui consulta médica profissional.

Triagem por chatbot falha nos casos que mais importam