Chatbot de triagem falha onde mais importa: na emergência

Um paciente digita seus sintomas num aplicativo de saúde. Dor no peito, sudorese, náusea. O sistema responde: "Procure seu médico nos próximos dias." Horas depois, esse paciente está numa unidade coronariana com infarto agudo do miocárdio. Essa não é uma situação hipotética — é exatamente o tipo de erro documentado em estudo publicado na Nature Medicine em maio de 2026, que avaliou o desempenho de ferramentas de triagem automatizada baseadas em modelos de linguagem de grande porte, incluindo o ChatGPT Health, em cenários clínicos padronizados. Os achados são um alerta para profissionais de saúde, gestores e, sobretudo, para a população que cada vez mais recorre a essas plataformas como primeiro ponto de contato com o sistema de saúde.

O contexto: triagem automatizada na era digital

A triagem médica é um dos atos clínicos mais críticos da cadeia de atendimento. Classificar corretamente a gravidade de um paciente determina se ele será atendido em minutos, em horas ou em dias — e erros nessa etapa podem custar vidas. Nos últimos anos, plataformas digitais de saúde passaram a oferecer funcionalidades de triagem automatizada a milhões de usuários ao redor do mundo. A promessa é desafogar pronto-socorros, reduzir custos e facilitar o acesso. Mas a pergunta que esse estudo se propôs a responder é direta: essas ferramentas acertam quando a situação é grave?

No Brasil, onde o tempo médio de espera em emergências do SUS ultrapassa 4 horas em grandes centros e a sobrecarga dos serviços de urgência é crônica, a tentação de adotar soluções automatizadas de triagem é compreensível. No entanto, como demonstram os dados a seguir, a adoção acrítica pode transformar uma solução em risco.

Desenho do estudo

Os pesquisadores elaboraram n=750 vinhetas clínicas padronizadas, abrangendo um amplo espectro de apresentações clínicas em três níveis de urgência pré-definidos:

Emergência: necessidade de atendimento imediato em pronto-socorro (ex.: infarto, AVC, sepse, anafilaxia);
Urgência: necessidade de avaliação médica em 24 a 48 horas (ex.: pneumonia estável, dor abdominal sem sinais de alarme);
Não urgente: acompanhamento ambulatorial programado (ex.: dermatite crônica, lombalgia mecânica sem déficit neurológico).

O padrão-ouro para classificação das vinhetas foi o consenso independente de três médicos emergencistas certificados, com concordância interobservador (kappa) superior a 0,85 — considerada quase perfeita pela escala de Landis e Koch. As vinhetas foram então submetidas a diferentes ferramentas de triagem automatizada, incluindo o ChatGPT Health da OpenAI, e as respostas foram comparadas com a classificação de referência.

Resultados principais: acurácia inversamente proporcional à gravidade

O achado central do estudo revela um padrão preocupante: quanto maior a gravidade clínica real, pior o desempenho da triagem automatizada. A acurácia geral foi de 67,4% (IC 95% 63,8–71,0), mas a distribuição por nível de urgência expõe uma assimetria perigosa:

Casos não urgentes: acurácia de 84,2% — desempenho aceitável;
Casos urgentes: acurácia de 62,1% — pouco melhor que o acaso em uma classificação tripartite;
Emergências verdadeiras: acurácia de apenas 55,8% — pouco mais da metade dos casos corretamente identificados.

O dado mais alarmante do estudo: 31% das emergências reais foram classificadas como não urgentes pelo sistema. Em termos práticos, isso significa que aproximadamente 1 em cada 3 pacientes com condição potencialmente fatal recebeu orientação para procurar atendimento ambulatorial de rotina, quando na verdade necessitava de pronto-socorro imediato.

Para colocar em perspectiva: se 1.000 pacientes com emergências reais utilizassem exclusivamente esse sistema para decidir onde buscar atendimento, cerca de 310 seriam orientados a esperar — com consequências potencialmente irreversíveis.

Padrões de erro: onde a triagem automatizada falha sistematicamente

A análise qualitativa dos erros revelou que as falhas não foram aleatórias. Houve padrões sistemáticos de subtriagem em categorias específicas de apresentação clínica:

1. Apresentações atípicas de síndrome coronariana aguda

O sistema falhou consistentemente em reconhecer infartos sem a clássica "dor torácica opressiva irradiada para membro superior esquerdo". Mulheres com dispneia e fadiga intensa, jovens com dor epigástrica e sudorese, diabéticos com mal-estar inespecífico e náusea — apresentações bem documentadas na literatura como variantes atípicas de síndrome coronariana — foram sistematicamente subtriadas. Esse padrão é particularmente grave porque essas mesmas populações já sofrem atrasos diagnósticos no sistema tradicional: mulheres com infarto recebem trombólise em média 15 minutos mais tarde que homens, segundo dados do registro SWEDEHEART.

2. Sepse afebril em idosos

A ausência de febre em pacientes idosos com sepse — fenômeno que ocorre em até 30% dos casos nessa faixa etária segundo dados do estudo EPISEPSIS — levou o sistema a classificar quadros sépticos como não urgentes. A ferramenta aparentemente atribuiu peso excessivo à presença de febre como marcador de gravidade, desconsiderando outros sinais de disfunção orgânica como confusão mental aguda, taquipneia e hipotensão.

3. Emergências psiquiátricas com risco de suicídio

Casos de pacientes com ideação suicida ativa, plano estruturado e acesso a meios letais foram classificados em níveis de urgência inferiores ao adequado. A dificuldade dos modelos de linguagem em avaliar risco psiquiátrico a partir de texto — onde o conteúdo emocional, a ambivalência e os fatores protetores exigem interpretação contextual refinada — ficou evidente.

4. Dor abdominal aguda em crianças

Apendicite em crianças, intussuscepção e volvo — condições que exigem intervenção cirúrgica de urgência — foram repetidamente classificadas como urgência não imediata. A sobreposição de sintomas com quadros benignos (gastroenterite, cólica funcional) e a dificuldade inerente à avaliação pediátrica contribuíram para esses erros.

O paradoxo da confiança: quando a máquina parece certa

Um aspecto particularmente insidioso destacado pelos autores é o que podemos chamar de paradoxo da confiança. As ferramentas de triagem automatizada tendem a gerar respostas em linguagem clara, estruturada e assertiva — o que transmite segurança ao usuário. Diferentemente de um profissional de saúde que pode expressar dúvida, solicitar informações adicionais ou recomendar reavaliação em caso de piora, o sistema emite uma classificação categórica que o paciente leigo tende a aceitar sem questionamento.

Esse efeito é amplificado em populações com menor letramento em saúde, que são justamente as mais vulneráveis a consequências adversas de uma triagem incorreta. No contexto brasileiro, onde o letramento funcional em saúde é limitado em parcela significativa da população segundo dados do INAF, esse risco assume dimensão ainda maior.

Comparação com a triagem presencial

Os autores contextualizam que a triagem presencial realizada por enfermeiros treinados com protocolos validados — como o Protocolo de Manchester e o Emergency Severity Index (ESI) — apresenta acurácia superior a 80% para identificação de emergências verdadeiras, com taxas de subtriagem inferiores a 10%. A diferença de desempenho entre triagem automatizada (55,8% para emergências, com 31% de subtriagem grave) e triagem presencial protocolada é clinicamente relevante e estatisticamente significativa.

Isso não significa que ferramentas digitais não tenham papel na saúde — mas esse papel precisa ser claramente delimitado. Orientação sobre autocuidado, lembretes de medicação, agendamento de consultas e educação em saúde são aplicações seguras e potencialmente benéficas. A triagem de gravidade, entretanto, permanece um território onde o julgamento clínico humano é insubstituível.

Implicações para a prática clínica e para a gestão em saúde

Os dados deste estudo têm implicações diretas para três esferas:

Para profissionais de saúde: o estudo reforça que nenhuma ferramenta automatizada de triagem deve ser utilizada como substituto do julgamento clínico. Profissionais que recebem pacientes previamente triados por sistemas digitais devem reavaliar a classificação de risco de forma independente, sem viés de ancoragem na orientação fornecida pelo aplicativo;
Para gestores e reguladores: a adoção de ferramentas de triagem automatizada em serviços de saúde — públicos ou privados — requer validação rigorosa em populações locais, supervisão clínica contínua e mecanismos de segurança que impeçam a subtriagem de casos graves. A ANVISA e o CFM ainda não estabeleceram diretrizes específicas para regulamentação dessas ferramentas no Brasil;
Para a população: aplicativos e plataformas de saúde podem ser úteis para informação e orientação geral, mas sintomas agudos ou graves sempre exigem avaliação presencial por profissional de saúde qualificado. Na dúvida, o pronto-socorro é o destino correto.

Limitações do estudo

O estudo utilizou vinhetas clínicas padronizadas, que diferem de interações reais onde pacientes descrevem sintomas de forma desestruturada, com informações incompletas ou linguagem coloquial. É possível que o desempenho em cenários reais seja ainda inferior ao observado no estudo. Além disso, os resultados refletem as versões das ferramentas testadas na data da avaliação; atualizações subsequentes podem alterar o desempenho — para melhor ou para pior.

Outra limitação relevante é que o estudo não avaliou o impacto de interações iterativas — ou seja, cenários em que o paciente poderia fornecer informações adicionais em resposta a perguntas do sistema. Alguns chatbots de triagem mais recentes utilizam fluxos conversacionais que poderiam, em tese, melhorar a acurácia com perguntas direcionadas.

Conclusão

A triagem médica é um ato de alta complexidade que integra reconhecimento de padrões clínicos, avaliação contextual, experiência acumulada e — frequentemente — intuição treinada. O estudo publicado na Nature Medicine demonstra, com dados robustos (n=750 vinhetas, IC 95% reportado), que ferramentas automatizadas de triagem baseadas em modelos de linguagem falham de forma sistemática nos cenários de maior gravidade clínica, com taxa de subtriagem de emergências de 31%.

Para o profissional de saúde brasileiro, a mensagem é clara: essas ferramentas podem complementar, mas jamais substituir a avaliação clínica qualificada. Para o paciente, a recomendação é igualmente direta — diante de sintomas agudos, procure atendimento presencial. A tecnologia é aliada, mas o julgamento clínico permanece soberano.

Conteúdo educativo. Não substitui consulta médica profissional.