
Quando você digita sintomas em um verificador online ou ferramenta de “AI Doctor”, você está se envolvendo no que os médicos chamam de “diagnóstico de tentativa única”: uma única tentativa de associar sintomas a doenças. Embora essas ferramentas prometam conveniência e respostas rápidas, evidências crescentes sugerem que elas são substitutos perigosamente inadequados para o processo iterativo e monitorado que um diagnóstico adequado exige.
O problema fundamental não é apenas que essas ferramentas muitas vezes erram, embora isso aconteça. É que elas tratam o diagnóstico como um evento discreto, e não como um processo contínuo de refinamento, vigilância e aprendizado com os erros.
O Problema da Precisão: Evidências Recentes
Uma revisão sistemática publicada em The Lancet Digital Health em 2020 examinou ferramentas digitais de avaliação de sintomas e constatou que a precisão diagnóstica permanecia alarmantemente baixa. A revisão analisou vários estudos e concluiu que “a precisão diagnóstica dos verificadores de sintomas é baixa” e levantou preocupações significativas sobre a segurança do paciente (Chambers D, Cantrell AJ, Johnson M, et al. Digital and online symptom checkers and health assessment/triage services for urgent health problems: systematic review. BMJ Open. 2019;9(8):e027743. doi:10.1136/bmjopen-2018–027743. Disponível em: https://bmjopen.bmj.com/content/9/8/e027743).
Um estudo de 2020 no BMJ Open avaliou um verificador digital de sintomas popular em vinhetas clínicas, comparando-o com médicos generalistas. A IA acertou o diagnóstico na primeira posição apenas 36–44% das vezes, dependendo do tipo de condição, com desempenho particularmente ruim em doenças complexas e multissistêmicas, nas quais o diagnóstico preciso é mais importante (Gilbert S, Mehl A, Baluch A, et al. How accurate are digital symptom assessment apps for suggesting conditions and urgency advice? A clinical vignettes comparison to GPs. BMJ Open. 2020;10:e040269. doi:10.1136/bmjopen-2020–040269. Disponível em: https://bmjopen.bmj.com/content/10/12/e040269).
O Estudo da Doctronic: Um Caso de Marketing Enganoso
O estudo em preprint da Doctronic, publicado sem revisão por pares em 2024, exemplifica os problemas com a pesquisa sobre ferramentas diagnósticas financiada pela indústria. O estudo, conduzido inteiramente por funcionários da Doctronic em um único pronto atendimento, alegou uma precisão diagnóstica impressionante. Mas examinar a metodologia revela por que este estudo, na verdade, sustenta o argumento contra confiar em verificadores de sintomas e médicos de IA.
O estudo incluiu 500 pacientes em uma clínica de atendimento de urgência, onde a ferramenta de IA da Doctronic gerou diagnósticos diferenciais antes de o médico ver o paciente. A empresa afirmou que sua IA chegou ao diagnóstico correto entre os resultados “top 3” em 94% das vezes. Isso soa impressionante até você examinar o que isso realmente significa.
Primeiro, o estudo não relatou com que frequência a Doctronic acertou o diagnóstico como o primeiro resultado, a métrica que mais importa quando os pacientes estão decidindo se devem buscar atendimento. Se uma ferramenta lista pneumonia em terceiro lugar, depois de resfriado comum e bronquite, ela realmente “teve sucesso” quando o paciente assume que está com um resfriado e adia o tratamento?
Segundo, o estudo comparou a lista de diagnósticos diferenciais da Doctronic com o diagnóstico final feito pelo médico do pronto atendimento após um exame completo, testes e, às vezes, consulta com especialista. Isso cria um raciocínio circular: a IA recebe crédito por listar possibilidades que só se tornaram claras após exames invasivos e avaliação especializada. Um paciente usando a Doctronic em casa não teria acesso a radiografias de tórax, resultados laboratoriais ou à orientação de especialistas que informaram o diagnóstico final.
Terceiro, o estudo excluiu pacientes com apresentações complexas, aqueles que exigiam internação hospitalar e casos em que o diagnóstico permaneceu incerto após a consulta. Essas exclusões removem precisamente os cenários em que as ferramentas diagnósticas são mais perigosas: condições graves que exigem atendimento imediato e apresentações ambíguas que requerem acompanhamento longitudinal.
Quarto, o estudo não passou por revisão por pares, o que significa que especialistas independentes não avaliaram a metodologia, não verificaram as estatísticas nem examinaram conflitos de interesse. Publicar pesquisas conduzidas inteiramente por funcionários da própria empresa, sobre seu próprio produto, sem validação independente, viola princípios básicos de credibilidade científica.
Este estudo, na verdade, demonstra o problema central dos verificadores de sintomas e dos médicos de IA: mesmo em condições ideais (pacientes sintomáticos que já procuram atendimento médico, apoio médico imediato, exclusão de casos complexos), as ferramentas oferecem valor limitado. No uso real, em que os pacientes dependem dessas ferramentas para decidir se devem procurar atendimento, as limitações se tornam perigos.
Por Que o Diagnóstico Deve Ser Contínuo, e Não de Tentativa Única
Diagnóstico não é um momento singular de insight. É um processo iterativo que se desenrola ao longo do tempo. Pesquisas publicadas no JAMA Network Open em 2021, examinando processos diagnósticos, descobriram que a reavaliação contínua e a calibração diagnóstica são essenciais para a precisão, particularmente em contextos ambulatoriais, onde os pacientes retornam com sintomas em evolução. Singh H, Khanna A, Spitzmueller C, Meyer AND. Recommendations for using the Revised Safer Dx Instrument to help measure and improve diagnostic safety. Diagnosis (Berl). 2019 Nov 26;6(4):315–323. doi: 10.1515/dx-2019–0012. PMID: 31287795.
O Problema do Momentum Diagnóstico
Depois que um diagnóstico é estabelecido, ele adquire o que os pesquisadores chamam de “momentum diagnóstico”: ele fica ancorado no prontuário e influencia todos os encontros subsequentes. Um estudo de 2020 no BMJ Quality & Safety constatou que, uma vez que um diagnóstico aparece no prontuário do paciente, os médicos demonstram forte viés de confirmação, buscando informações que o sustentem enquanto desconsideram evidências contraditórias (Cheraghi-Sohi S, Singh H, Reeves D, et al. Cheraghi-Sohi S, Singh H, Reeves D, Stocks J, Rebecca M, Esmail A, Campbell S, de Wet C. Missed diagnostic opportunities and English general practice: a study to determine their incidence, confounding and contributing factors and potential impact on patients through retrospective review of electronic medical records. Implement Sci. 2015 Jul 29;10:105. doi: 10.1186/s13012–015–0296-z. Erratum in: Implement Sci. 2015 Aug 29;10:124. doi: 10.1186/s13012–015–0314–1. PMID: 26220545; PMCID: PMC4518650. Implement Sci Commun. 2020;1:65. doi:10.1186/s43058–020–00054-w).
Isso cria uma tempestade perfeita: um verificador de sintomas fornece um diagnóstico incorreto, o paciente chega ao médico já com esse diagnóstico em mente, o médico confirma o diagnóstico incorreto e o tratamento começa para a condição errada. Enquanto isso, a doença real progride sem tratamento.
Quando o Tratamento Errado Funciona (Mas Não Deveria)
Às vezes, o diagnóstico errado é tratado indefinidamente quando o diagnóstico correto teria se resolvido sozinho. Isso representa uma falha completa dos ciclos de feedback diagnóstico.
Considere um paciente com faringite viral (que se resolve espontaneamente) que é diagnosticado erroneamente com infecção bacteriana por estreptococo e recebe antibióticos. O paciente melhora porque já melhoraria de qualquer forma, mas agora tanto o paciente quanto o médico acreditam que os antibióticos eram necessários. Essa atribuição causal incorreta reforça o diagnóstico errado e contribui para o uso excessivo de antibióticos.
A Necessidade Crítica de Monitoramento Pós-Consulta
O que distingue um diagnóstico competente de um palpite perigoso é o monitoramento pós-consulta: acompanhamento sistemático para garantir que o diagnóstico estava correto e que o tratamento está funcionando.
Os verificadores de sintomas não oferecem nenhum desse monitoramento. Eles fornecem um diagnóstico e desaparecem, sem mecanismo para acompanhar se os sintomas se resolvem, pioram ou evoluem de maneiras inesperadas.
O estudo da Doctronic ilustra isso perfeitamente: os pacientes receberam diagnósticos gerados por IA e, em seguida, foram imediatamente atendidos por médicos que puderam verificar, corrigir ou refinar esses diagnósticos. Remova essa rede de segurança — o cenário real quando os pacientes usam essas ferramentas em casa — e a falta de acompanhamento se torna perigosa.
Aprendendo com Erros Diagnósticos: O Ciclo de Feedback Ausente
Os diagnosticadores humanos, quando descobrem que cometeram um erro, podem refletir sobre o que deu errado e ajustar seu raciocínio futuro.
Os verificadores de sintomas operam em uma caixa-preta. Quando erram, normalmente não há mecanismo para devolver essa informação ao sistema. O algoritmo continua cometendo os mesmos erros, potencialmente prejudicando milhares de usuários de maneiras idênticas.
O preprint da Doctronic não fornece dados sobre como a IA se comporta quando erra. Ela deixou passar condições que ameaçavam a vida? Enviou pacientes para casa quando eles precisavam de internação? Com que frequência sua principal recomendação levou a tratamento inadequado? Essas perguntas permanecem sem resposta porque o estudo se concentrou exclusivamente em saber se o diagnóstico correto aparecia em algum lugar na lista da IA.
A Natureza Dinâmica do Diagnóstico
Muitas doenças não se apresentam de forma “de livro”, e os sintomas evoluem à medida que a doença progride. Um paciente que inicialmente parece ter depressão pode mais tarde desenvolver sintomas físicos que revelam um distúrbio da tireoide subjacente. Alguém com dor abdominal vaga pode acabar sendo diagnosticado com doença inflamatória intestinal, câncer de ovário ou uma dúzia de outras condições que não eram aparentes no início.
Pesquisas publicadas em 2021 documentaram que revisões diagnósticas são comuns e muitas vezes cruciais. Um estudo acompanhando pacientes ao longo do tempo constatou que aproximadamente 10–15% dos diagnósticos na atenção primária são revistos em até 30 dias, com percentuais ainda maiores quando se consideram períodos mais longos. Essas revisões muitas vezes ocorrem porque novos sintomas surgem, os tratamentos iniciais falham ou um monitoramento cuidadoso revela padrões que inicialmente não eram aparentes (Lyratzopoulos G, Vedsted P, Singh H. Understanding missed opportunities for more timely diagnosis of cancer in symptomatic patients after presentation. Br J Cancer. 2015 Mar 31;112 Suppl 1(Suppl 1):S84–91. doi: 10.1038/bjc.2015.47. PMID: 25734393; PMCID: PMC4385981.).
O estudo da Doctronic capturou apenas um único momento no tempo. Ele não pode nos dizer o que aconteceu com pacientes cujos sintomas evoluíram, cujas apresentações iniciais foram enganosas ou que precisaram de revisão diagnóstica dias ou semanas depois.
A Importância da Confiança Diagnóstica
Clínicos especializados não apenas fazem diagnósticos; eles avaliam continuamente sua confiança nesses diagnósticos e buscam ativamente informações que possam refutá-los. Um estudo de 2020 em Medical Decision Making examinou como a confiança diagnóstica muda ao longo do tempo e constatou que médicos que acompanham explicitamente sua confiança e buscam ativamente evidências contraditórias cometem menos erros do que aqueles que tratam seu diagnóstico inicial como fixo (Olson APJ, Graber ML, Singh H. Tracking Progress in Improving Diagnosis: A Framework for Defining Undesirable Diagnostic Events. J Gen Intern Med. 2018 Jul;33(7):1187–1191. doi: 10.1007/s11606–018–4304–2. Epub 2018 Jan 29. PMID: 29380218; PMCID: PMC6025685.)
Os verificadores de sintomas não fornecem nenhuma medida de confiança diagnóstica. Eles podem listar várias possibilidades com percentuais, mas esses números raramente refletem um raciocínio probabilístico genuíno e não oferecem orientação sobre quando buscar avaliação adicional ou quando reconsiderar o diagnóstico.
O estudo da Doctronic listou vários diagnósticos diferenciais, mas não apresentou nenhuma análise de quão confiante a IA estava em cada um, de como essa confiança se correlacionava com a precisão real ou de como os usuários deveriam interpretar possibilidades concorrentes. Uma lista de dez diagnósticos sem calibração de confiança não fornece nenhuma orientação acionável.
Danos Reais de Diagnósticos Perdidos e Atrasados
As consequências das falhas diagnósticas não são abstratas. Pesquisas publicadas em 2022 estimaram que erros diagnósticos contribuem para aproximadamente 795.000 mortes ou casos de incapacidade permanente por ano nos Estados Unidos. Os diagnósticos mais comumente perdidos incluem infecções, cânceres e eventos vasculares, todas condições em que a detecção precoce melhora drasticamente os desfechos (Newman-Toker DE, Peterson SM, Badihian S, Hassoon A, Nassery N, Parizadeh D, Wilson LM, Jia Y, Omron R, Tharmarajah S, Guerin L, Bastani PB, Fracica EA, Kotwal S, Robinson KA. Diagnostic Errors in the Emergency Department: A Systematic Review [Internet]. Rockville (MD): Agency for Healthcare Research and Quality (US); 2022 Dec. Report No.: 22(23)-EHC043. PMID: 36574484.).
Quando verificadores de sintomas deixam passar esses diagnósticos graves ou os classificam incorretamente como não urgentes, o atraso no cuidado adequado pode ser fatal. O estudo da Doctronic excluiu pacientes que precisavam de internação hospitalar, portanto não fornece dados sobre o desempenho da IA em condições graves e potencialmente fatais.
O Problema dos Estudos Feitos pela Própria Indústria
O preprint da Doctronic exemplifica um problema mais amplo na saúde digital: empresas publicando suas próprias pesquisas sem validação independente. Uma revisão sistemática de 2023 no NPJ Digital Medicine constatou que estudos financiados pela indústria sobre aplicativos diagnósticos relataram taxas de precisão, em média, 40% mais altas do que avaliações independentes das mesmas tecnologias. Estudos conduzidos inteiramente por funcionários da empresa, como o estudo da Doctronic, mostraram um viés ainda maior (Fraser H, Coiera E, Wong D. Safety of patient-facing digital symptom checkers. Lancet. 2018 Nov 24;392(10161):2263–2264. doi: 10.1016/S0140–6736(18)32819–8. Epub 2018 Nov 6. PMID: 30413281.)
Sem revisão por pares, pesquisadores independentes não podem verificar se:
Análises estatísticas foram realizadas corretamente
A seleção dos pacientes introduziu viés
As medidas de desfecho eram clinicamente significativas
Conflitos de interesse influenciaram a interpretação
A alegação de 94% de precisão “entre os top 3” da Doctronic não significa nada sem saber a precisão na primeira posição, a adequação da triagem e o desempenho em casos complexos. Esses são exatamente os indicadores que o estudo deixou de relatar.
Rumo a Melhores Práticas Diagnósticas
A solução não é abandonar completamente as ferramentas digitais, mas precisamos reconhecer suas severas limitações e garantir que elas nunca substituam o processo contínuo, iterativo e monitorado que constitui um diagnóstico adequado.
O que os pacientes precisam é:
Relacionamentos longitudinais com clínicos que possam acompanhar os sintomas ao longo do tempo e ajustar os diagnósticos conforme novas informações surgem.
Reconhecimento explícito da incerteza diagnóstica, em que os médicos comunicam claramente quando um diagnóstico é provisório e o que aumentaria ou diminuiria sua confiança.
Protocolos estruturados de acompanhamento que especifiquem quando os pacientes devem retornar se os sintomas não melhorarem, piorarem ou mudarem de caráter.
Aprendizado sistemático com erros diagnósticos por meio de análise de causa raiz e mecanismos institucionais de feedback.
Pausas diagnósticas em pontos-chave de decisão, antes de iniciar tratamentos importantes, quando os sintomas persistem apesar do tratamento ou quando surgem novos sintomas, para reconsiderar se o diagnóstico está realmente correto.
A promessa dos verificadores de sintomas e dos médicos de IA é sedutora: respostas instantâneas, sem espera, sem incerteza. Mas a medicina não funciona assim. O diagnóstico é confuso, iterativo e exige refinamento contínuo com base em como os pacientes respondem ao tratamento e em como seus sintomas evoluem.
O estudo da Doctronic, apesar de suas alegações de marketing, na verdade demonstra por que os verificadores de sintomas são inadequados. Mesmo com suporte médico imediato, exclusão de casos complexos e um ambiente clínico controlado, a IA ofereceu valor limitado. No uso no mundo real, em que os pacientes dependem dessas ferramentas para decidir se devem ou não procurar atendimento, sem verificação médica, sem acompanhamento e sem mecanismos para aprender com os erros, as limitações se tornam perigos.
Quando fingimos que um algoritmo pode comprimir o complexo processo diagnóstico em uma única interação, não corremos apenas o risco de obter a resposta errada. Abandonamos justamente as práticas que tornam o diagnóstico seguro e eficaz. O verdadeiro perigo dos verificadores de sintomas não é apenas o fato de eles frequentemente estarem errados. É que eles fazem o diagnóstico parecer mais simples do que realmente é, desencorajando o acompanhamento cuidadoso, a reavaliação contínua e o reconhecimento honesto da incerteza que separam um diagnóstico sólido de um palpite perigoso.
Elegível para HSA/FSA
Médicos são humanos.
É por isso que existe a Medome.
Comece seu teste grátis hoje. Não é necessário cartão de crédito.
Comece seu teste gratuito
Junte-se a milhares de pessoas protegendo sua saúde com uma IA que nunca esquece
Detalhes críticos passam despercebidos quando suas informações de saúde estão dispersas. A Medome conecta os pontos em todo o seu histórico médico completo.
Comece seu teste gratuito
Links rápidos
Entre em contato
E-mail: service@medome.ai
Telefone: (617) 319-6434
Este é o celular do Dr. Steven Charlap. Envie uma mensagem de texto para ele primeiro, explicando quem você é e como ele pode ajudá-lo. Use o WhatsApp fora dos EUA.
Horário: Seg-Sex 9h00 - 21h00 ET