Solicitar que modelos de linguagem de grande escala (LLMs) raciocinem passo a passo antes de responder melhora tanto a acurácia quanto a interpretabilidade clínica das respostas em questões complexas de oftalmologia. É o que aponta um estudo de benchmarking publicado em 9 de junho no British Journal of Ophthalmology.
Embora os LLMs já tenham demonstrado bom desempenho em exames médicos baseados em texto, sua capacidade de integrar imagens a vinhetas clínicas, uma exigência rotineira na prática oftalmológica, ainda era pouco explorada. Para preencher essa lacuna, pesquisadores liderados pelo autor correspondente Kai Jin, MD, da Universidade de Zhejiang (China), avaliaram como sistemas de visão e linguagem atuais lidam com esse desafio multimodal, e se instruir os modelos a demonstrar seu raciocínio produz diferença mensurável nos resultados.
Desenho do estudo
Três LLMs multimodais foram avaliados: CLM-V, ChatGPT-5 e MiniCPM-V 4.5. O banco de questões, composto por 316 itens bilíngues (inglês e chinês), combinava vinhetas clínicas com imagens diagnósticas e abrangia cinco subespecialidades: córnea, úvea, glaucoma, retina e órbita.
As questões foram extraídas de duas fontes: 175 itens de múltipla escolha em inglês do Basic and Clinical Science Course (BCSC) e 141 questões do exame de título sênior em oftalmologia aplicado na China. Cada modelo foi testado em duas condições: com prompts que ativam o raciocínio passo a passo (reasoning-enabled) e sem essa instrução (reasoning-disabled), permitindo isolar o efeito da estratégia de prompt.
As respostas foram pontuadas por acurácia em relação a gabaritos de referência. A qualidade do raciocínio foi avaliada por meio de uma rubrica automatizada que considerou cinco dimensões: acurácia, síntese de dados, lógica, análise das alternativas e segurança. Quatro casos foram examinados qualitativamente em profundidade, e especialistas revisaram uma amostra dos resultados.
Principais achados
O uso de prompts com raciocínio elevou os escores médios de todos os modelos nas duas línguas. No conjunto em inglês, a pontuação do CLM-V subiu de 14,97 para 16,07; a do ChatGPT-5, de 20,77 para 23,97; e a do MiniCPM-V 4.5, de 10,83 para 12,60. No conjunto em chinês, os ganhos foram igualmente consistentes: de 9,03 para 10,27 (CLM-V), de 19,95 para 22,00 (ChatGPT-5) e de 11,05 para 13,30 (MiniCPM-V 4.5).
O ChatGPT-5 obteve as melhores avaliações na revisão humana, que apresentou concordância substancial entre os avaliadores (κ = 0,87). As análises qualitativas indicaram que as respostas geradas com raciocínio ativo eram, em geral, mais claras do ponto de vista clínico, embora a magnitude do benefício variasse conforme o modelo e o idioma.
Implicações clínicas e educacionais
Os autores concluíram que os LLMs multimodais demonstram potencial real para responder a questões oftalmológicas e que prompts de raciocínio estão associados a maior interpretabilidade e, na maior parte dos cenários, a desempenho numericamente superior. No entanto, os pesquisadores foram enfáticos ao ressaltar que lacunas na robustez por subespecialidade e na interpretação de imagens tornam indispensável a avaliação rigorosa do raciocínio dos modelos antes de qualquer aplicação em contextos educacionais ou clínicos.
Os autores também destacaram que as questões utilizadas no estudo são provenientes de bancos de provas fechados e não estão disponíveis publicamente em razão de restrições de direitos autorais e acesso, mas podem ser solicitadas ao autor correspondente.
Referência
Yin H, Zhao K, Shi D, Grzybowski A, Jin K. Evaluating reasoning in multimodal large language models for ophthalmology: a bilingual benchmark study using clinical vignettes and imaging. Br J Ophthalmol. Publicado online em 9 de junho de 2026. doi:10.1136/bjo-2025-328992


