La IA en la medicina, entre avances y límites: desafíos en los diagnósticos clínicos
Un estudio plantea preguntas sobre la capacidad de los modelos tecnológicos para replicar la complejidad de las interacciones médico-paciente, informa New Scientist
Un estudio reciente, revelado por investigadores de la Universidad de Harvard publicado en New Scientist, destaca que, aunque modelos avanzados como GPT-4 de OpenAI obtienen resultados impresionantes en pruebas de opción múltiple, sus capacidades se desploman en entornos más realistas donde deben interactuar con pacientes para recopilar información y emitir diagnósticos.
Pranav Rajpurkar, uno de los autores principales del estudio, señaló que los modelos de IA enfrentan grandes desafíos en el razonamiento diagnóstico abierto, una habilidad clave en la medicina.
“Aunque los modelos de lenguaje de gran tamaño son muy eficaces en pruebas estandarizadas, su precisión se reduce significativamente en conversaciones dinámicas con pacientes”, explicó Rajpurkar.
Para explorar esta brecha, los investigadores desarrollaron un método innovador para evaluar la capacidad de razonamiento clínico de los modelos de IA.
Este nuevo estándar, denominado CRAFT-MD, utiliza simulaciones que reflejan situaciones reales en las que los pacientes no siempre saben qué detalles mencionar y revelan información relevante solo cuando son guiados por preguntas específicas.
Cómo funciona CRAFT-MD
El estándar CRAFT-MD basa sus evaluaciones en 2.000 casos médicos, en su mayoría extraídos de exámenes de certificación profesional en Estados Unidos. En las simulaciones, GPT-4 actuó como un paciente virtual en conversaciones con modelos clínicos, proporcionando respuestas basadas en datos reales.
Además, GPT-4 ayudó a calificar los diagnósticos emitidos por las IA clínicas, comparándolos con las respuestas correctas. Expertos humanos supervisaron el proceso para verificar la calidad de las interacciones y la precisión de los diagnósticos.
Resultados: el desafío de las conversaciones simuladas
Los resultados mostraron una discrepancia significativa entre el desempeño de los modelos en exámenes estandarizados y en conversaciones simuladas.
GPT-4, por ejemplo, logró una precisión del 82 % al diagnosticar a partir de resúmenes estructurados y opciones múltiples, pero esta cifra se desplomó al 26 % cuando se enfrentó a conversaciones clínicas simuladas.
Otros modelos, como GPT-3.5 (OpenAI), Llama-2-7b (Meta) y Mistral-v2-7b (Mistral AI), mostraron un rendimiento aún más bajo, con Llama generalmente obteniendo las puntuaciones más bajas. Incluso en los casos donde las IA lograron recopilar información médica relevante, muchas veces no pudieron emitir diagnósticos acertados.
Más allá de las pruebas
Para expertos como Eric Topol, del Instituto de Investigación Traslacional Scripps, este tipo de evaluación representa un cambio significativo.
“Evaluar la capacidad de razonamiento clínico de una IA a través de conversaciones es mucho más útil que los exámenes de opción múltiple, ya que estos no reflejan las complejidades del mundo real”, señaló Topol.
En situaciones reales, los médicos no solo deben recopilar información y emitir diagnósticos, sino también interpretar señales no verbales, considerar el contexto emocional y social del paciente y adaptarse a la incertidumbre. Estos elementos hacen que la interacción médico-paciente sea una tarea difícil de replicar por máquinas.
IA como herramienta complementaria, no sustituta
Pranav Rajpurkar enfatizó que incluso si los modelos de IA logran superar el estándar CRAFT-MD, no significa que sean superiores a los médicos humanos.
La práctica médica real implica una combinación de habilidades técnicas, empatía, coordinación interdisciplinaria y adaptación a factores sociales y sistémicos complejos.
“La IA podría convertirse en una herramienta poderosa para apoyar a los médicos, pero no puede reemplazar el juicio holístico de un profesional experimentado”, añadió Rajpurkar.
Retos y oportunidades
Aunque los resultados actuales subrayan las limitaciones de la IA en medicina, también abren nuevas posibilidades. Herramientas como CRAFT-MD permiten identificar áreas clave de mejora y avanzar hacia modelos más robustos que puedan complementar el trabajo clínico.
En un escenario ideal, los modelos de IA podrían encargarse de tareas específicas como análisis de datos complejos o procesamiento de grandes volúmenes de información, liberando a los médicos para enfocarse en el aspecto humano del cuidado de la salud.
Sin embargo, alcanzar este equilibrio requiere más investigación, recursos y, sobre todo, una integración ética que respete los límites de la tecnología.
Aunque la inteligencia artificial tiene el potencial de transformar la medicina, su implementación debe abordarse con cautela. Los modelos actuales, a pesar de sus impresionantes capacidades en contextos estructurados, todavía están lejos de reemplazar las habilidades humanas en la práctica clínica. El desafío radica en encontrar un equilibrio donde la tecnología no desplace, sino que refuerce el arte de la medicina.