Un estudio advirtió sobre los riesgos de usar chatbots de IA para buscar consejos médicos

IA

Un estudio de Oxford reveló que los chatbots de IA fallaron en dar consejos médicos y no superaron las búsquedas en internet.

Los modelos de lenguaje (LLM, por sus siglas en inglés), basados en inteligencia artificial (IA) y entrenados para procesar el lenguaje, supusieron un riesgo para quienes buscaron asesoramiento en temas de salud. Estos modelos dieron información con errores y variaciones entre consultas.

Un estudio publicado en Nature Medicine mostró que existió una brecha entre lo que prometieron los LLM y lo que ofrecieron a pacientes que buscaron información sobre sus síntomas.

El estudio, liderado por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, concluyó que quienes recurrieron a la IA para decidir sobre la gravedad de una afección tomaron decisiones del mismo tipo que quienes buscaron en internet o confiaron en su juicio.

Proveedores de salud a nivel mundial propusieron los LLM como herramientas para realizar evaluaciones de salud y gestionar afecciones antes de acudir a un médico.

Para probar esta capacidad de la IA, los autores del estudio evaluaron si los LLM podían ayudar a los ciudadanos a identificar afecciones como un resfriado, anemia o cálculos biliares y a decidir si acudir al médico de cabecera o al hospital.

Le puede interesar: Abren investigación a Google por usar contenidos online para alimentar la IA

El estudio reveló que quienes usaron la IA no tomaron decisiones de otro tipo que quienes buscaron información en internet o confiaron en su juicio.

El equipo realizó un ensayo con 1.300 participantes a los que pidió identificar condiciones de salud y recomendar acciones.

Los escenarios, descritos por médicos, incluían desde un joven con dolor de cabeza tras salir de noche hasta una madre que se sentía sin energía y sin aliento.

Un grupo usó un LLM para tomar decisiones, mientras que otro grupo utilizó fuentes como consultas en internet.

Los resultados revelaron una brecha entre lo que se esperó del rendimiento de la IA y lo que ocurrió en la práctica.

Al revisar las interacciones entre humanos y LLM, el equipo descubrió fallos en la comunicación: los participantes dieron menos información de la que se necesitó al modelo, y los LLM generaron información con errores y recomendaciones que mezclaron aciertos y fallas.

El estudio concluyó que los LLM no se pudieron implementar en la atención al paciente en ese momento.