
Advierten que el 50% de las respuestas médicas de los chats de IA son imprecisas
Un estudio reveló que la mitad de las respuestas a preguntas basadas en evidencia científica se clasificaron como “algo” o “altamente” problemáticas.
Una investigación internacional reveló que confiar en chats de inteligencia artificial (IA) para obtener consejos de salud puede ser una apuesta arriesgada.
El estudio, liderado por investigadores del Instituto Lundquist para la Innovación Biomédica, en Estados Unidos, evaluó el desempeño de cinco de los modelos más utilizados en la actualidad:
- Gemini (Google)
- DeepSeek
- Meta AI
- ChatGPT (OpenAI)
- Grok (xAI)
Según pudo saber la Agencia Noticias Argentinas, los resultados revelaron que la mitad de las respuestas a preguntas basadas en evidencia científica se clasificaron como “algo” o “altamente” problemáticas.
Cómo fue la metodología del estudio
Para poner a prueba la fiabilidad de estos sistemas, los científicos diseñaron 250 consultas divididas en cinco categorías críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo.
De esa manera, las preguntas fueron formuladas para imitar las búsquedas comunes de los usuarios y, en algunos casos, para ‘estresar’ a los modelos hacia mitos comunes o consejos contraindicados.
El análisis determinó que el 20 % de las respuestas eran altamente problemáticas, con el potencial de dirigir a los usuarios hacia tratamientos ineficaces o causar daños directos a la salud si se seguían sin supervisión profesional.
El espejismo de la neutralidad
Uno de los aspectos más alarmantes que revela la investigación es la seguridad con la que las IA presentan la información, ya que las respuestas se expresan habitualmente con un tono de certeza absoluta, sin incluir advertencias o matices sobre las limitaciones de su conocimiento, destacan desde la agencia Sinc.
Esta falsa neutralidad, que suele equiparar afirmaciones científicas con pseudociencias, no es una decisión editorial, sino una limitación propia de la arquitectura de estos modelos, explican.
Al estar diseñados para predecir secuencias de palabras basadas en vastos conjuntos de datos, que incluyen desde artículos científicos hasta foros de Reddit, los modelos carecen de la capacidad intrínseca para verificar la información. “No pueden aplicar evidencia ni ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común”, indica Nicholas Tiller, autor principal del estudio.
El peor chatbot rankeado
El estudio revela que Grok, de la compañía xAI, obtuvo los peores resultados: el 58 % de sus respuestas fueron clasificadas como altamente problemáticas. Por el contrario, Gemini presentó el menor número de fallos críticos, según aseguraron.
Asimismo, todos los modelos fallaron en un punto clave: la accesibilidad. Según el índice de legibilidad de Flesch, la complejidad del lenguaje utilizado es equivalente a la de un graduado universitario, algo que supone un peligro para la salud pública.
La falsa credibilidad
Además, el investigador señaló un fenómeno psicológico preocupante: las respuestas más largas y complejas tienden a aumentar la confianza del usuario en la máquina, incluso cuando esa complejidad no aporta mayor precisión, lo cual "promueve una falsa credibilidad”, sentencia el autor.
Alucinaciones y citas inventadas
La incapacidad de los chatbots para citar fuentes de manera fiable fue otro punto crítico identificado por los investigadores. La calidad de las referencias fue calificada como pobre, con una puntuación media de integridad de apenas el 40 %.
El fenómeno de las ‘alucinaciones’ provocó que ningún chatbot lograra proporcionar una lista de referencias bibliográficas completamente real. En muchos casos, los modelos inventaron títulos de estudios y nombres de autores con total apariencia de veracidad.
“A medida que el uso de estos chatbots se expande, nuestros datos resaltan la necesidad de una educación pública, formación profesional y una supervisión regulatoria estricta”, concluyó el equipo de investigadores.
Fuente: Na