La demencia en los chatbots de IA más importantes: ¿es casi humana?
Last Updated on diciembre 21, 2024 by Joseph Gut – thasso
19 de diciembre de 2024 – La inteligencia artificial (IA) es la moda actual y está en todas partes, y los chatbots parecen reemplazar el pensamiento, el habla y el comportamiento humanos y, de alguna manera, eliminar la necesidad de que los humanos interactúen entre nosotros. Dando a la IA la impresión de ser el superhumano definitivo, un estudio muy reciente publicado por el British Medical Journal proporciona algunas pruebas reconfortantes de que incluso la IA puede conservar algo de humanidad, ya que los chatbots de IA muestran un deterioro cognitivo similar a la demencia en las pruebas, lo que plantea dudas sobre su futuro, al menos en la medicina.
Casi todos los principales modelos de lenguaje grandes o “chatbots” muestran signos de deterioro cognitivo leve en pruebas ampliamente utilizadas para detectar signos tempranos de demencia, según este estudio en la edición navideña del BMJ. Los resultados también muestran que las versiones “más antiguas” de los chatbots, como los pacientes mayores, tienden a obtener peores resultados en las pruebas. Los autores dicen que estos hallazgos “cuestionan la suposición de que la inteligencia artificial pronto reemplazará a los médicos humanos”.
Los enormes avances en el campo de la inteligencia artificial han dado lugar a una oleada de especulaciones, tanto excitadas como temerosas, sobre si los chatbots pueden superar a los médicos humanos. Varios estudios han demostrado que los grandes modelos de lenguaje (LLM) son notablemente hábiles para una variedad de tareas de diagnóstico médico, pero aún no se ha examinado su susceptibilidad a discapacidades humanas como el deterioro cognitivo.
Para llenar este vacío de conocimiento, los investigadores evaluaron las capacidades cognitivas de los principales LLM disponibles públicamente, es decir, las versiones 4 y 4o de ChatGPT (desarrollado por OpenAI), Claude 3.5 “Sonnet” (desarrollado por Anthropic) y Gemini versiones 1 y 1.5 (desarrollado por Alphabet), utilizando la prueba de Evaluación Cognitiva de Montreal (MoCA).
La prueba MoCA se utiliza ampliamente para detectar el deterioro cognitivo y los primeros signos de demencia, generalmente en adultos mayores. A través de una serie de tareas y preguntas breves, evalúa capacidades que incluyen la atención, la memoria, el lenguaje, las habilidades visoespaciales y las funciones ejecutivas. La puntuación máxima es de 30 puntos, y una puntuación de 26 o más se considera generalmente normal. Las instrucciones que se dieron a los LLM para cada tarea fueron las mismas que las que se dieron a los pacientes humanos. La puntuación siguió las pautas oficiales y fue evaluada por un neurólogo en ejercicio.
ChatGPT 4o logró la puntuación más alta en la prueba MoCA (26 de 30), seguido de ChatGPT 4 y Claude (25 de 30), y Gemini 1.0 obtuvo la puntuación más baja (16 de 30). Todos los chatbots mostraron un desempeño deficiente en habilidades visoespaciales y tareas ejecutivas, como la tarea de trazado de caminos (conectar números y letras encerrados en círculos en orden ascendente) y la prueba de dibujo de relojes (dibujar una esfera de reloj que muestre una hora específica). Los modelos de Gemini fallaron en la tarea de recuerdo diferido (recordar una secuencia de cinco palabras). La mayoría de las demás tareas, incluidas la denominación, la atención, el lenguaje y la abstracción, fueron bien realizadas por todos los chatbots.
Pero en otras pruebas visoespaciales, los chatbots no pudieron mostrar empatía ni interpretar con precisión escenas visuales complejas. Solo ChatGPT 4o logró superar la etapa incongruente de la prueba de Stroop, que utiliza combinaciones de nombres de colores y colores de fuente para medir cómo la interferencia afecta el tiempo de reacción. Estos son hallazgos observacionales y los autores reconocen las diferencias esenciales entre el cerebro humano y los grandes modelos de lenguaje.
Sin embargo, señalan que el fracaso uniforme de todos los grandes modelos de lenguaje en tareas que requieren abstracción visual y función ejecutiva destaca un área significativa de debilidad que podría impedir su uso en entornos clínicos. Como tal, concluyen: “No solo es poco probable que los neurólogos sean reemplazados por grandes modelos de lenguaje en un futuro próximo, sino que nuestros hallazgos sugieren que pronto podrían encontrarse tratando a nuevos pacientes virtuales, es decir, modelos de inteligencia artificial que presentan deterioro cognitivo.
Además del deterioro cognitivo y la demencia con respecto a los chatbots de IA que se analizan aquí, thasso ya había publicado varias publicaciones sobre la utilidad de la IA como tal en la detección temprana del cáncer de piel, en el reconocimiento de enfermedades raras o el posible papel de la IA y los ChatGPT en la vida diaria de un médico de atención primaria.
Descargo de responsabilidad: las imágenes y/o videos (si los hay) de este blog pueden estar sujetos a derechos de autor. Todos los derechos pertenecen al propietario de dichos derechos.
Deja una respuesta
Lo siento, debes estar conectado para publicar un comentario.
Optional: Social Subscribe/Login