La démence chez les principaux chatbots d’IA: est-ce presque humain?

La démence chez les principaux chatbots d’IA: est-ce presque humain?

Last Updated on décembre 20, 2024 by Joseph Gut – thasso

19 décembre 2024 – L’intelligence artificielle (IA) est à la mode et partout et les chatbots semblent remplacer la pensée, la parole, le comportement humains et éliminent en quelque sorte le besoin d’interaction humaine entre nous. Donnant à l’IA l’impression d’être le surhomme ultime, une étude très récente publiée par le British Medical Journal fournit des preuves réconfortantes que même l’IA peut conserver une certaine humanité dans la mesure où les chatbots IA montrent un déclin cognitif de type démence lors des tests, soulevant des questions sur leur avenir au moins en médecine.

Presque tous les principaux grands modèles de langage ou « chatbots » montrent des signes de déficience cognitive légère dans les tests largement utilisés pour détecter les premiers signes de démence, révèle cette étude dans le numéro de Noël du BMJ. Les résultats montrent également que les versions « plus anciennes » des chatbots, comme les patients plus âgés, ont tendance à avoir de moins bons résultats aux tests. Les auteurs affirment que ces résultats « remettent en cause l’hypothèse selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains ».

Les avancées considérables dans le domaine de l’intelligence artificielle ont donné lieu à une vague de spéculations, à la fois enthousiastes et craintives, quant à savoir si les chatbots peuvent surpasser les médecins humains. Plusieurs études ont montré que les grands modèles linguistiques (LLM) sont remarquablement compétents dans toute une gamme de tâches de diagnostic médical, mais leur sensibilité aux déficiences humaines telles que le déclin cognitif n’a pas encore été examinée.

Pour combler cette lacune dans les connaissances, les chercheurs ont évalué les capacités cognitives des principaux LLM accessibles au public, à savoir ChatGPT versions 4 et 4o (développés par OpenAI), Claude 3.5 « Sonnet » (développé par Anthropic) et Gemini versions 1 et 1.5 (développés par Alphabet), à l’aide du test d’évaluation cognitive de Montréal (MoCA).

Le test MoCA est largement utilisé pour détecter les troubles cognitifs et les premiers signes de démence, généralement chez les personnes âgées. Au moyen d’un certain nombre de tâches et de questions courtes, il évalue des capacités telles que l’attention, la mémoire, le langage, les compétences visuospatiales et les fonctions exécutives. Le score maximum est de 30 points, un score de 26 ou plus étant généralement considéré comme normal. Les instructions données aux LLM pour chaque tâche étaient les mêmes que celles données aux patients humains. La notation suivait les directives officielles et était évaluée par un neurologue en exercice.

ChatGPT 4o a obtenu le score le plus élevé au test MoCA (26 sur 30), suivi de ChatGPT 4 et Claude (25 sur 30), Gemini 1.0 obtenant le score le plus bas (16 sur 30). Tous les chatbots ont montré de faibles performances dans les compétences visuospatiales et les tâches exécutives, telles que la tâche de création de sentiers (reliant des chiffres et des lettres entourés dans l’ordre croissant) et le test de dessin d’horloge (dessiner un cadran d’horloge indiquant une heure précise). Les modèles Gemini ont échoué à la tâche de rappel différé (se souvenir d’une séquence de cinq mots). La plupart des autres tâches, notamment la dénomination, l’attention, le langage et l’abstraction, ont été bien exécutées par tous les chatbots.

Mais dans d’autres tests visuospatiaux, les chatbots n’ont pas pu faire preuve d’empathie ou interpréter avec précision des scènes visuelles complexes. Seul ChatGPT 4o a réussi l’étape incongruente du test Stroop, qui utilise des combinaisons de noms de couleurs et de couleurs de police pour mesurer comment l’interférence affecte le temps de réaction. Il s’agit de résultats d’observation et les auteurs reconnaissent les différences essentielles entre le cerveau humain et les grands modèles de langage.

Ils soulignent cependant que l’échec uniforme de tous les grands modèles de langage dans les tâches nécessitant une abstraction visuelle et une fonction exécutive met en évidence un domaine de faiblesse important qui pourrait entraver leur utilisation dans les contextes cliniques. Ainsi, ils concluent : « Non seulement les neurologues ne sont pas susceptibles d’être remplacés par de grands modèles de langage dans un avenir proche, mais nos résultats suggèrent qu’ils pourraient bientôt se retrouver à traiter de nouveaux patients virtuels, c’est-à-dire des modèles d’intelligence artificielle présentant une déficience cognitive.

Outre les troubles cognitifs et la démence liés aux chatbots IA évoqués ici, Thasso avait déjà publié plusieurs articles sur l’utilité de l’IA en tant que telle dans la détection précoce du cancer de la peau, dans la reconnaissance des maladies rares ou sur le rôle possible de l’IA et des ChatGPT dans la vie quotidienne d’un médecin de premier recours.

Voir ici une séquence sur l’utilisation des chatbots en santé: état des connaissances et application en périnatalité:

Avertissement: les images et/ou vidéos (le cas échéant) de ce blog peuvent être protégées par des droits d’auteur. Tous les droits restent la propriété du propriétaire de ces droits.

Professeur de pharmacologie et de toxicologie. Expert en médecine théragenomique et personnalisé el le sécurité individualisé des médicaments. Expert dans pharmaco- et toxico-génétique. Expert en matière de sécurité humaine de médicaments, les produits chimiques, les polluants environnementaux, et des ingrédients alimentaires.

Laisser un commentaire

Optional: Social Subscribe/Login

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.