Demenza nei principali chatbot AI: è quasi umana?

Demenza nei principali chatbot AI: è quasi umana?

Last Updated on Dicembre 21, 2024 by Joseph Gut – thasso

19 dicembre 2024 – L’intelligenza artificiale (IA) è la vera moda e ovunque e i chatbot sembrano sostituire il pensiero, il linguaggio, il comportamento umani e in qualche modo eliminare la necessità di interazione umana tra di noi. Dando all’IA l’impressione di essere il superuomo definitivo, uno studio molto recente pubblicato dal British Medical Journal fornisce alcune prove confortanti che persino l’IA potrebbe mantenere un po’ di umanità in quanto i chatbot AI mostrano un declino cognitivo simile alla demenza nei test, sollevando interrogativi sul loro futuro almeno in medicina.

Quasi tutti i principali modelli linguistici di grandi dimensioni o “chatbot” mostrano segni di lieve deterioramento cognitivo nei test ampiamente utilizzati per individuare i primi segni di demenza, rileva questo studio nel numero di Natale del BMJ. I risultati mostrano anche che le versioni “più vecchie” dei chatbot, come i pazienti più anziani, tendono a ottenere risultati peggiori nei test. Gli autori affermano che queste scoperte “sfidano l’ipotesi che l’intelligenza artificiale sostituirà presto i medici umani”.

Gli enormi progressi nel campo dell’intelligenza artificiale hanno portato a una raffica di eccitate e timorose speculazioni sul fatto che i chatbot possano superare i medici umani. Diversi studi hanno dimostrato che i grandi modelli linguistici (LLM) sono notevolmente abili in una serie di compiti diagnostici medici, ma la loro suscettibilità a disabilità umane come il declino cognitivo non è stata ancora esaminata.

Per colmare questa lacuna di conoscenza, i ricercatori hanno valutato le capacità cognitive dei principali LLM disponibili al pubblico, ovvero le versioni 4 e 40 di ChatGPT (sviluppate da OpenAI), Claude 3.5 “Sonnet” (sviluppato da Anthropic) e le versioni 1 e 1.5 di Gemini (sviluppate da Alphabet), utilizzando il test Montreal Cognitive Assessment (MoCA).

Il test MoCA è ampiamente utilizzato per rilevare la compromissione cognitiva e i primi segni di demenza, solitamente negli anziani. Attraverso una serie di brevi compiti e domande, valuta capacità tra cui attenzione, memoria, linguaggio, capacità visuospaziali e funzioni esecutive. Il punteggio massimo è 30 punti, con un punteggio di 26 o superiore generalmente considerato normale. Le istruzioni fornite agli LLM per ogni compito erano le stesse di quelle fornite ai pazienti umani. Il punteggio ha seguito le linee guida ufficiali ed è stato valutato da un neurologo praticante.

ChatGPT 4o ha ottenuto il punteggio più alto nel test MoCA (26 su 30), seguito da ChatGPT 4 e Claude (25 su 30), con Gemini 1.0 che ha ottenuto il punteggio più basso (16 su 30). Tutti i chatbot hanno mostrato scarse prestazioni nelle abilità visuospaziali e nei compiti esecutivi, come il compito di tracciare una traccia (collegare numeri e lettere cerchiati in ordine crescente) e il test di disegno dell’orologio (disegnare un quadrante di orologio che mostra un orario specifico). I modelli Gemini hanno fallito nel compito di richiamo ritardato (ricordare una sequenza di cinque parole). La maggior parte degli altri compiti, tra cui denominazione, attenzione, linguaggio e astrazione, sono stati eseguiti bene da tutti i chatbot.

Ma in ulteriori test visuospaziali, i chatbot non sono stati in grado di mostrare empatia o interpretare accuratamente scene visive complesse. Solo ChatGPT 4o ha superato la fase incongruente del test di Stroop, che utilizza combinazioni di nomi di colori e colori di caratteri per misurare come l’interferenza influisce sul tempo di reazione. Si tratta di risultati osservativi e gli autori riconoscono le differenze essenziali tra il cervello umano e i grandi modelli linguistici.

Tuttavia, sottolineano che il fallimento uniforme di tutti i grandi modelli linguistici in attività che richiedono astrazione visiva e funzione esecutiva evidenzia un’area significativa di debolezza che potrebbe impedirne l’uso in contesti clinici. Pertanto, concludono: “Non solo è improbabile che i neurologi vengano sostituiti da grandi modelli linguistici in tempi brevi, ma i nostri risultati suggeriscono che potrebbero presto ritrovarsi a curare nuovi pazienti virtuali, ovvero modelli di intelligenza artificiale che presentano un deficit cognitivo.

Oltre al deterioramento cognitivo e alla demenza rispetto ai chatbot AI discussi qui, thasso aveva già pubblicato diversi post sull’utilità dell’AI in quanto tale nella diagnosi precoce del cancro della pelle, o sul possibile ruolo dell’AI e dei ChatGPT nella vita quotidiana di un medico di base.

Disclaimer: le immagini e/o i video (se presenti) in questo blog potrebbero essere protetti da copyright. Tutti i diritti rimangono al proprietario di tali diritti.

dottorato di ricerca; Professore di Farmacologia e Tossicologia. Esperto senior in medicina teragenomica e personalizzata e sicurezza dei farmaci individualizzata. Esperto senior in farmaco- e tossicogenetica. Esperto senior in sicurezza umana di farmaci, prodotti chimici, inquinanti ambientali e ingredienti dietetici.

Lascia un commento

Optional: Social Subscribe/Login

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.