Demenz in führenden KI-Chatbots: Ist das fast menschlich?
Last Updated on December 20, 2024 by Joseph Gut – thasso
19. Dezember 2024 – Künstliche Intelligenz (KI) ist der aktuelle Hype und überall praesent und Chatbots scheinen menschliches Denken, Sprechen, und Verhalten zu ersetzen und irgendwie die Notwendigkeit menschlicher Interaktion zwischen uns zu beseitigen. Eine sehr aktuelle Studie, die vom British Medical Journal veröffentlicht wurde, liefert einige beruhigende Beweise dafür, dass sogar KI etwas Menschlichkeit behalten kann, da KI-Chatbots in Tests einen demenzähnlichen kognitiven Abbau zeigen, was Fragen über ihre Zukunft zumindest in der Medizin aufwirft.
Fast alle führenden großen Sprachmodelle oder „Chatbots“ zeigen Anzeichen leichter kognitiver Beeinträchtigung in Tests, die häufig verwendet werden, um frühe Anzeichen von Demenz zu erkennen, so diese Studie in der Weihnachtsausgabe des BMJ. Die Ergebnisse zeigen auch, dass „ältere“ Versionen von Chatbots, wie ältere Patienten, bei den Tests tendenziell schlechter abschneiden. Die Autoren sagen, diese Ergebnisse „stellen die Annahme in Frage, dass künstliche Intelligenz bald menschliche Ärzte ersetzen wird.“
Riesige Fortschritte im Bereich der künstlichen Intelligenz haben zu einer Flut aufgeregter und ängstlicher Spekulationen darüber geführt, ob Chatbots menschliche Ärzte übertreffen können. Mehrere Studien haben gezeigt, dass große Sprachmodelle (LLMs) bei einer Reihe medizinischer Diagnoseaufgaben bemerkenswert gut geeignet sind, aber ihre Anfälligkeit für menschliche Beeinträchtigungen wie kognitiven Abbau wurde noch nicht untersucht.
Um diese Wissenslücke zu schließen, bewerteten Forscher die kognitiven Fähigkeiten der führenden, öffentlich verfügbaren LLMs, d. h. ChatGPT Version 4 und 4o (entwickelt von OpenAI), Claude 3.5 „Sonnet“ (entwickelt von Anthropic) und Gemini Version 1 und 1.5 (entwickelt von Alphabet), mithilfe des Montreal Cognitive Assessment (MoCA)-Tests.
Der MoCA-Test wird häufig verwendet, um kognitive Beeinträchtigungen und frühe Anzeichen von Demenz zu erkennen, normalerweise bei älteren Erwachsenen. Anhand einer Reihe kurzer Aufgaben und Fragen bewertet er Fähigkeiten wie Aufmerksamkeit, Gedächtnis, Sprache, visuell-räumliche Fähigkeiten und exekutive Funktionen. Die Höchstpunktzahl beträgt 30 Punkte, wobei eine Punktzahl von 26 oder mehr im Allgemeinen als normal gilt. Die Anweisungen, die den LLMs für jede Aufgabe gegeben wurden, waren dieselben wie die, die menschlichen Patienten gegeben wurden. Die Bewertung folgte den offiziellen Richtlinien und wurde von einem praktizierenden Neurologen ausgewertet.
ChatGPT 4o erreichte die höchste Punktzahl im MoCA-Test (26 von 30), gefolgt von ChatGPT 4 und Claude (25 von 30), während Gemini 1.0 die niedrigste Punktzahl erreichte (16 von 30). Alle Chatbots zeigten schlechte Leistungen bei visuell-räumlichen Fähigkeiten und exekutiven Aufgaben, wie der Spurherstellungsaufgabe (Verbinden eingekreister Zahlen und Buchstaben in aufsteigender Reihenfolge) und dem Uhrenzeichentest (Zeichnen eines Zifferblatts, das eine bestimmte Zeit anzeigt). Gemini-Modelle scheiterten bei der Aufgabe des verzögerten Erinnerns (Erinnern einer Fünf-Wort-Sequenz). Die meisten anderen Aufgaben, einschließlich Benennung, Aufmerksamkeit, Sprache und Abstraktion, wurden von allen Chatbots gut ausgeführt.
In weiteren visuell-räumlichen Tests waren Chatbots jedoch nicht in der Lage, Empathie zu zeigen oder komplexe visuelle Szenen genau zu interpretieren. Nur ChatGPT 4o war im inkongruenten Stadium des Stroop-Tests erfolgreich, der Kombinationen aus Farbnamen und Schriftfarben verwendet, um zu messen, wie sich Interferenzen auf die Reaktionszeit auswirken. Dies sind Beobachtungsergebnisse und die Autoren erkennen die wesentlichen Unterschiede zwischen dem menschlichen Gehirn und großen Sprachmodellen an.
Sie weisen jedoch darauf hin, dass das einheitliche Versagen aller großen Sprachmodelle bei Aufgaben, die visuelle Abstraktion und exekutive Funktionen erfordern, einen erheblichen Schwachpunkt aufzeigt, der ihren Einsatz in klinischen Umgebungen behindern könnte. Daher kommen sie zu dem Schluss: „Es ist nicht nur unwahrscheinlich, dass Neurologen in absehbarer Zeit durch große Sprachmodelle ersetzt werden, sondern unsere Ergebnisse deuten auch darauf hin, dass sie bald neue, virtuelle Patienten behandeln könnten, d. h. künstliche Intelligenzmodelle mit kognitiven Beeinträchtigungen.
Abgesehen von kognitiven Beeinträchtigungen und Demenz im Zusammenhang mit KI-Chatbots, die hier diskutiert werden, hatte thasso bereits mehrere Beiträge zur Nützlichkeit von KI als solcher bei der Früherkennung von Hautkrebs, bei der frühen Erkennung seltener Krankheiten oder zur möglichen Rolle von KI und ChatGPTs im Alltag eines Allgemeinmediziners.
Sehen Sie hier eine Sequenz zur möglichen Rolle von KI in Demenz-Patienten:
Haftungsausschluss: Bilder und/oder Videos (sofern vorhanden) in diesem Blog können urheberrechtlich geschützt sein. Alle Rechte verbleiben beim Inhaber dieser Rechte.
Leave a Reply
You must be logged in to post a comment.
Optional: Social Subscribe/Login