Demência nos principais chatbots de IA: é quase humana?
Last Updated on Dezembro 21, 2024 by Joseph Gut – thasso
19 de dezembro de 2024 – A inteligência artificial (IA) é o verdadeiro exagero e em todo o lado e os Chatbots parecem substituir o pensamento, a fala e o comportamento humanos e, de alguma forma, eliminando a necessidade de interação humana entre nós. Dando à IA a impressão de ser o super-humano definitivo, um estudo muito recente publicado pelo British Medical Journal fornece algumas provas reconfortantes de que até a IA pode reter alguma humanidade, na medida em que os chatbots de IA mostram um declínio cognitivo semelhante à demência nos testes, levantando questões sobre o seu futuro pelo menos na medicina.
Quase todos os principais modelos de linguagem de grande porte ou “chatbots” mostram sinais de défice cognitivo ligeiro em testes amplamente utilizados para detetar sinais precoces de demência, conclui este estudo na edição de Natal do BMJ. Os resultados mostram também que as versões “mais antigas” de chatbots, bem como os pacientes mais velhos, tendem a ter um pior desempenho nos testes. Os autores dizem que estas descobertas “desafiam a suposição de que a inteligência artificial substituirá em breve os médicos humanos”.
Enormes avanços no campo da inteligência artificial levaram a uma enxurrada de especulações entusiasmadas e temerosas sobre se os chatbots podem superar os médicos humanos. Vários estudos demonstraram que os grandes modelos de linguagem (LLMs) são notavelmente adeptos de uma série de tarefas de diagnóstico médico, mas a sua suscetibilidade a deficiências humanas, como o declínio cognitivo, ainda não foi examinada.
Para colmatar esta lacuna de conhecimento, os investigadores avaliaram as capacidades cognitivas dos principais LLMs disponíveis publicamente, nomeadamente, o ChatGPT versões 4 e 4o (desenvolvido pela OpenAI), o Claude 3.5 “Sonnet” (desenvolvido pela Anthropic) e o Gemini versões 1 e 1.5 ( desenvolvido pela Alphabet), através do teste Montreal Cognitive Assessment (MoCA).
O teste MoCA é amplamente utilizado para detetar o défice cognitivo e sinais precoces de demência, geralmente em adultos mais velhos. Através de uma série de tarefas e perguntas curtas, avalia competências incluindo atenção, memória, linguagem, competências visuoespaciais e funções executivas. A pontuação máxima é de 30 pontos, sendo que uma pontuação de 26 ou superior é geralmente considerada normal. As instruções dadas aos LLMs para cada tarefa foram as mesmas que foram dadas aos doentes humanos. A pontuação seguiu as diretrizes oficiais e foi avaliada por um neurologista em exercício.
O ChatGPT 4o obteve a pontuação mais elevada no teste MoCA (26 em 30), seguido pelo ChatGPT 4 e Claude (25 em 30), sendo que o Gemini 1,0 obteve a pontuação mais baixa (16 em 30). Todos os chatbots apresentaram um baixo desempenho em competências visuoespaciais e tarefas executivas, como a tarefa de fazer trilhos (ligar números e letras circuladas por ordem crescente) e o teste de desenho de relógios (desenhar um mostrador de relógio mostrando uma hora específica). Os modelos Gemini falharam a tarefa de recordação diferida (recordar uma sequência de cinco palavras). A maioria das outras tarefas, incluindo a nomeação, a atenção, a linguagem e a abstração, foram bem executadas por todos os chatbots.
Mas em testes visuoespaciais posteriores, os chatbots não conseguiram demonstrar empatia ou interpretar com precisão cenas visuais complexas. Apenas o ChatGPT 4o teve sucesso na fase incongruente do teste Stroop, que utiliza combinações de nomes de cores e cores de fontes para medir como a interferência afeta o tempo de reação. Estas são descobertas observacionais e os autores reconhecem as diferenças essenciais entre o cérebro humano e os grandes modelos de linguagem.
No entanto, salientam que o fracasso uniforme de todos os grandes modelos de linguagem em tarefas que requerem abstração visual e função executiva destaca uma área significativa de fraqueza que poderá impedir a sua utilização em ambientes clínicos. Como tal, concluem: “Não só é pouco provável que os neurologistas sejam substituídos por grandes modelos de linguagem num futuro próximo, como as nossas descobertas sugerem que em breve poderão tratar novos pacientes virtuais, ou seja, modelos de inteligência artificial que apresentam comprometimento cognitivo .
Para além do défice cognitivo e da demência em relação aos Chatbots de IA aqui discutidos, Thasso já tinha vários posts sobre a utilidade da IA como tal na deteção precoce do cancro de pele, no reconhecimento de doenças raras ou no possível papel da IA e dos ChatGPTs na vida diária de um médico de cuidados primários.
Isenção de responsabilidade: as imagens e/ou vídeos (se existirem) neste blogue podem estar protegidos por direitos de autor. Todos os direitos permanecem com o titular de tais direitos.
Deixe um comentário
Tem de iniciar a sessão para publicar um comentário.
Optional: Social Subscribe/Login