L’IA peut-elle mieux détecter le déclin cognitif qu’un médecin ? Une nouvelle étude révèle une précision surprenante

Les premiers signes de déclin cognitif n’apparaissent souvent pas dans un diagnostic formel, mais dans les petits indices enfouis dans les notes des prestataires de soins de santé.

Une nouvelle étude publiée le 7 janvier dans la revue npj Médecine Numérique suggère intelligence artificielle (IA) peut aider à identifier ces signaux précoces – tels que des problèmes de mémoire et de réflexion ou des changements de comportement – en analysant les notes du médecin à la recherche de modèles de préoccupation. Il peut s’agir de mentions récurrentes de changements cognitifs ou de confusion de la part du patient, ou d’inquiétudes mentionnées par les membres de la famille assistant au rendez-vous avec leur proche.

« L’objectif n’est pas de remplacer le jugement clinique mais de fonctionner comme une aide au dépistage », co-auteur de l’étude Dr Lidia Mouraprofesseur agrégé de neurologie au Massachusetts General Hospital, a déclaré à Live Science. En mettant en évidence ces patients, a-t-elle déclaré, le système pourrait aider les cliniciens à décider quelles personnes suivre, en particulier dans les contextes où les spécialistes sont rares.

La question de savoir si ce type de dépistage aide réellement les patients dépend de la manière dont il est utilisé, a déclaré Julia Adler-Milsteininformaticien de la santé à l’Université de Californie à San Francisco, qui n’a pas participé à l’étude. « Si les indicateurs sont précis, adressés à la bonne personne de l’équipe de soins et sont exploitables, ce qui signifie qu’ils conduisent à une prochaine étape claire, alors oui, ils peuvent être facilement intégrés dans le flux de travail clinique », a-t-elle déclaré à Live Science dans un e-mail.

Une équipe d’agents IA, pas un seul

Pour construire leur nouveau système d’IA, les chercheurs ont utilisé ce qu’ils appellent une approche « agentique ». Ce terme fait référence à un ensemble coordonné de programmes d’IA – cinq, dans ce cas – qui ont chacun un rôle spécifique et examinent le travail de chacun. Ensemble, ces agents collaborateurs ont affiné de manière itérative la façon dont le système interprétait les notes cliniques sans intervention humaine.

Les chercheurs ont construit le système sur Meta’s Llama 3.1 et lui ont donné trois années de notes médicales à étudier, y compris des visites à la clinique, des notes d’évolution et des résumés de sortie. Ceux-ci provenaient d’un registre hospitalier et avaient déjà été examinés par des cliniciens qui notaient si des problèmes cognitifs étaient présents dans le dossier d’un patient donné.

L’équipe a d’abord montré à l’IA un ensemble équilibré de notes de patients, la moitié avec des problèmes cognitifs documentés et l’autre sans, et l’a laissée apprendre de ses erreurs tout en essayant de faire correspondre la façon dont les cliniciens avaient étiqueté ces dossiers. À la fin de ce processus, le système était d’accord avec les cliniciens dans environ 91 % des cas.

Le système finalisé a ensuite été testé sur un sous-ensemble distinct de données qu’il n’avait jamais vu auparavant, mais qui a été extrait du même ensemble de données sur trois ans. Le deuxième ensemble de données était censé refléter les soins du monde réel, de sorte qu’environ un tiers seulement des enregistrements ont été étiquetés par les cliniciens comme démontrant des problèmes cognitifs.

Dans ce test, la sensibilité du système est tombée à environ 62 %, ce qui signifie qu’il a manqué près de quatre cas sur dix que les cliniciens avaient marqués comme positifs pour des signes de déclin cognitif.

À première vue, la baisse de précision ressemblait à un échec – jusqu’à ce que les chercheurs réexaminent les dossiers médicaux que l’IA et les examinateurs humains avaient classés différemment.

Les experts cliniques ont examiné ces cas en relisant eux-mêmes les dossiers médicaux, et ce, sans savoir si la classification provenait des cliniciens ou de l’IA. Dans 44 % des cas, ces examinateurs se sont finalement rangés du côté de l’évaluation du système plutôt que de l’examen initial des dossiers effectué par un médecin.

« C’était l’une des découvertes les plus surprenantes », a déclaré le co-auteur de l’étude. Hossein Estiriprofesseur agrégé de neurologie au Massachusetts General Hospital.

Dans beaucoup de ces cas, a-t-il déclaré, l’IA a appliqué les définitions cliniques de manière plus conservatrice que les médecins, refusant de signaler des inquiétudes lorsque les notes ne décrivaient pas directement les problèmes de mémoire, la confusion ou d’autres changements dans la façon de penser du patient – même si un diagnostic de déclin cognitif était répertorié ailleurs dans le dossier. L’IA a été formée pour donner la priorité aux mentions de problèmes cognitifs potentiels, essentiellement, que les médecins ne signalent pas toujours comme importants sur le moment.

Les résultats mettent en évidence les limites de l’examen manuel des dossiers par les médecins, a déclaré Moura. « Lorsque les signaux sont évidents, tout le monde les voit », a-t-elle déclaré. « Quand ils sont subtils, c’est là que les humains et les machines peuvent diverger. »

Karin Verspoorun chercheur en IA et technologies de la santé à l’Université RMIT qui n’a pas participé à l’étude, a déclaré que le système avait été évalué sur un ensemble de notes de médecins soigneusement sélectionnées et examinées par des cliniciens. Mais comme les données proviennent d’un seul réseau hospitalier, elle a prévenu que leur exactitude pourrait ne pas se traduire dans des contextes où les pratiques de documentation diffèrent.

La vision du système est limitée par la qualité des notes qu’il lit, a-t-elle déclaré, et par cette contrainte qui ne peut être surmontée qu’en optimisant le système dans divers contextes cliniques, a-t-elle soutenu.

Estiri a expliqué que, pour l’instant, le système est destiné à fonctionner discrètement en arrière-plan des visites de routine des médecins, faisant apparaître des préoccupations potentielles ainsi qu’une explication de la manière dont il les a atteints. Cela dit, il n’est pas encore utilisé en pratique clinique.

« L’idée n’est pas que les médecins soient assis là à utiliser des outils d’IA », a-t-il déclaré, « mais que le système donne un aperçu de ce que nous voyons et pourquoi, dans le cadre du dossier clinique lui-même. »

Sources des articles

Tian, J., Fard, P., Cagan, C. et al. Un flux de travail agent autonome pour la détection clinique de problèmes cognitifs à l’aide de grands modèles de langage. npj Chiffre. Méd. 9, 51 (2026). https://doi.org/10.1038/s41746-025-02324-4

Anissa Chauvin

Je m'appelle Anissa, rédactrice passionnée au cœur battant pour Reveil Citoyen Media. Mon parcours, de la plume lycéenne aux salles de rédaction, est guidé par une curiosité insatiable et le désir ardent de révéler les vérités cachées. Chaque article que je rédige est une invitation à réfléchir, à questionner et, surtout, à agir pour un monde meilleur.