De nouvelles recherches ont révélé une autre série de tâches que la plupart des humains peuvent faire avec facilité que intelligence artificielle (AI) trébuche – lire une horloge analogique ou déterminer la journée où une date tombera.
L’IA peut être en mesure d’écrire du code, de générer des images réalistes, de créer du texte à consonance humaine et même de passer des examens (à divers degrés de succès) Pourtant, il interprète régulièrement la position de la position des horloges quotidiennes et échoue à l’arithmétique de base nécessaire aux dates de calendrier.
Les chercheurs ont révélé ces défauts inattendus lors d’une présentation lors de la Conférence internationale de 2025 sur les représentations de l’apprentissage (ICLR). Ils ont également publié leurs résultats le 18 mars sur le serveur de préparation arxivils n’ont donc pas encore été évalués par des pairs.
« La plupart des gens peuvent dire l’heure et utiliser des calendriers dès le plus jeune âge. Nos résultats mettent en évidence une lacune importante dans la capacité de l’IA à réaliser ce qui est des compétences très basiques pour les gens », auteur principal de l’étude Rohit Saxenachercheur à l’Université d’Édimbourg, dit dans un communiqué. Ces déficits doivent être traités si les systèmes d’IA doivent être intégrés avec succès dans des applications réelles sensibles au temps, telles que la planification, l’automatisation et les technologies d’assistance. «
Pour enquêter sur les capacités de chronométrage de l’IA, les chercheurs ont nourri un ensemble de données personnalisés d’images d’horloge et de calendrier dans divers modèles de langage multimodal de grand langage (MLLMS), qui peuvent traiter les informations visuelles ainsi que textuelles. Les modèles utilisés dans l’étude comprennent le LLAMA 3.2-VISION de Meta, Sonnet Claude-3.5 d’Anthropic, Gemini 2.0 de Google et GPT-4O d’OpenAI.
Et les résultats étaient médiocres, les modèles étant incapables d’identifier l’heure correcte à partir d’une image d’une horloge ou du jour de la semaine pour un exemple de date de plus de la moitié du temps.
Cependant, les chercheurs ont une explication des capacités de lecture étonnamment médiocres de l’IA.
« Les premiers systèmes ont été formés en fonction des exemples étiquetés. La lecture d’horloge nécessite quelque chose de différent – le raisonnement spatial », a déclaré Saxena. « Le modèle doit détecter les mains qui se chevauchent, mesurer les angles et naviguer dans divers conceptions comme des chiffres romains ou des cadrans stylisés. Ai reconnaissant que » c’est une horloge « est plus facile que de le lire. »
Les dates se sont révélées tout aussi difficiles. Lorsqu’on vous a donné un défi comme « Quel jour le 153e jour de l’année sera-t-il? », Le taux de défaillance était également élevé: les systèmes d’IA lisent correctement les horloges à seulement 38,7% et les calendriers seulement 26,3%.
Cette lacune est également surprenante car l’arithmétique est une pierre angulaire fondamentale de l’informatique, mais comme l’a expliqué Saxena, l’IA utilise quelque chose de différent. « L’arithmétique est insignifiante pour les ordinateurs traditionnels mais pas pour les modèles de grands langues. L’IA n’exécute pas d’algorithmes mathématiques, il prédit les sorties en fonction des modèles qu’il voit dans les données de formation », a-t-il déclaré. Ainsi, bien qu’il puisse répondre correctement aux questions arithmétiques, son raisonnement n’est pas cohérent ou basé sur des règles, et notre travail met en évidence cet écart. «
Le projet est le dernier dans un ensemble croissant de recherches qui met en évidence les différences entre la façon dont l’IA « comprend » par rapport à la façon dont les humains font. Les modèles tirent des réponses de modèles familiers et excellent lorsqu’il y a suffisamment d’exemples dans leurs données de formation, mais ils échouent lorsqu’on leur demande de généraliser ou d’utiliser le raisonnement abstrait.
« Ce qui pour nous est une tâche très simple comme lire une horloge peut être très difficile pour eux, et vice versa », a déclaré Saxena.
La recherche révèle également le problème de l’IA lorsqu’elle est formée avec des données limitées – dans ce cas, des phénomènes relativement rares comme les années de saut ou des calculs de calendrier obscurs. Même si les LLM ont de nombreux exemples qui expliquent les années de saut en tant que concept, cela ne signifie pas qu’ils font les connexions requises nécessaires pour effectuer une tâche visuelle.
La recherche met en évidence à la fois la nécessité d’exemples plus ciblés dans les données de formation et la nécessité de repenser comment l’IA gère la combinaison du raisonnement logique et spatial, en particulier dans les tâches qu’elle ne rencontre pas souvent.
Surtout, il révèle une autre zone où configurer la sortie AI trop vient à nos risques.
« L’IA est puissante, mais lorsque les tâches mélangent la perception avec un raisonnement précis, nous avons toujours besoin de tests rigoureux, de logique de secours et, dans de nombreux cas, un humain dans la boucle », a déclaré Saxena.