Intelligence artificielle Les chatbots (IA) peuvent vous donner des réponses plus précises lorsque vous êtes impoli avec eux, ont découvert des scientifiques, bien qu’ils aient mis en garde contre les méfaits potentiels de l’utilisation d’un langage humiliant.
Dans une nouvelle étude publiée le 6 octobre dans le arXiv base de données de préimpression, les scientifiques voulaient tester si la politesse ou l’impolitesse faisait une différence dans les performances d’un système d’IA. Cette recherche n’a pas encore été évaluée par des pairs.
Chaque question était posée avec quatre options, dont une était correcte. Ils ont introduit 10 fois les 250 questions résultantes dans ChatGPT-4o, l’un des grands modèles de langage (LLM) les plus avancés développés par OpenAI.
« Nos expériences sont préliminaires et montrent que le ton peut affecter de manière significative les performances mesurées en termes de score sur les réponses aux 50 questions », écrivent les chercheurs dans leur article. « De manière quelque peu surprenante, nos résultats montrent que les tons grossiers conduisent à de meilleurs résultats que les tons polis.
« Bien que cette découverte présente un intérêt scientifique, nous ne préconisons pas le déploiement d’interfaces hostiles ou toxiques dans des applications réelles », ont-ils ajouté. « L’utilisation d’un langage insultant ou humiliant dans l’interaction homme-IA pourrait avoir des effets négatifs sur l’expérience utilisateur, l’accessibilité et l’inclusivité, et pourrait contribuer à des normes de communication nuisibles. Au lieu de cela, nous présentons nos résultats comme la preuve que les LLM restent sensibles aux signaux d’invite superficiels, ce qui peut créer des compromis involontaires entre les performances et le bien-être de l’utilisateur. «
Un réveil brutal
Avant de donner chaque invite, les chercheurs ont demandé au chatbot d’ignorer complètement les échanges antérieurs, pour éviter qu’il ne soit influencé par les tonalités précédentes. Il a également été demandé aux chatbots, sans explication, de choisir l’une des quatre options.
L’exactitude des réponses variait de 80,8 % pour les invites très polies à 84,8 % pour les invites très grossières. Fait révélateur, la précision augmentait à chaque pas s’éloignant du ton le plus poli. Les réponses polies avaient un taux d’exactitude de 81,4 %, suivi de 82,2 % pour les réponses neutres et de 82,8 % pour les réponses grossières.
L’équipe a utilisé une variété de langages dans le préfixe pour modifier le ton, à l’exception du langage neutre, où aucun préfixe n’a été utilisé et la question a été présentée seule.
Pour les invites très polies, par exemple, elles commenceraient par : « Puis-je demander votre aide pour cette question ? » ou « Auriez-vous la gentillesse de résoudre la question suivante ? » Du côté très grossier du spectre, l’équipe a inclus des termes tels que « Hé, gofer, découvre ça » ou « Je sais que tu n’es pas intelligent, mais essaye ça ».
La recherche fait partie d’un domaine émergent appelé ingénierie des invites, qui cherche à étudier comment la structure, le style et le langage des invites affectent le résultat d’un LLM. L’étude a également cité recherches antérieures entre politesse et impolitesse et ont constaté que leurs résultats étaient généralement contraires à ces conclusions.
Dans des études précédentes, les chercheurs ont découvert que « les invites impolies entraînent souvent de mauvaises performances, mais un langage trop poli ne garantit pas de meilleurs résultats ». Cependant, l’étude précédente a été menée à l’aide de différents modèles d’IA – ChatGPT 3.5 et Llama 2-70B – et a utilisé une gamme de huit tons. Cela dit, il y a eu un certain chevauchement. Il a également été constaté que le paramètre d’invite le plus grossier produisait des résultats plus précis (76,47 %) que le paramètre le plus poli (75,82 %).
Les chercheurs ont reconnu les limites de leur étude. Par exemple, un ensemble de 250 questions constitue un ensemble de données assez limité, et mener l’expérience avec un seul LLM signifie que les résultats ne peuvent pas être généralisés à d’autres modèles d’IA.
En gardant ces limites à l’esprit, l’équipe prévoit d’étendre ses recherches à d’autres modèles, notamment Claude LLM d’Anthropic et ChatGPT o3 d’OpenAI. Ils reconnaissent également que le fait de présenter uniquement des questions à choix multiples limite les mesures à une seule dimension de la performance du modèle et ne parvient pas à capturer d’autres attributs, tels que la fluidité, le raisonnement et la cohérence.

