Des scientifiques ont découvert que les modèles d’IA courants expriment une forme cachée de racisme basé sur le dialecte – se manifestant principalement contre les locuteurs de l’anglais afro-américain (AAE)
Dans une nouvelle étude publiée le 28 août dans la revue Natureles scientifiques ont découvert pour la première fois des preuves montrant que les grands modèles linguistiques courants, notamment GPT3.5 et GPT-4 d’OpenAI, ainsi que RoBERTa de Meta, expriment des préjugés raciaux cachés.
Réplication expériences précédentes Conçu pour examiner les préjugés raciaux cachés chez les humains, les scientifiques ont testé 12 modèles d’IA en leur demandant de juger un « locuteur » en fonction de son modèle de discours, que les scientifiques ont élaboré à partir d’AAE et de textes de référence. Trois des adjectifs les plus courants associés le plus fortement à l’AAE étaient « ignorant », « paresseux » et « stupide », tandis que d’autres descripteurs comprenaient « sale », « grossier » et « agressif ». Les modèles d’IA n’ont pas été informés du groupe racial du locuteur.
Les modèles d’IA testés, en particulier GPT-3.5 et GPT-4, ont même masqué ce racisme caché en décrivant les Afro-Américains avec des attributs positifs tels que « brillants » lorsqu’on leur a demandé directement leur opinion sur ce groupe.
Bien que les hypothèses les plus manifestes qui émergent des données de formation de l’IA sur les Afro-Américains dans l’IA ne soient pas racistes, un racisme plus caché se manifeste dans les grands modèles linguistiques (LLM) et exacerbe en fait l’écart entre les stéréotypes cachés et manifestes, en obscurcissant superficiellement le racisme que les modèles linguistiques entretiennent à un niveau plus profond, ont déclaré les scientifiques.
Les résultats montrent également qu’il existe une différence fondamentale entre le racisme manifeste et le racisme caché dans les programmes de maîtrise en droit, et que l’atténuation des stéréotypes manifestes ne se traduit pas par une atténuation des stéréotypes cachés. En effet, les tentatives de formation contre les préjugés explicites masquent les préjugés cachés qui restent ancrés.
« À mesure que les enjeux des décisions confiées aux modèles linguistiques augmentent, la crainte qu’ils reflètent ou même amplifient les préjugés humains codés dans les données sur lesquelles ils ont été formés augmente également, perpétuant ainsi la discrimination à l’encontre des groupes sociaux racialisés, sexistes et autres groupes minoritaires », ont déclaré les scientifiques dans l’article.
Les inquiétudes concernant les préjugés intégrés dans les données d’entraînement de l’IA sont une préoccupation de longue date, en particulier à l’heure où ces technologies sont de plus en plus utilisées. Les recherches antérieures sur les préjugés de l’IA se sont concentrées sur les cas manifestes de racisme. Une méthode de test courante consiste à nommer un groupe racial, à discerner les liens avec les stéréotypes à son sujet dans les données d’entraînement et à analyser le stéréotype pour détecter toute opinion préjugée sur le groupe concerné.
Mais les chercheurs ont fait valoir dans leur article que les sociologues soutiennent qu’il existe un « nouveau racisme » aux États-Unis, plus subtil, et qu’il se retrouve désormais dans l’intelligence artificielle. On peut prétendre ne pas voir la couleur tout en ayant des croyances négatives sur les groupes raciaux, ce qui entretient les inégalités raciales par le biais de discours et de pratiques raciales dissimulées, ont-ils déclaré.
Comme le montre l’étude, ces cadres de croyances se retrouvent dans les données utilisées pour former les LLM sous la forme de locuteurs AAE biaisés.
Cet effet est dû en grande partie au fait que, dans les modèles de chatbots formés par des humains comme ChatGPT, la race de l’interlocuteur n’est pas nécessairement révélée ou évoquée dans la discussion. Cependant, les différences subtiles dans les dialectes régionaux ou culturels des personnes ne sont pas perdues pour le chatbot en raison des caractéristiques similaires dans les données sur lesquelles il a été formé. Lorsque l’IA détermine qu’elle parle à un locuteur AAE, elle manifeste les suppositions racistes les plus cachées issues de ses données de formation.
« Outre les préjudices représentationnels, c’est-à-dire la représentation pernicieuse des locuteurs AAE, nous avons également trouvé des preuves de préjudices allocationnels substantiels. Cela fait référence à l’allocation inéquitable des ressources aux locuteurs AAE et s’ajoute aux cas connus de technologies linguistiques désavantagées par des locuteurs AAE en obtenant de moins bons résultats à l’AAE, en classant à tort l’AAE comme un discours de haine ou en traitant l’AAE comme un anglais incorrect », ont ajouté les scientifiques. « Tous les modèles linguistiques sont plus susceptibles d’attribuer des emplois de faible prestige aux locuteurs AAE qu’aux locuteurs SAE, et sont plus susceptibles de condamner les locuteurs AAE pour un crime et de condamner les locuteurs AAE à mort.
Ces résultats devraient inciter les entreprises à redoubler d’efforts pour réduire les biais dans leurs LLM et devraient également inciter les décideurs politiques à envisager d’interdire les LLM dans les contextes où des biais peuvent apparaître. Ces cas incluent les évaluations académiques, le recrutement ou la prise de décision juridique, ont déclaré les scientifiques dans un communiqué. déclarationLes ingénieurs en IA devraient également mieux comprendre comment les préjugés raciaux se manifestent dans les modèles d’IA.