A robot caught underneath a spotlight.

La plate-forme d’analyse comparative de l’IA aide les meilleures entreprises

Par Anissa Chauvin

L’indice de référence pour intelligence artificielle (AI) Chatbots est confronté à un examen minutieux des chercheurs qui affirment que ses tests favorisent les modèles d’IA propriétaires de grandes entreprises technologiques.

LM Arena place effectivement deux modèles de grande langue non identifiés (LLM) dans une bataille pour voir lesquels peuvent mieux s’attaquer à une invite, les utilisateurs de la référence votant pour la sortie qu’ils aiment le plus. Les résultats sont ensuite introduits dans un classement qui suit les modèles qui fonctionnent le mieux et la façon dont ils se sont améliorés.

Cependant, les chercheurs ont affirmé que la référence était biaisée, accordant aux principaux LLM des « pratiques de test privés non divulguées » qui leur donnent un avantage sur les LLM open source. Les chercheurs ont publié leurs résultats le 29 avril dans la base de données de préparation arxivdonc l’étude n’a pas encore été examinée par des pairs.

« Nous montrons que la coordination entre une poignée de fournisseurs et de politiques préférentielles de Chatbot Arena (plus tard LM Arena) vers le même petit groupe a compromis l’intégrité scientifique et les classements fiables de l’arène », ont écrit les chercheurs dans l’étude. « En tant que communauté, nous devons mieux exiger. »

Chance? Limitation? Manipulation?

Commençant comme Chatbot Arena, un projet de recherche créé en 2023 par des chercheurs de l’Université de Californie, Berkeley Laboratoire d’informatique SkyLM Arena est rapidement devenue un site populaire pour les meilleures sociétés d’IA et les outsiders open source pour tester leurs modèles. Favorisant l’analyse « basée sur les vibrations » tirée des réponses des utilisateurs sur les références académiques, le site obtient désormais plus d’un million de visiteurs par mois.

Pour évaluer l’impartialité du site, les chercheurs ont mesuré plus de 2,8 millions de batailles pris en charge de cinq mois. Leur analyse suggère qu’une poignée de fournisseurs préférés – les modèles phares d’entreprises, notamment Meta, OpenAI, Google et Amazon – avaient « obtenu un accès disproportionné aux données et aux tests », car leurs modèles apparaissaient dans un nombre plus élevé de batailles, conférant leurs versions finales avec un avantage significatif.

« Des fournisseurs comme Google et OpenAI ont reçu respectivement 19,2% et 20,4% de toutes les données sur l’arène », ont écrit les chercheurs. « En revanche, 83 modèles combinés de poids ouvert n’ont reçu que 29,7% des données totales. »

De plus, les chercheurs ont noté que les LLM propriétaires sont testées à plusieurs reprises dans l’arène LM avant leur libération officielle. Par conséquent, ces modèles ont plus accès aux données de l’arène, ce qui signifie que lorsqu’ils sont finalement opposés à d’autres LLM, ils peuvent facilement les battre, avec seulement l’itération la plus performante de chaque LLM placé dans le classement public, ont affirmé les chercheurs.

« À l’extrême, nous identifions 27 variantes LLM privées testées par Meta dans l’apport de la version LLAMA-4. Nous établissons également que les modèles fermés propriétaires sont échantillonnés à des taux plus élevés (nombre de batailles) et ont moins de modèles supprimés de l’arène que les alternatives open-poids et open source », ont écrit les chercheurs dans l’étude. « Ces deux politiques conduisent à de grandes asymétries d’accès aux données au fil du temps. »

En effet, les chercheurs soutiennent que la possibilité de tester plusieurs LLM avant la libération, ayant la capacité de retirer les scores de référence, n’ayant que l’itération la plus performante de leur LLM placée sur le classement, ainsi que certains modèles commerciaux apparaissant dans l’arène plus souvent que d’autres, donnent aux grandes sociétés AI la capacité de « sur-adapter » leurs modèles. Cela stimule potentiellement leurs performances de l’arène par rapport aux concurrents, mais cela peut ne pas signifier que leurs modèles sont nécessairement de meilleure qualité.

La recherche a remis en question l’autorité de LM Arena en tant que référence en IA. LM Arena n’a pas encore fourni de commentaire officiel à Live Science, n’offrant que des informations générales dans une réponse par e-mail. Mais l’organisation a publié une réponse à la recherche sur la plate-forme sociale X.

« Concernant la déclaration selon laquelle certains fournisseurs de modèles ne sont pas traités équitablement: ce n’est pas vrai. Compte tenu de notre capacité, nous avons toujours essayé d’honorer toutes les demandes d’évaluation que nous avons reçues », représentants de l’entreprise écrit dans le post. « Si un fournisseur de modèles choisit de soumettre plus de tests qu’un autre fournisseur de modèles, cela ne signifie pas que le deuxième fournisseur de modèles est traité injustement. Chaque fournisseur de modèles fait différents choix sur la façon d’utiliser et de valoriser les préférences humaines. »

LM Arena a également affirmé qu’il y avait des erreurs dans les données et la méthodologie des chercheurs, répondant que les développeurs LLM ne peuvent pas choisir le meilleur score à divulguer, et que seule la partition obtenue par un LLM publié est mise sur le classement public.

Néanmoins, les résultats soulèvent des questions sur la façon dont les LLM peuvent être testées de manière équitable et cohérente, en particulier en tant que Passer le test de Turing N’est-ce pas le filigrane de l’IA qu’il était sans doute une fois, et que Les scientifiques cherchent de meilleures façons d’évaluer vraiment les capacités de croissance rapide de l’IA.

Anissa Chauvin