a cartoon illustration of a robot and two humans working on laptops together

Même l’IA a du mal à déterminer si le texte a été écrit par l’IA – voici pourquoi

Par Anissa Chauvin

Les gens et les institutions sont aux prises avec les conséquences de Texte écrit par l’IA. Les enseignants veulent savoir si le travail des élèves reflète leur propre compréhension ; les consommateurs veulent savoir si une publicité a été écrite par un humain ou une machine.

Écrire des règles pour régir l’utilisation du contenu généré par l’IA est relativement facile. Leur application dépend quelque chose de beaucoup plus difficile: détecter de manière fiable si un morceau de texte a été généré par l’intelligence artificielle.

Le problème de la détection de texte par l’IA

Le flux de travail de base derrière la détection de texte AI est facile à décrire. Commencez par un morceau de texte dont vous souhaitez déterminer l’origine. Appliquez ensuite un outil de détection, souvent un système d’IA lui-même, qui analyse le texte et produit un score, généralement exprimé sous forme de probabilité, indiquant la probabilité que le texte ait été généré par l’IA. Utilisez le score pour éclairer les décisions en aval, par exemple s’il convient d’imposer une pénalité en cas de violation d’une règle.

Cette simple description cache cependant une grande complexité. Il passe sous silence un certain nombre d’hypothèses de base qui doivent être explicitées. Savez-vous quels outils d’IA auraient pu être utilisés de manière plausible pour générer le texte ? Quel type d’accès avez-vous à ces outils ? Pouvez-vous les exécuter vous-même ou inspecter leur fonctionnement interne ? Combien de texte as-tu ? Avez-vous un texte unique ou un ensemble d’écrits rassemblés au fil du temps ? Ce que les outils de détection d’IA peuvent ou ne peuvent pas vous dire dépend essentiellement des réponses à des questions comme celles-ci.

Il y a un détail supplémentaire qui est particulièrement important : le système d’IA qui a généré le texte a-t-il délibérément intégré des marqueurs pour faciliter la détection ultérieure ?

Ces indicateurs sont appelés filigranes. Texte filigrané ressemble à du texte ordinaire, mais les marqueurs sont intégrés de manière subtile qui ne se révèle pas à une inspection occasionnelle. Une personne disposant de la bonne clé peut ensuite vérifier la présence de ces marqueurs et vérifier que le texte provient d’une source filigranée générée par l’IA. Cette approche repose toutefois sur la coopération des fournisseurs d’IA et n’est pas toujours disponible.

Comment fonctionnent les outils de détection de texte IA

Une approche évidente consiste à utiliser l’IA elle-même pour détecter le texte écrit par l’IA. L’idée est simple. Commencez par collecter un vaste corpus, c’est-à-dire une collection d’écrits, d’exemples étiquetés comme écrits par l’homme ou générés par l’IA, puis entraînez un modèle pour faire la distinction entre les deux. En effet, la détection de texte par l’IA est traitée comme un problème de classification standard, similaire dans son esprit au filtrage du spam. Une fois entraîné, le détecteur examine le nouveau texte et prédit s’il ressemble davantage aux exemples générés par l’IA ou à ceux écrits par des humains qu’il a vu auparavant.

L’approche du détecteur appris peut fonctionner même si vous savez peu de choses sur les outils d’IA qui ont pu générer le texte. La principale exigence est que le corpus de formation soit suffisamment diversifié pour inclure les résultats d’un large éventail de systèmes d’IA.

Mais si vous avez accès aux outils d’IA qui vous intéressent, une approche différente devient possible. Cette deuxième stratégie ne repose pas sur la collecte de grands ensembles de données étiquetées ou sur la formation d’un détecteur distinct. Au lieu de cela, il recherche des signaux statistiques dans le texte, souvent liés à la manière dont des modèles d’IA spécifiques génèrent le langage, pour évaluer si le texte est susceptible d’être généré par l’IA. Par exemple, certaines méthodes examinent la probabilité qu’un modèle d’IA attribue à un morceau de texte. Si le modèle attribue une probabilité inhabituellement élevée à la séquence exacte de mots, cela peut indiquer que le texte a en fait été généré par ce modèle.

Enfin, dans le cas d’un texte généré par un système d’IA intégrant un filigrane, le problème passe de la détection à la vérification. À l’aide d’une clé secrète fournie par le fournisseur d’IA, un outil de vérification peut évaluer si le texte est cohérent avec le fait qu’il a été généré par un système filigrané. Cette approche repose sur des informations qui ne sont pas disponibles dans le texte seul, plutôt que sur des déductions tirées du texte lui-même.

Pouvons-nous détecter le texte généré par l’IA ? – YouTube
Pouvons-nous détecter le texte généré par l’IA ? - YouTube

Regarder dessus

Limites des outils de détection

Chaque famille d’outils est livrée avec ses propres limitesce qui rend difficile de déclarer un gagnant clair. Les détecteurs basés sur l’apprentissage, par exemple, sont sensibles à la manière dont le nouveau texte ressemble aux données sur lesquelles ils ont été formés. Leur précision diminue lorsque le texte diffère considérablement du corpus de formation, qui peut rapidement devenir obsolète à mesure que de nouveaux modèles d’IA sont publiés. La conservation continue de nouvelles données et le recyclage des détecteurs sont coûteux, et les détecteurs sont inévitablement en retard par rapport aux systèmes qu’ils sont censés identifier.

Les tests statistiques sont confrontés à un ensemble différent de contraintes. Beaucoup s’appuient sur des hypothèses sur la manière dont des modèles d’IA spécifiques génèrent du texte, ou sur l’accès aux distributions de probabilité de ces modèles. Lorsque les modèles sont propriétaires, fréquemment mis à jour ou simplement inconnus, ces hypothèses s’effondrent. En conséquence, les méthodes qui fonctionnent bien dans des environnements contrôlés peuvent devenir peu fiables ou inapplicables dans le monde réel.

Le filigrane déplace le problème de la détection à la vérification, mais il introduit ses propres dépendances. Il repose sur la coopération des fournisseurs d’IA et s’applique uniquement au texte généré avec le filigrane activé.

Plus largement, la détection de texte par l’IA fait partie d’une course aux armements croissante. Les outils de détection doivent être accessibles au public pour être utiles, mais cette même transparence permet l’évasion. À mesure que les générateurs de texte IA deviennent plus performants et que les techniques d’évasion sont plus sophistiquées, il est peu probable que les détecteurs prennent le dessus durablement.

Dure réalité

Le problème de la détection de texte par l’IA est simple à énoncer mais difficile à résoudre de manière fiable. Les institutions dotées de règles régissant l’utilisation de textes écrits par l’IA ne peuvent pas compter uniquement sur les outils de détection pour leur application.

À mesure que la société s’adapte à l’IA générative, nous allons probablement affiner les normes autour de l’utilisation acceptable du texte généré par l’IA et améliorer les techniques de détection. Mais en fin de compte, nous devrons apprendre à vivre avec le fait que ces outils ne seront jamais parfaits.

Cet article édité est republié à partir de La conversation sous licence Creative Commons. Lire le article original.

Anissa Chauvin