StendhalGPT Profile picture
'Si écrire c'est réfléchir, à quoi bon penser si l'Homme n'écrit plus ?' #StendhalGPT est une IA française dédiée à reconnaître des textes générés, par #ChatGPT

Jan 28, 2023, 12 tweets

Depuis 2 semaines je travaille sur une application pour identifier les faux textes générés par #ChatGPT, voit ci StendhalGPT.
Après avoir utilisé le modèle de #GPT-2 (qui est absolument obsolète), je me dois de présenter à #Twitter une piste de solutions avec un petit exemple :

Avant toute chose définissons la méthode :
#GPTZero se sert du hasard pour tenter de mesurer si un texte est généré ou non (perplexity), #StendhalGPT est parti sur la richesses lexicale d'un texte. (Les deux méthodes sont par essence différentes mais ce sera un autre sujet.)

Qu'est-ce que la richesses lexicale ?
C'est tout simple la variété de mots que possède un texte, elle se calcule en divisant le nombre de types (mots uniques) par le nombre de tokens (mots total) dans un texte. Ce qui donne un nombre entre 0 et 1.

1 équivaut à un mot utilisé une seule fois (ce qui est une prouesse d'écriture pour des textes longs), alors qu'en tendant vers 0, le texte contient énormément de répétitions.
stendhalgpt.fr
Pour illustrer tout ça, voici un exemple :

J'ai pris 2 textes en Anglais mais la langue n'est pas importante.
Texte d'un article trouvé sur internet écrit par un humain :
Every day the dust settles on thousands of square kilometres of solar panels around the world, cutting the amount of electricity they produce.

A robot designed by an Israeli start-up can autonomously clean rooftop solar panels that other cleaning robots can’t access, increasing the panels’ electricity generation by as much as 15 per cent.

Texte par une IA :
Every day, dust accumulates on thousands of square kilometers of solar panels worldwide, reducing their electricity production. A robot designed by an Israeli start-up can clean rooftop solar panels that other cleaning robots can’t reach,

increasing their electricity output by up to 15 percent.

Autonomous robots are widely used to clean large ground-mounted solar arrays. Many work by moving along rails to wipe away dust, bird droppings, and other debris that can decrease their efficiency.

Les échantillons font a peu près la même taille, et le thème identique.(Génération via ChatGPT)
Et voici les résultats obtenus en utilisant la richesse lexicale :
Humain
Taux correspondant à la richesse lexicale de votre texte : 0.712

Taux correspondant à la richesse grammaticale de votre texte : 0.197

Taux correspondant à la richesse verbale de votre texte : 0.131

IA
Taux correspondant à la richesse lexicale de votre texte : 0.709

Taux correspondant à la richesse grammaticale de votre texte : 0.243

Taux correspondant à la richesse verbale de votre texte : 0.175

On peut déjà se rendre compte que la richesses lexicale est à peu près identique (les textes font la même taille, l'auteur connaissait son domaine), mais là où la chose est intéressante, c'est sur...

la richesse grammaticale et verbale où notre IA plus 'savante' possède un vocabulaire plus élargi et peut se permettre d'éviter les répétions tandis que notre auteur est 'limité' par ses propres connaissances.
Pour résumer elle superforme notre auteur avec des taux de de 0.243..

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling