StendhalGPT Profile picture
Jan 28, 2023 12 tweets 4 min read Read on X
Depuis 2 semaines je travaille sur une application pour identifier les faux textes générés par #ChatGPT, voit ci StendhalGPT.
Après avoir utilisé le modèle de #GPT-2 (qui est absolument obsolète), je me dois de présenter à #Twitter une piste de solutions avec un petit exemple :
Avant toute chose définissons la méthode :
#GPTZero se sert du hasard pour tenter de mesurer si un texte est généré ou non (perplexity), #StendhalGPT est parti sur la richesses lexicale d'un texte. (Les deux méthodes sont par essence différentes mais ce sera un autre sujet.)
Qu'est-ce que la richesses lexicale ?
C'est tout simple la variété de mots que possède un texte, elle se calcule en divisant le nombre de types (mots uniques) par le nombre de tokens (mots total) dans un texte. Ce qui donne un nombre entre 0 et 1.
1 équivaut à un mot utilisé une seule fois (ce qui est une prouesse d'écriture pour des textes longs), alors qu'en tendant vers 0, le texte contient énormément de répétitions.
stendhalgpt.fr
Pour illustrer tout ça, voici un exemple :
J'ai pris 2 textes en Anglais mais la langue n'est pas importante.
Texte d'un article trouvé sur internet écrit par un humain :
Every day the dust settles on thousands of square kilometres of solar panels around the world, cutting the amount of electricity they produce.
A robot designed by an Israeli start-up can autonomously clean rooftop solar panels that other cleaning robots can’t access, increasing the panels’ electricity generation by as much as 15 per cent.
Texte par une IA :
Every day, dust accumulates on thousands of square kilometers of solar panels worldwide, reducing their electricity production. A robot designed by an Israeli start-up can clean rooftop solar panels that other cleaning robots can’t reach,
increasing their electricity output by up to 15 percent.

Autonomous robots are widely used to clean large ground-mounted solar arrays. Many work by moving along rails to wipe away dust, bird droppings, and other debris that can decrease their efficiency.
Les échantillons font a peu près la même taille, et le thème identique.(Génération via ChatGPT)
Et voici les résultats obtenus en utilisant la richesse lexicale :
Humain
Taux correspondant à la richesse lexicale de votre texte : 0.712
Taux correspondant à la richesse grammaticale de votre texte : 0.197

Taux correspondant à la richesse verbale de votre texte : 0.131

IA
Taux correspondant à la richesse lexicale de votre texte : 0.709

Taux correspondant à la richesse grammaticale de votre texte : 0.243
Taux correspondant à la richesse verbale de votre texte : 0.175

On peut déjà se rendre compte que la richesses lexicale est à peu près identique (les textes font la même taille, l'auteur connaissait son domaine), mais là où la chose est intéressante, c'est sur...
la richesse grammaticale et verbale où notre IA plus 'savante' possède un vocabulaire plus élargi et peut se permettre d'éviter les répétions tandis que notre auteur est 'limité' par ses propres connaissances.
Pour résumer elle superforme notre auteur avec des taux de de 0.243..

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with StendhalGPT

StendhalGPT Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(