Ari Kouts Profile picture
Scientist in innovation @VISEOGroup ... Doing #IoT #chatbots #vocal #blockchain #AR #VR and other stuff

Apr 18, 31 tweets

Cela fait un an que j’ai lancé mes sites autonomes gérés par des IA. Alors quel bilan un an après, et est-ce que le monde est maintenant complètement sous l’eau de contenu généré en IA ?

Vous allez découvrir un monde fabuleux ⤵️⤵️

1 an après mes faux journalistes ont écrit 7500 articles et mes chefs cuisiniers 2500 recettes. Et ils continuent. Sans intervention.

Je n’ai pas vraiment travaillé sur le référencement mais avec cette masse d’information et la rapidité d’écriture, parfois le contenu est le premier ou le mieux placé en France comme l’a rappelé @TurcanMarie
numerama.com/tech/1584908-q…

Par contre cela a donné beaucoup d’idées à la communauté SEO, et certains ont automatisés de nombreux sites. Il y a de plus en d’outils en plus pour aider/créer


Bon au pire ça c’est du contenu qui pollue google, mais il y a des choses qui vont un peu plus loin… ou comment polluer en se faisant passer pour un vrai site ou des vrais sites
Et c'est probablement inarrêtable

Parlons d’un certain Julien. Julien était le roi du SEO en France, mais Julien a dû liquider différentes entreprises et mis beaucoup de personnes dans le pétrin. (à lire , )
journaldunet.com/seo/1526445-ko…
42mag.fr/2024/02/julien…

Mais Julien a eu une super nouvelle idée et reviens avec pleins de site sous une nouvelle entreprise. Mais tout ça cache quelque chose de très intéressant

Des dizaines de sites, tous utilisant de l’IA pour générer des centaines/milliers d’articles en quelques jours, sur tous les sujets possibles, sans aucune éthique, pas de sources, des images en IA ou piqués à droite à gauche, des conseils complètement bidons etc


Vraiment de tous les types...


Les sites « emploient » soit des « this person does not exist » soit des photo stock


Mention spécial à @acermendax qui travaille donc pour un de ces sites ^^

Déjà, en dehors de ces photos de profil, et le nombre d’articles en quelques jours, comment on sait que c’est écrit par de l’IA ? J’ai des petites techniques

Si on utilise GPT4 sans faire trop attention par exemple, il a quelques tics de langages. Notamment le mot « plongez » ou « delve » en anglais. D’ailleurs c’est très visible dans les papiers de recherche depuis 2023 ^^

Donc ici, très simple, ça marche avec quasiment chaque site de Julien Jimenez… « Plongez dans l’univers de Cyril Hanouna ».
Il y en a d’autres, tout ça est « corrigible » quand on s’y connait un peu


(ça marche aussi sur mes sites, un peu moins, j’ai rien fait pour contrer ça en tout cas)

D’où vient ce tic de langage ? La théorie du guardian… ce sont les employés en Afrique qui étaient chargé de « corriger » pour améliorer les réponses du modèles, qui l’auraient insufflés dans le modèle
theguardian.com/technology/202…

(en passant utiliser GPT4 pour écrire son abstract semble une bonne idée ^^)

Bref tous ces sites sous bannière « Amanecer Media International SL » sont là pour une seule raison, créer du trafic, sur des recherches « simples » mais aussi sur l’actualité. Par exemple l’agression de shamseddine, D-rating est dans les premiers résultats avec des photos en IA

Les sites mélangent volontairement des sujets sans rapport augmenter le reach, et chaque footer renvoi aux autres (les bonnes techniques à l’ancienne)

(grosse mention au site sciences et démocratie qui mélange article d’actus avec parquet et chaudière, et où l’expert en bricolage écrit surtout des articles de géopolitique)

Quand je parle de milliers d’articles, en gros chaque » journaliste » de D-rating et des autres écrit 200 articles par mois. Beaucoup, mais contrôlé

Certains sites sont des reprises. Par exemple les critiques de Marine était un vrai blog, elle y avait écrit entre 2015 et 2023 environ 400 articles et depuis 5580, en ayant changé de visage, et sur tous les sujets !!!

Comment on gagne ensuite de l’argent ? Les sites sont ensuite remplis de pubs. Même si cela ne crée que peu de valeur, un site coûte tellement peu (quelques centimes par jour) que c’est souvent gagnant, sur la masse

2ème façon, faire du netlinking de ces sites bien référencés (marrant c’était exactement ce qu’il faisait avant). Certains donc des sites référencés en footer sont des vrais sites non IA (ou en tout cas plus « sérieux » car on voit de l'IA aussi, mais autre sujet)

Mais d’autres problèmes, des images d’IA de D rating se retrouvent sur des médias traditionnels… Quels impacts sur la désinformation ?

L’image a été changée mais la recherche « macron flamme olympique » met toujours D-rating en premier… Cela peut donc créer de la désinformation

Il y a quelques mois une petite expérience montrait comment créer des médias entiers de désinformation avec quelques euros

De l’autre côté des médias plus traditionnels commencent à intégrer de l’IA générative dans leurs processus, voir s’appuyer complètement dessus mais de manière éthique comme @arago_fr

@arago_fr Sachant qu'en plus les modèles vont donc commencer à s'entrainer sur des résultats d'autres modèles, et de plus en plus car on aura pas assez de données très bientôt... ça va être un problème
technologyreview.com/2022/11/24/106…

@arago_fr Cela sera très complexe à réguler, et on est qu’au début.
Les médias font des chartes, expliquent
Mais pour tous les autres sites... que va faire google...

@granturismo61 Alors je vais m'excuser, je pensais que l'article en parlait un peu plus...
J'en parle souvent mais pas là
Donc désolé

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling