Je rebondis là dessus pour faire un peu de vulga en machine learning, histoire de piger un peu ce qu'il se passe. 😁

Alors donc, quel est le score de similarité utilisé par le jeu #cemantix ? Que représente-t-il ?
Le score en question est construit à partir de l'algorithme word2vec.

Pour bien comprendre ce qu'il représente, il nous faut répondre à deux questions :

- que fait l'algorithme word2vec ?
- sur quelles données a-t-il été entraîné ?
Il existe plusieurs variantes de word2vec, je vais me focaliser sur celle utilisée par #cemantix.

La source des donnée est citée en pas de la page du jeu, merci à @enigmathix pour cette transparence ! 🙂
Donc, dans la variante qui nous intéresse, l'algorithme est entraîné à remplir des phrases à trou.

On prend une phrase des données d'entraînement, on retire un mot, et l'algorithme doit retrouver quel était ce mot à partir du reste de la phrase.
Partant de ça, on peut mieux cerner ce que représente cette similarité : deux mots seront considérés comme similaires si, dans le corpus d'entraînement, ils apparaissent souvent dans des phrases similaires, et à la même place dans la phrase.
Concernant le corpus d'entraînement, je pense qu'il s'agit du corpus frWac, un corpus de 1.6 milliards de mots qui a été construit à partir de contenu extrait automatiquement d'internet, en se limitant à des noms de domaines en .fr.
On peut donc s'attendre à un corpus composé notamment de textes en provenant des médias généralistes et de grandes communautés francophones.
En bref, une heuristique que je peux vous proposer, c'est que #cemantix va considérer deux mots comme proches si ils sont souvent utilisés de manière similaire dans les médias généralistes français.

Bon jeu ! 😁

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Cortex Nihilo

Cortex Nihilo Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @CortexNihilo

Jan 25
J'ai beaucoup dit ici que le principe d'agrégation était un aspect crucial du bayésianisme. Et il se trouve que j'ai là dans mes expériences de recherche un exemple très visuel de ça !

Donc, voici un petit fil pour vous le présenter. 🧵⬇️

[1/19]
Tout d'abord, qu'est-ce que le principe d'agrégation ?

On se place dans un contexte où on a plusieurs hypothèses (ou modèles), et on ne sait pas laquelle est vraie.

Et on veut faire une prédiction qui, pour être faite nécessiterait de savoir laquelle est vraie.

[2/19]
Le bayésianisme nous dit alors qu'il ne faut pas choisir quelle hypothèse est la meilleure pour utiliser celle-là, mais plutôt déterminer les prédictions qui découleraient de chaque hypothèse, et les combiner.

[3/19]
Read 19 tweets
Sep 14, 2021
J'ai bien envie de revenir sur cet argumentaire de @HygieneMentale concernant le militantisme et les biais, parce que je le trouve très intéressant, et qu'il n'a pas eu le loisir d'être exprimé dans un contexte propice au débat sérieux.

Du coup, un thread !

[1/XX]
Donc quel est cet argumentaire, et quelle thèse défend-il ?

Il répond au préjugé selon lequel les militant⋅e⋅s seraient spécialement propices aux raisonnements motivés (et autres biais du style), de par leur investissement émotionnel dans les causes qu'iels défendent.

[2/XX]
Il y a plein de choses à dire sur ce préjugé, mais je vais ici me focaliser sur l'argumentaire déployé par HM pour affirmer que ce préjugé est une erreur.

Il repose sur deux arguments, que je vais détailler ci-dessous.

[3/XX]
Read 35 tweets
Aug 27, 2021
Esprit critique, axiomes mathématiques, et idéologies politiques, un fil.

Ou pourquoi je ne peux pas concevoir une mise en œuvre d’esprit critique sans dimension politique.

⬇️
En mathématiques, une notion très fondamentale est celle d’axiome.

Un axiome est une proposition que l’on tient pour vraie sans l’avoir démontrée. Les axiomes sont le socle sur lequel les édifices mathématiques sont construits par déduction.
Tous les théorèmes mathématiques sont conditionnés aux axiomes à partir desquels ils ont été démontrés, c’est à la fin du 19e siècle que les mathématiques se sont vraiment rendues comptes de l’importance des axiomes, lors de la Crise des Fondements :

fr.wikipedia.org/wiki/Crise_des…
Read 24 tweets
Aug 27, 2021
Petit exemple sur les paroles et les actes :

Considérons une personne qui :

1) se revendique de l'esprit critique
2) reconnaît qu'un sujet X mérite d'être traité avec sérieux et rigueur
Alors, il est naturel d'attendre de cette personne qu'elle agisse en cohérence avec ses revendications, et notamment que :

3) elle ne se permette pas d'étaler ses opinions personnelles sur ce sujet en se comportant comme si elles avaient autant de valeur de les discours experts.
Quelqu'un qui revendique (1) et (2) mais ne fait pas (3) sera, à juste titre, considéré comme hypocrite.

On va alors considérer qu'au moins une de ses revendications entre (1) et (2) n'est pas sincère.
Read 5 tweets
Apr 11, 2021
J'arrive pas à dormir, donc :

Un like = un fait peu reluisant ou une unpopular opinion à propos de l'intelligence artificielle
1) les avancées en IA des 10 dernières années sont principalement nourries par l'utilisation de puissance de calcul déraisonnable (et donc la consommation d'une quantité absurde d'énergie).
2) Trop de business models basés sur l'IA sont en réalité soutenus par des personnes mal payées faisant le job que l'IA est incapable de faire.

(mais c'est pas grave, on dit quand même que c'est de l'IA)
Read 37 tweets
Mar 8, 2021
« On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 »

Je vous propose un fil lecture et résumé de cet article de @emilymbender, @timnitGebru, @mcmillan_majora et @mmitchell_ai, qui expose avec clarté les enjeux actuels autour de l'IA appliquée au langage.
Les autrices s'intéressent en particulier aux enjeux liés aux modèles de langage. Il s'agit de modèles d'IA dont la fonction est de produire des phrases, du texte.

Il peut s'agir de traduction, de sous-titrage automatique, de légender des photographies, etc...
Les enjeux développés s'articulent autour de trois grands axes : l'impact environnemental de ces modèles, leur tendance à amplifier les biais, et notre tendance à percevoir du sens dans leurs propos alors qu'il n'y en a pas.

Mais on va voir que ces trois aspects sont liés.
Read 59 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(