Le score en question est construit à partir de l'algorithme word2vec.
Pour bien comprendre ce qu'il représente, il nous faut répondre à deux questions :
- que fait l'algorithme word2vec ?
- sur quelles données a-t-il été entraîné ?
Il existe plusieurs variantes de word2vec, je vais me focaliser sur celle utilisée par #cemantix.
La source des donnée est citée en pas de la page du jeu, merci à @enigmathix pour cette transparence ! 🙂
Donc, dans la variante qui nous intéresse, l'algorithme est entraîné à remplir des phrases à trou.
On prend une phrase des données d'entraînement, on retire un mot, et l'algorithme doit retrouver quel était ce mot à partir du reste de la phrase.
Partant de ça, on peut mieux cerner ce que représente cette similarité : deux mots seront considérés comme similaires si, dans le corpus d'entraînement, ils apparaissent souvent dans des phrases similaires, et à la même place dans la phrase.
Concernant le corpus d'entraînement, je pense qu'il s'agit du corpus frWac, un corpus de 1.6 milliards de mots qui a été construit à partir de contenu extrait automatiquement d'internet, en se limitant à des noms de domaines en .fr.
On peut donc s'attendre à un corpus composé notamment de textes en provenant des médias généralistes et de grandes communautés francophones.
En bref, une heuristique que je peux vous proposer, c'est que #cemantix va considérer deux mots comme proches si ils sont souvent utilisés de manière similaire dans les médias généralistes français.
Bon jeu ! 😁
• • •
Missing some Tweet in this thread? You can try to
force a refresh
J'ai beaucoup dit ici que le principe d'agrégation était un aspect crucial du bayésianisme. Et il se trouve que j'ai là dans mes expériences de recherche un exemple très visuel de ça !
Donc, voici un petit fil pour vous le présenter. 🧵⬇️
[1/19]
Tout d'abord, qu'est-ce que le principe d'agrégation ?
On se place dans un contexte où on a plusieurs hypothèses (ou modèles), et on ne sait pas laquelle est vraie.
Et on veut faire une prédiction qui, pour être faite nécessiterait de savoir laquelle est vraie.
[2/19]
Le bayésianisme nous dit alors qu'il ne faut pas choisir quelle hypothèse est la meilleure pour utiliser celle-là, mais plutôt déterminer les prédictions qui découleraient de chaque hypothèse, et les combiner.
J'ai bien envie de revenir sur cet argumentaire de @HygieneMentale concernant le militantisme et les biais, parce que je le trouve très intéressant, et qu'il n'a pas eu le loisir d'être exprimé dans un contexte propice au débat sérieux.
Du coup, un thread !
[1/XX]
Donc quel est cet argumentaire, et quelle thèse défend-il ?
Il répond au préjugé selon lequel les militant⋅e⋅s seraient spécialement propices aux raisonnements motivés (et autres biais du style), de par leur investissement émotionnel dans les causes qu'iels défendent.
[2/XX]
Il y a plein de choses à dire sur ce préjugé, mais je vais ici me focaliser sur l'argumentaire déployé par HM pour affirmer que ce préjugé est une erreur.
Il repose sur deux arguments, que je vais détailler ci-dessous.
Esprit critique, axiomes mathématiques, et idéologies politiques, un fil.
Ou pourquoi je ne peux pas concevoir une mise en œuvre d’esprit critique sans dimension politique.
⬇️
En mathématiques, une notion très fondamentale est celle d’axiome.
Un axiome est une proposition que l’on tient pour vraie sans l’avoir démontrée. Les axiomes sont le socle sur lequel les édifices mathématiques sont construits par déduction.
Tous les théorèmes mathématiques sont conditionnés aux axiomes à partir desquels ils ont été démontrés, c’est à la fin du 19e siècle que les mathématiques se sont vraiment rendues comptes de l’importance des axiomes, lors de la Crise des Fondements :
1) se revendique de l'esprit critique 2) reconnaît qu'un sujet X mérite d'être traité avec sérieux et rigueur
Alors, il est naturel d'attendre de cette personne qu'elle agisse en cohérence avec ses revendications, et notamment que :
3) elle ne se permette pas d'étaler ses opinions personnelles sur ce sujet en se comportant comme si elles avaient autant de valeur de les discours experts.
Quelqu'un qui revendique (1) et (2) mais ne fait pas (3) sera, à juste titre, considéré comme hypocrite.
On va alors considérer qu'au moins une de ses revendications entre (1) et (2) n'est pas sincère.
Un like = un fait peu reluisant ou une unpopular opinion à propos de l'intelligence artificielle
1) les avancées en IA des 10 dernières années sont principalement nourries par l'utilisation de puissance de calcul déraisonnable (et donc la consommation d'une quantité absurde d'énergie).
2) Trop de business models basés sur l'IA sont en réalité soutenus par des personnes mal payées faisant le job que l'IA est incapable de faire.
(mais c'est pas grave, on dit quand même que c'est de l'IA)
Les autrices s'intéressent en particulier aux enjeux liés aux modèles de langage. Il s'agit de modèles d'IA dont la fonction est de produire des phrases, du texte.
Il peut s'agir de traduction, de sous-titrage automatique, de légender des photographies, etc...
Les enjeux développés s'articulent autour de trois grands axes : l'impact environnemental de ces modèles, leur tendance à amplifier les biais, et notre tendance à percevoir du sens dans leurs propos alors qu'il n'y en a pas.