Latest Twitter Threads by @DIMENSION_YT on Thread Reader App

Oct 24 • 18 tweets • 7 min read

Ça fait plusieurs mois que je mentionnais un projet en rapport avec la science, et bien le voilà : , un site collaboratif qui permet en un clic de voir le consensus scientifique sur une question (plus d'infos en dessous ⬇️) papermap.org

Il y a souvent un mur entre l'opinion publique et les résultats scientifiques, et quand ce mur est franchi c'est souvent via une seule publication sans aucune garantie qu'elle reflète bien la conclusion générale des recherches sur le sujet et que ce n'est pas juste une exception

May 4, 2024 • 11 tweets • 5 min read

J'ai enfin fini mon projet de modèle de langage ! 🥳

Après plus de 570 heures d'entraînement sur ma RTX 3090, j'ai créé DimensionGPT-0.2B, un petit modèle de langage de seulement 200 millions de paramètres que j'ai entraîné sur 50 milliards de tokens en français

Le modèle se base sur l'architecture du transformer présenté par Google Brain en 2017 (uniquement la partie décodeur) avec diverses améliorations telles que RMSNorm, Pre-norm, SwiGLU, GQA, RoPE, SWA, etc...

Jan 18, 2024 • 14 tweets • 4 min read

On m'a demandé d'en parler et c'est vrai que c'est super impressionnant ce qu'ils sont en train de faire chez @MistralAI, qui on le rappelle est une entreprise française 🥳, mais qu'est-ce qu'ils font de spécial à part mettre du WordArt dans leurs publications ? Petit résumé :

Il y a quelques mois ils ont sorti Mistral 7B, un LLM (Large Langage Model) de 7 milliards de paramètres, ce qui est petit pour les standards actuels, mais malgré ça il bat des modèles bien plus gros que lui comme les Llama de Meta par exemple

Apr 2, 2023 • 58 tweets • 13 min read

Comme promis voici un thread pour expliquer comment fonctionne réellement #ChatGPT afin de casser pas mal d'idées reçues... 🧵

Avant de parler de ChatGPT, je vais expliquer dans les grandes lignes comment fonctionne le machine learning ("apprentissage automatique" en français)

Mar 14, 2023 • 17 tweets • 4 min read

GPT-4 🤖 a été annoncé par @OpenAI aujourd'hui !

Mais qu'est-ce que ça change concrètement ?

Petit thread pour résumer tout ça... 🧵

Pour rappel, il y a un peu plus de 2 ans, OpenAI avait sorti le modèle de langage GPT-3 (pour "Generative Pre-trained Transformer 3") qui était à l'époque de loin le plus gros modèle de langage avec notamment plus de 100 fois plus de paramètres que son prédécesseur GPT-2

Dec 8, 2022 • 28 tweets • 6 min read

Petit thread pour expliquer comment fonctionne réellement les modèles de génération d'images, histoire de casser quelques idées reçues 🧵

⬇️⬇️⬇️

Alors pour commencer, je vais expliquer rapidement ce qu'est un réseau de neurones artificiel, en gros, c'est une structure qui prend en entrée des données et les transforme (via des multiplications de matrices principalement) afin de renvoyer d'autres données en sortie

Share this page!

Enter URL or ID to Unroll