DIMENSION Profile picture
Ingénieur logiciel chez @BlaBlaCar 🚙, créateur de plusieurs chaînes YouTube de vulgarisation scientifique 🎥 et développeur indépendant de simulations/IA 👨‍💻
May 4 11 tweets 5 min read
J'ai enfin fini mon projet de modèle de langage ! 🥳

Après plus de 570 heures d'entraînement sur ma RTX 3090, j'ai créé DimensionGPT-0.2B, un petit modèle de langage de seulement 200 millions de paramètres que j'ai entraîné sur 50 milliards de tokens en françaisImage Le modèle se base sur l'architecture du transformer présenté par Google Brain en 2017 (uniquement la partie décodeur) avec diverses améliorations telles que RMSNorm, Pre-norm, SwiGLU, GQA, RoPE, SWA, etc... Image
Image
Jan 18 14 tweets 4 min read
On m'a demandé d'en parler et c'est vrai que c'est super impressionnant ce qu'ils sont en train de faire chez @MistralAI, qui on le rappelle est une entreprise française 🥳, mais qu'est-ce qu'ils font de spécial à part mettre du WordArt dans leurs publications ? Petit résumé : Image Il y a quelques mois ils ont sorti Mistral 7B, un LLM (Large Langage Model) de 7 milliards de paramètres, ce qui est petit pour les standards actuels, mais malgré ça il bat des modèles bien plus gros que lui comme les Llama de Meta par exemple Image
Apr 2, 2023 58 tweets 13 min read
Comme promis voici un thread pour expliquer comment fonctionne réellement #ChatGPT afin de casser pas mal d'idées reçues... 🧵 Image Avant de parler de ChatGPT, je vais expliquer dans les grandes lignes comment fonctionne le machine learning ("apprentissage automatique" en français)
Mar 14, 2023 17 tweets 4 min read
GPT-4 🤖 a été annoncé par @OpenAI aujourd'hui !

Mais qu'est-ce que ça change concrètement ?

Petit thread pour résumer tout ça... 🧵 Image Pour rappel, il y a un peu plus de 2 ans, OpenAI avait sorti le modèle de langage GPT-3 (pour "Generative Pre-trained Transformer 3") qui était à l'époque de loin le plus gros modèle de langage avec notamment plus de 100 fois plus de paramètres que son prédécesseur GPT-2 Image
Dec 8, 2022 28 tweets 6 min read
Petit thread pour expliquer comment fonctionne réellement les modèles de génération d'images, histoire de casser quelques idées reçues 🧵

⬇️⬇️⬇️ Alors pour commencer, je vais expliquer rapidement ce qu'est un réseau de neurones artificiel, en gros, c'est une structure qui prend en entrée des données et les transforme (via des multiplications de matrices principalement) afin de renvoyer d'autres données en sortie