Ingénieur logiciel chez @BlaBlaCar 🚙, créateur de plusieurs chaînes YouTube de vulgarisation scientifique 🎥 et développeur indépendant de simulations/IA 👨💻
May 4 • 11 tweets • 5 min read
J'ai enfin fini mon projet de modèle de langage ! 🥳
Après plus de 570 heures d'entraînement sur ma RTX 3090, j'ai créé DimensionGPT-0.2B, un petit modèle de langage de seulement 200 millions de paramètres que j'ai entraîné sur 50 milliards de tokens en français
Le modèle se base sur l'architecture du transformer présenté par Google Brain en 2017 (uniquement la partie décodeur) avec diverses améliorations telles que RMSNorm, Pre-norm, SwiGLU, GQA, RoPE, SWA, etc...
Jan 18 • 14 tweets • 4 min read
On m'a demandé d'en parler et c'est vrai que c'est super impressionnant ce qu'ils sont en train de faire chez @MistralAI, qui on le rappelle est une entreprise française 🥳, mais qu'est-ce qu'ils font de spécial à part mettre du WordArt dans leurs publications ? Petit résumé :
Il y a quelques mois ils ont sorti Mistral 7B, un LLM (Large Langage Model) de 7 milliards de paramètres, ce qui est petit pour les standards actuels, mais malgré ça il bat des modèles bien plus gros que lui comme les Llama de Meta par exemple
Apr 2, 2023 • 58 tweets • 13 min read
Comme promis voici un thread pour expliquer comment fonctionne réellement #ChatGPT afin de casser pas mal d'idées reçues... 🧵
Avant de parler de ChatGPT, je vais expliquer dans les grandes lignes comment fonctionne le machine learning ("apprentissage automatique" en français)
Petit thread pour résumer tout ça... 🧵
Pour rappel, il y a un peu plus de 2 ans, OpenAI avait sorti le modèle de langage GPT-3 (pour "Generative Pre-trained Transformer 3") qui était à l'époque de loin le plus gros modèle de langage avec notamment plus de 100 fois plus de paramètres que son prédécesseur GPT-2
Dec 8, 2022 • 28 tweets • 6 min read
Petit thread pour expliquer comment fonctionne réellement les modèles de génération d'images, histoire de casser quelques idées reçues 🧵
⬇️⬇️⬇️
Alors pour commencer, je vais expliquer rapidement ce qu'est un réseau de neurones artificiel, en gros, c'est une structure qui prend en entrée des données et les transforme (via des multiplications de matrices principalement) afin de renvoyer d'autres données en sortie