How to get URL link on X (Twitter) App
Le modèle se base sur l'architecture du transformer présenté par Google Brain en 2017 (uniquement la partie décodeur) avec diverses améliorations telles que RMSNorm, Pre-norm, SwiGLU, GQA, RoPE, SWA, etc... 
Il y a quelques mois ils ont sorti Mistral 7B, un LLM (Large Langage Model) de 7 milliards de paramètres, ce qui est petit pour les standards actuels, mais malgré ça il bat des modèles bien plus gros que lui comme les Llama de Meta par exemple
Avant de parler de ChatGPT, je vais expliquer dans les grandes lignes comment fonctionne le machine learning ("apprentissage automatique" en français)
Pour rappel, il y a un peu plus de 2 ans, OpenAI avait sorti le modèle de langage GPT-3 (pour "Generative Pre-trained Transformer 3") qui était à l'époque de loin le plus gros modèle de langage avec notamment plus de 100 fois plus de paramètres que son prédécesseur GPT-2
Alors pour commencer, je vais expliquer rapidement ce qu'est un réseau de neurones artificiel, en gros, c'est une structure qui prend en entrée des données et les transforme (via des multiplications de matrices principalement) afin de renvoyer d'autres données en sortie