Embeddings: représenter les mots sous forme de vecteurs
Dans le domaine du traitement automatique du langage naturel (NLP), les embeddings désignent des représentations vectorielles des mots dans un espace multidimensionnel. Chaque mot est transformé en un vecteur dense, permettant aux algorithmes d’IA de manipuler le langage sous forme mathématique. Contrairement aux approches symboliques classiques, cette méthode encode les mots selon leurs relations sémantiques. Anisi, les vecteurs des mots "Orange" et "Pomme" seront proches, tout comme ceux de "Chat" et "Chien" en traduisant des analogies implicites. Cette idée a été popularisée par le modèle
Word2Vec qui apprend les représentations à partir des cooccurrences de mots dans de vastes corpus, suivi par
GloVe qui intègre des statistiques globales de cooccurrence.
Les anciens modèles d’intelligence artificielle donnaient à chaque mot une seule et même représentation vectorielle (peu importe la phrase dans laquelle il apparaissait). Cela posait problème pour les mots qui ont plusieurs sens. Par exemple, le mot "banc" est utilisé aussi bien pour s’asseoir dans un parc que pour désigner un groupe de poissons. Cependant, l’IA leur attribuait exactement la même représentation. Pour corriger cela, les chercheurs ont créé ce qu’on appelle des représentations contextuelles afin que l’IA puisse adapter la signification d’un mot en fonction des mots qui l’entourent. Ainsi, "banc" dans un texte sur la pêche ne sera plus compris comme un siège, mais bien comme un groupe de poissons.
Attention: se concentrer sur ce qui compte
Dans les modèles de traitement du langage naturel (NLP), le mécanisme d’attention permet à l’IA de ne pas traiter tous les mots d’une phrase de manière égale. Au lieu de lire linéairement, le modèle évalue à chaque étape quels mots sont les plus importants pour comprendre le sens global. Par exemple, dans la phrase "Le chat que j’ai vu était noir", le mot "noir" est directement lié à "chat", même s’ils sont éloignés dans la structure. L’attention permet au modèle d’établir ce lien en "pondérant" les mots selon leur pertinence. Cette capacité à créer des connexions dynamiques est essentielle pour comprendre les phrases longues, ambigües ou complexes.
Transformer : l’architecture qui a tout changé
Le concept Transformer formalisé en 2017 dans l’article fondateur
Attention Is All You Need (Vaswani et al.) a marqué un tournant majeur dans le domaine du deep learning et du traitement du langage naturel. Contrairement aux anciens modèles comme les réseaux récurrents (RNN et ses variantes améliorées
LSTM et
GRU) qui analysaient les phrases mot par mot de manière séquentielle, le Transformer permet de traiter l’ensemble d’une séquence en parallèle. Ce fonctionnement accélère considérablement l’apprentissage et améliore la capacité à comprendre des textes longs et complexes.
Au cœur de cette architecture se trouvent deux éléments clés: les couches d’attention multi-têtes, qui permettent au modèle de se concentrer sur plusieurs relations entre les mots en même temps, et les blocs de transformation (feed-forward layers) qui affinent les représentations internes. Grâce à cette structure, le Transformer peut capter des dépendances linguistiques à longue distance, gérer des contextes riches et produire des résultats d’une grande finesse.
C’est cette innovation qui a permis l’émergence des grands modèles de langage comme BERT, GPT ou T5. Ces modèles sont capables non seulement de comprendre et générer du texte, mais aussi de résumer des documents, traduire des langues, répondre à des questions… voire même écrire du code. Le Transformer est ainsi devenu la colonne vertébrale de l’IA moderne en NLP.