Leçon 15: Extraction de caractéristiques en NLP: transformer le texte en vecteurs numériques

^{Toutes les leçons}

Natural Language Processing (NLP) - Fondements et applications

Leçon 1
Natural Language Processing (NLP) - Histoire, définition et applications

Leçon 2
Le prétraitement en NPL: du texte brut aux données exploitables

Leçon 3
La normalisation, étape indispensable du prétraitement linguistique

Leçon 4
Tokenisation: comprendre son rôle dans le prétraitement linguistique pour le NLP

Leçon 5
Gestion des stop words en prétraitement NLP

Leçon 6
Le stemming: Réduction lexicale et normalisation des formes

Leçon 7
Lemmatisation: normaliser les texte en retrouvant la forme canonique des mots

Leçon 8
Byte Pair Encoding (BPE) - Tokenisation en sous-mots et réduction du vocabulaire

Leçon 9
WordPiece: tokenisation en sous-mots pour mieux comprendre le langage

Leçon 10
Extraction n-grammes pour enrichir la représentation du langage

Leçon 11
Exploratory Data Analysis (EDA) en NLP - Explorer pour mieux prédire

Leçon 12
Nuage de mots et histogramme de fréquences: outils visuels pour comprendre un corpus

Leçon 13
PoS Tagging: vers une compréhension linguistique approfondie

Leçon 14
Analyse de cooccurrence: étape clé de l'EDA en NLP exploratoire

Leçon 15
Extraction de caractéristiques en NLP: transformer le texte en vecteurs numériques

Leçon 16
Bag of Words (BoW): une approche basique d'extraction de caractéristiques en NLP

Leçon 17
TF-IDF: pondérer l'importance des mots pour mieux représenter le texte

Leçon 18
Word Embedding: comprendre le langage grâce aux vecteurs sémantiques

Leçon 19
Analyse de sentiments en NLP: Etude de cas avec le dataset US Airline Sentiment et VADER

Leçon 20
Analyse de sentiments avec un réseau LSTM: Classification multi-classes des tweets

Leçon 21
Reconnaissance d'Entités Nommées NER: du langage brut à l'information structurée

Leçon 22
Similarité Cosinus: comprendre la notion de proximité vectorielle

Leçon 23
Construire un système de recommandation avec TF-IDF et Cosine Similarity

Extraction de caractéristiques (Feature Extraction)

Qu’est-ce que l’extraction de caractéristiques en NLP?

L’extraction de caractéristiques en NLP est une étape fondamentale qui permet de transformer le texte brut en une représentation numérique exploitable par les algorithmes.

Les modèles de machine learning ne comprennent pas les mots ou les phrases comme nous; ils ne manipulent que des nombres. C’est pourquoi il faut convertir le langage en vecteurs ou en matrices qui traduisent les informations linguistiques en données quantitatives. Cette transformation agit comme un pont entre le langage humain et la machine en rendant le texte manipulable et en permettant aux modèles d’apprendre à reconnaître des régularités. Sans cette étape, il serait impossible d’appliquer des méthodes statistiques ou neuronales sur des données textuelles.

Autres utilités de l'extraction de caractéristiques

L'extraction de caractéristiques joue aussi un rôle de simplification. En effet, au lieu de traiter toute la richesse du langage, on sélectionne les informations pertinentes comme les fréquences, les relations ou les contextes, ce qui réduit la complexité et rend le calcul plus efficace.

En plus de cette simplification, une bonne extraction de caractéristiques améliore la performance des modèles. En choisissant une représentation adaptée, on aide l’algorithme à mieux généraliser et à produire des résultats plus fiables, que ce soit pour classer des documents, détecter des sentiments ou filtrer du spam.

Enfin, cette étape permet d’adapter la granularité de l’analyse. En d'autres termes, selon la technique utilisée, on peut travailler au niveau des mots, des phrases ou des documents entiers. Ainsi, l’extraction de caractéristiques n’est pas seulement une conversion technique, mais un véritable choix stratégique qui conditionne la qualité des résultats en NLP.

Les trois techniques principales de l'extraction de caractéristiques

Sac de mots ou Bag of Words (BoW)

Le modèle Bag of Words représente un texte comme un simple "sac de mots" où l’on ne retient que la fréquence brute de chaque terme sans tenir compte de l’ordre ni du contexte dans lequel il apparaît. Cette approche est particulièrement appréciée pour sa simplicité, car elle est facile à mettre en œuvre, rapide à calculer et offre une représentation interprétable qui permet de voir directement quels mots dominent dans un document.

Toutefois, sa principale limite réside dans le fait qu’elle ignore complètement la structure syntaxique et la sémantique du langage, ce qui peut conduire à une perte d’information importante et à des vecteurs très volumineux lorsque le vocabulaire est riche

TF‑IDF (Term Frequency – Inverse Document Frequency)

La méthode TF‑IDF repose sur l’idée de pondérer les mots en fonction de leur importance dans un corpus.

Un terme qui apparaît fréquemment dans un document mais reste rare dans l’ensemble des textes aura un poids élevé, car il est considéré comme plus représentatif du contenu. Cette approche permet de mettre en valeur les mots discriminants, ceux qui contribuent réellement à différencier un document des autres, contrairement aux termes trop courants comme les stop-words qui perdent de leur pertinence. Son principal avantage est donc de donner une meilleure visibilité aux mots significatifs, mais elle conserve une limite importante. En effet, TF-IDF reste fondée sur des fréquences statistiques et ne capture ni le sens profond ni les relations contextuelles entre les mots, ce qui peut réduire sa capacité à saisir la richesse sémantique du langage.

Word Embedding (ou plongement lexical)

Les word embeddings consistent à projeter les mots dans un espace vectoriel continu où leurs relations sémantiques sont préservées. Des modèles comme Word2Vec, GloVe ou FastText permettent ainsi de représenter chaque mot par un vecteur qui capture ses similarités et analogies avec d’autres termes.

L'approche des word embeddings est puissante car elle ne se limite pas à compter les occurrences, mais elle encode des dimensions de sens, ce qui permet par exemple de retrouver des analogies comme "Paris – France" ≈ "Rome – Italie".

L’avantage majeur est donc la capacité à saisir la proximité sémantique et les relations entre mots, ouvrant la voie à des applications plus fines en classification, recherche d’information ou traduction automatique. En revanche, cette technique demande davantage de ressources computationnelles et une base d’entraînement suffisamment riche et adaptée pour produire des vecteurs pertinents, ce qui peut représenter une contrainte dans certains contextes.

Chacune des techniques présentées (Bag of Words, TF‑IDF et Word Embedding) sera détaillée dans des leçons séparées. Nous prendrons le temps d’expliquer leur fonctionnement pas à pas, d’illustrer leurs avantages et limites avec des exemples concrets, et surtout de montrer leur implémentation en code afin que tu puisses les mettre en pratique directement.