Natural Language Processing (NLP) - Fondements et applications

Auteur: Mohamed CHINY Durée necessaire pour le cours de Natural Language Processing (NLP) - Fondements et applications Niveau recommandé pour le cours de Natural Language Processing (NLP) - Fondements et applications Supports vidéo non disponibles pour ce cours Exercices de renforcement non disponibles pour ce cours Quiz non disponibles pour ce cours

Leçon 2: Le prétraitement en NPL: du texte brut aux données exploitables

Toutes les leçons

Natural Language Processing (NLP) - Fondements et applications

Leçon 1
Natural Language Processing (NLP) - Histoire, définition et applications
Leçon 2
Le prétraitement en NPL: du texte brut aux données exploitables
Leçon 3
La normalisation, étape indispensable du prétraitement linguistique
Leçon 4
Tokenisation: comprendre son rôle dans le prétraitement linguistique pour le NLP
Leçon 5
Gestion des stop words en prétraitement NLP
Leçon 6
Le stemming: Réduction lexicale et normalisation des formes
Leçon 7
Lemmatisation: normaliser les texte en retrouvant la forme canonique des mots
Leçon 8
Byte Pair Encoding (BPE) - Tokenisation en sous-mots et réduction du vocabulaire
Leçon 9
WordPiece: tokenisation en sous-mots pour mieux comprendre le langage
Leçon 10
Extraction n-grammes pour enrichir la représentation du langage
Leçon 11
Exploratory Data Analysis (EDA) en NLP - Explorer pour mieux prédire
Leçon 12
Nuage de mots et histogramme de fréquences: outils visuels pour comprendre un corpus
Leçon 13
PoS Tagging: vers une compréhension linguistique approfondie
Leçon 14
Analyse de cooccurrence: étape clé de l'EDA en NLP exploratoire
Leçon 15
Extraction de caractéristiques en NLP: transformer le texte en vecteurs numériques
Leçon 16
Bag of Words (BoW): une approche basique d'extraction de caractéristiques en NLP
Leçon 17
TF-IDF: pondérer l'importance des mots pour mieux représenter le texte
Leçon 18
Word Embedding: comprendre le langage grâce aux vecteurs sémantiques
Leçon 19
Analyse de sentiments en NLP: Etude de cas avec le dataset US Airline Sentiment et VADER
Leçon 20
Analyse de sentiments avec un réseau LSTM: Classification multi-classes des tweets

Prétraitement du texte: la première étape vers un NLP efficace

Pourquoi le prétraitement est indispensable?

Le texte brut, tel qu’il est collecté à partir de multiples sources (qu’il s’agisse de pages web, de rapports institutionnels, de bases de données ou encore de réseaux sociaux) contient généralement beaucoup de bruit. On y retrouve des majuscules incohérentes, une ponctuation superflue, des fautes d’orthographe ou des mots fréquents mais peu informatifs. Si l’on applique directement des modèles de NLP sur ces données hétérogènes, les résultats risquent d’être biaisés et peu fiables.

Le prétraitement intervient alors comme une étape de nettoyage et de normalisation, assurant que les algorithmes puissent exploiter une base textuelle cohérente et structurée, quel que soit le type de document d’origine.

Qu’est-ce que le prétraitement en NLP?

Le prétraitement (ou preprocessing) regroupe l’ensemble des opérations qui transforment un texte brut, issu de sources variées comme des pages web, des articles scientifiques, des rapports administratifs ou des conversations quotidiennes, en une version simplifiée et structurée prête pour l’analyse automatique.

Le prétraitement joue le rôle d’un filtre entre la collecte des données et leur représentation numérique car elle élimine le bruit, harmonise l’écriture et met en évidence les éléments pertinents.

En pratique, le prétraitement consiste à transformer le langage humain, naturellement non structuré, en une forme adaptée aux exigences des algorithmes. L’objectif n’est pas uniquement de "nettoyer" le texte, mais de le rendre exploitable dans un cadre computationnel, en réduisant son ambiguïté et en harmonisant sa structure.

Cette étape permet de préserver l’essentiel de l’information tout en éliminant le bruit qui pourrait perturber l’analyse. Grâce à ce travail préparatoire, les modèles de NLP disposent d’une base cohérente et homogène, quel que soit le type de document d’origine, ce qui leur permet de produire des résultats plus fiables, pertinents et interprétables.
J’ai déjà publié un cours consacré au preprocessing et au feature engineering dans un contexte général de modélisation, où l’objectif est de transformer des données brutes en variables pertinentes pour les algorithmes. Cependant, il est important de préciser que le prétraitement en NLP possède une nature un peu différente: ici, il ne s’agit pas seulement de créer des caractéristiques numériques, mais de traiter un langage humain intrinsèquement non structuré.

Les principales techniques de prétraitement

Le prétraitement regroupe un ensemble de techniques complémentaires qui visent à transformer un corpus brut en données prêtes à être exploitées par les modèles de NLP. Parmi les principales opérations, on retrouve:
  • Tokenisation: découper le texte en unités (mots, sous‑mots ou phrases) pour faciliter son analyse.
  • Normalisation: harmoniser l’écriture (minuscules, suppression des accents, uniformisation des formats).
  • Suppression des stopwords: éliminer les mots très fréquents mais peu informatifs (ex. "le", "de", "et"...).
  • Stemming: réduire les mots à leur racine en supprimant les suffixes, sans tenir compte de la grammaire.
  • Lemmatisation: ramener les mots à leur forme canonique (ex. "manger", "mangé", "mangeons" → "manger").
  • Gestion de caractères spéciaux: filtrer ou conserver la ponctuation et les caractères spéciaux selon le contexte d’analyse.
  • Traitement des éléments spécifiques: nettoyage des URLs, hashtags, emojis ou mentions sociales.

En combinant ces techniques, le prétraitement permet de réduire le bruit, de structurer le texte et de préserver l’essentiel de l’information, garantissant ainsi une meilleure performance des modèles de NLP.
Dans certains contextes, la tokenisation est considérée comme une étape à part entière. Elle est alors perçue comme une opération fondamentale de segmentation du texte, qui précède le nettoyage et la normalisation. Autrement dit, selon la manière dont on structure le pipeline NLP, la tokenisation peut être intégrée au prétraitement ou traitée séparément comme une phase autonome.
         
         
         
Leçon 2
Le prétraitement en NPL: du texte brut aux données exploitables