Leçon 1: Natural Language Processing (NLP) - Histoire, définition et applications

^{Toutes les leçons}

Natural Language Processing (NLP) - Fondements et applications

Leçon 1
Natural Language Processing (NLP) - Histoire, définition et applications

Leçon 2
Le prétraitement en NPL: du texte brut aux données exploitables

Leçon 3
La normalisation, étape indispensable du prétraitement linguistique

Leçon 4
Tokenisation: comprendre son rôle dans le prétraitement linguistique pour le NLP

Leçon 5
Gestion des stop words en prétraitement NLP

Leçon 6
Le stemming: Réduction lexicale et normalisation des formes

Leçon 7
Lemmatisation: normaliser les texte en retrouvant la forme canonique des mots

Leçon 8
Byte Pair Encoding (BPE) - Tokenisation en sous-mots et réduction du vocabulaire

Leçon 9
WordPiece: tokenisation en sous-mots pour mieux comprendre le langage

Leçon 10
Extraction n-grammes pour enrichir la représentation du langage

Leçon 11
Exploratory Data Analysis (EDA) en NLP - Explorer pour mieux prédire

Leçon 12
Nuage de mots et histogramme de fréquences: outils visuels pour comprendre un corpus

Leçon 13
PoS Tagging: vers une compréhension linguistique approfondie

Leçon 14
Analyse de cooccurrence: étape clé de l'EDA en NLP exploratoire

Leçon 15
Extraction de caractéristiques en NLP: transformer le texte en vecteurs numériques

Leçon 16
Bag of Words (BoW): une approche basique d'extraction de caractéristiques en NLP

Leçon 17
TF-IDF: pondérer l'importance des mots pour mieux représenter le texte

Leçon 18
Word Embedding: comprendre le langage grâce aux vecteurs sémantiques

Leçon 19
Analyse de sentiments en NLP: Etude de cas avec le dataset US Airline Sentiment et VADER

Leçon 20
Analyse de sentiments avec un réseau LSTM: Classification multi-classes des tweets

Aux origines du NLP

Les débuts du NLP (années 1950–1970)

Le traitement automatique du langage naturel prend forme dans les années 1950. En 1954, l’expérience Georgetown-IBM marque un jalon important: une machine traduit automatiquement une soixantaine de phrases du russe vers l’anglais. À cette époque, les approches reposent sur des règles linguistiques explicites inspirées par la grammaire et la logique. Cependant, ces systèmes symboliques restent limités, car ils ne parviennent pas à gérer la complexité et l’ambiguïté du langage humain.

La révolution statistique (années 1980–1990)

À partir des années 1980, le domaine connaît une transformation majeure avec l’introduction des méthodes statistiques. Les chercheurs commencent à exploiter de grands corpus textuels pour modéliser le langage à l’aide de probabilités. Dans les années 1990, les Le Natural Language Processing (NLP) est né dans les années 1950, avec les premiers essais de traduction automatique et les approches basées sur des règles. Le NLP se définit aujourd’hui comme une discipline de l’IA qui permet aux machines de comprendre, analyser et générer du langage humain.

Les applications du NLP couvrent un large éventail comme les assistants virtuels, les chatbots, la traduction, l'analyse de sentiments ou la recherche d’information. Cette leçon introduit l’histoire, les concepts fondamentaux et les usages concrets du NLP, ouvrant la voie vers une maîtrise progressive des outils modernes.modèles de Markov cachés (HMM) deviennent incontournables pour la reconnaissance vocale et l’analyse syntaxique. Cette période marque le passage d’une approche basée sur des règles à une approche fondée sur les données.

L’ère du machine learning (années 2000)

Durant les années 2000, les algorithmes de machine learning comme les SVM (Support Vector Machines) et les CRF (Conditional Random Fields) s’imposent pour des tâches telles que l’étiquetage morpho-syntaxique ou l’extraction d’entités nommées. L’augmentation de la puissance de calcul et la disponibilité de corpus massifs permettent de franchir un nouveau cap dans l’efficacité des systèmes NLP.

L’essor du deep learning (depuis 2010)

À partir des années 2010, le deep learning marque un tournant décisif dans le NLP. En 2013, l’algorithme Word2Vec introduit une nouvelle manière de représenter les mots sous forme de vecteurs continus capables de capturer leurs relations sémantiques et contextuelles. Cette avancée permet de dépasser les simples représentations symboliques ou statistiques, en donnant aux modèles une compréhension plus fine des nuances du langage.

Enn 2017, l’architecture Transformer proposée par Vaswani et ses collègues bouleverse le domaine. En effet, grâce à son mécanisme d’attention, elle devient la base des modèles modernes comme BERT ou GPT, capables de traiter de grandes quantités de texte avec une efficacité et une précision inédites. Depuis, le NLP connaît une accélération spectaculaire, ouvrant la voie à des applications allant de la traduction automatique fluide aux assistants virtuels capables de dialoguer de manière naturelle.

Certains termes utilisés dans ces explications (comme Word2Vec, Transformers, mécanisme d'attention...) peuvent vous sembler nouveaux ou techniques. Nous prendrons le temps de les définir et de les explorer en détail dans les prochaines sections du cours.

Définition et applications du NLP

Qu'est ce que le Natural Language Processing?

Le Natural Language Processing (NLP), ou traitement automatique du langage naturel, est une branche de l’intelligence artificiellequi cherche à donner aux ordinateurs la capacité d’interagir avec le langage humain de manière intelligente.
Natural Language Processing - NLP

En effet, les machines ne sont pas naturellement à l’aise avec le texte ou la parole, car le langage humain est nuancé, rempli d’ambiguïtés, de synonymes, de contextes implicites et de subtilités culturelles. Comprendre une phrase ne se limite pas à reconnaître des mots, car il faut aussi saisir la grammaire, la sémantique et le sens global. Pour relever ce défi, le NLP combine des approches issues de la linguistique (analyse syntaxique, étude du sens des mots, relations entre phrases) avec des techniques de machine learning et de deep learning, capables d’apprendre à partir de vastes ensembles de données textuelles ou vocales.

Cette synergie permet aux ordinateurs de progresser vers une compréhension plus fine du langage et d’offrir des applications allant de la correction orthographique à des systèmes capables de dialoguer de manière fluide avec les utilisateurs.

Applications concrètes du NLP

Les applications du NLP sont aujourd’hui omniprésentes et couvrent un spectre très large. On le retrouve dans les assistants virtuels et les chatbots, qui permettent aux utilisateurs de dialoguer naturellement avec les machines. Il est au cœur de la traduction automatique, de l’analyse de sentiments sur les réseaux sociaux et de la recherche d’information en ligne. Le NLP intervient aussi dans la reconnaissance vocale, la synthèse de texte, la classification de documents, la détection de spam, la génération automatique de résumés, ou encore l’extraction d’entités nommées (noms, lieux, dates).

Plus récemment, il alimente des usages avancés comme la génération de contenu créatif, l’aide à la rédaction, la veille automatisée et même l’analyse juridique ou médicale. Ces multiples applications montrent comment le NLP transforme profondément notre manière d’interagir avec les technologies, en rendant l’accès à l’information plus fluide, personnalisé et intelligent.

Large Language Models (LLM)

Dans la continuité de ces avancées, les Large Language Models (LLM) représentent aujourd’hui une étape majeure dans l’évolution du NLP. Ces modèles, entraînés sur des volumes gigantesques de textes, sont capables de générer du langage fluide, de répondre à des questions complexes et même de raisonner sur des contextes variés.

La puissance des LLMs repose sur l’architecture des Transformers qui leur permet de traiter efficacement de longues séquences et de capturer les nuances du langage.

Les Large Language Models (LLM) sont aujourd’hui utilisés dans une grande variété de domaines: assistants intelligents comme ChatGPT ou Claude, outils de rédaction automatisée tels que Jasper ou Copy.ai, systèmes d’aide à la programmation comme GitHub Copilot, ainsi que des solutions d’analyse documentaire et de recherche scientifique basées sur LLaMA ou Mistral. Leur force réside dans leur capacité à générer du texte fluide, à répondre à des questions complexes et à s’adapter à différents contextes grâce à l’architecture des Transformers.

Ces modèles illustrent la puissance du NLP moderne, capable de dépasser le simple traitement du texte pour offrir des interactions riches, personnalisées et contextuelles, rapprochant les machines d’une compréhension quasi humaine du langage.

Prérequis pour aborder le NLP

Avant de commencer ce cours du NLP, il est important de disposer de quelques prérequis pour en tirer pleinement profit.

Une bonne maîtrise des notions de programmation, en particulier avec Python, est essentielle car la plupart des bibliothèques et outils NLP reposent sur ce langage. Des bases solides en mathématiques appliquées (probabilités, statistiques, algèbre linéaire) permettent de comprendre les modèles et les algorithmes sous-jacents. Il est également recommandé d’avoir des connaissances en apprentissage automatique et en deep learning, notamment sur les réseaux de neurones, afin de saisir les mécanismes des modèles modernes comme les Transformers.

Enfin, une familiarité avec les concepts de linguistique (syntaxe, sémantique, morphologie) constitue un atout pour mieux appréhender les subtilités du langage naturel. Ces prérequis ne visent pas à décourager, mais à assurer une progression fluide et une compréhension approfondie des notions abordées tout au long du cours.