Leçon 1: Pourquoi le preprocessing et le feature engineering sont indispensables?

^{Toutes les leçons}

Preprocessing et Feature Engineering: booster les performances d'un modèle IA

Leçon 1
Pourquoi le preprocessing et le feature engineering sont indispensables?

Leçon 2
Preprocessing: Nettoyer les données et traiter les valeurs manquantes

Leçon 3
Preprocessing par imputation: renforcer la qualité des datasets incomplets

Leçon 4
Scaling, standardisation et normalisation: comprendre les bases pour harmoniser les données

Leçon 5
Appliquer le scaling pas à pas sur le dataset Breast Cancer

Leçon 6
L'encodage des variables catégorielles: principes et méthodes

Leçon 7
Encodage des variables catégorielles avec Label Encoding

Leçon 8
One-Hot Encoding: rendre les catégories compréhensibles pour les modèles

Leçon 9
Binary Encoding: coder intelligemment en réduisant la dimensionnalité des variables

Leçon 10
Target Encoding: transformer les catégories en informations statistiques utiles

Leçon 11
Feature Engineering en action: comprendre les Polynomial Features

Leçon 12
Feature selection: réduire les variables pour des modèles plus robustes

Leçon 13
Feature sélection par variance appliquée au dataset Breast Cancer Wisconsin

Leçon 14
Feature Selection supervisée par ANOVA sur le dataset Breast Cancer

Leçon 15
Le binning: discrétisation des features numériques continues

Leçon 16
Temporal Feature Engineering: transformer une date en données

Leçon 17
Oversampling: rééquilibrer les données pour améliorer les prédictions

Avant d’entamer ce cours, il est vivement recommandé de maîtriser les fondements du Machine Learning. Si ce n’est pas le cas, je vous invite à suivre au préalable mon cours sur l'intelligence artificielle et le Machine Learning dédié à ces bases.

Preprocessing et Feature Engineering: la clé pour transformer des données brutes en modèles performants

Le vrai défi du Machine Learning: les données, pas les modèle

Dans le cours de Machine Learning, nous avons exploré le fonctionnement des modèles et des algorithmes en travaillant sur différents jeux de données, aussi bien en régression qu’en classification (et même sur quelques cas d’apprentissage non supervisé). Les résultats obtenus étaient souvent satisfaisants, ce qui pouvait laisser penser que la construction d’un modèle performant est relativement simple. Pourtant, les datasets utilisés étaient presque idéaux. En effet, elle renfermaient très peu de valeurs manquantes ou aberrantes et ils avaient une structure propre et homogène. En réalité, ces datasets avaient été soigneusement préparés en amont avant même que nous les manipulions. Or, dans la réalité, la plupart des projets de machine learning ne bénéficient pas de ce niveau de qualité.

Dans la plupart des projets de machine learning, le véritable défi ne vient pas des modèles, mais des données elles‑mêmes. Avant même d’entraîner quoi que ce soit, on se retrouve souvent face à des jeux de données incomplets, contenant des valeurs manquantes ou incohérentes, ou même bruités et renferment des mesures erronées ou instables. Leur structure peut être désordonnée (avec des formats, des unités ou des types de variables mélangés) et leur contenu peut parfois être hétérogène en raison de leur provenance de sources différentes qui ne s’alignent pas naturellement.

Dans bien des cas, les données brutes sont simplement pauvres en signal, c’est‑à‑dire qu’elles ne révèlent pas spontanément les informations pertinentes pour la tâche à accomplir. Or, même le modèle le plus avancé reste impuissant face à un tel chaos, car il ne peut apprendre que ce que les données lui permettent de percevoir. Sans une base solide, aucune architecture aussi sophistiquée soit‑elle, ne peut produire des résultats fiables ou interprétables. C’est précisément pour ces raisons que la préparation des données constitue une étape fondamentale dans tout projet de data science, et cela repose sur deux piliers essentiels: le preprocessing et le feature engineering.

Qu'est ce que le preprocessing?

Le preprocessing désigne l’ensemble des opérations réalisées sur les données avant d’entraîner un modèle de machine learning. Son objectif principal est de rendre les données exploitables, cohérentes et compatibles avec les algorithmes. En effet, les données brutes contiennent souvent des valeurs manquantes, des incohérences, des formats hétérogènes ou des échelles très différentes d’une variable à l’autre. Sans un minimum de préparation, même les modèles les plus avancés sont incapables d’apprendre correctement ou produisent des résultats instables.

Le preprocessing consiste donc à nettoyer, corriger et harmoniser les données. Cela inclut la gestion des valeurs manquantes, le traitement des outliers, la normalisation ou la standardisation des variables numériques, l’encodage des variables catégorielles ou encore l’uniformisation des formats et des unités. Ces opérations ne cherchent pas à enrichir les données, mais à les rendre fiables et comparables afin que les algorithmes de Machine Learning puissent travailler dans de bonnes conditions.

En pratique, le preprocessing est une étape incontournable dans tout projet de data science, car il conditionne directement la qualité de l’apprentissage. Un dataset propre et cohérent permet au modèle de se concentrer sur les relations importantes plutôt que sur le bruit ou les erreurs. C’est pourquoi on dit souvent que la performance d’un modèle dépend autant de la qualité du preprocessing que du choix de l’algorithme lui‑même.

Et le Feature Engineering?

Après avoir préparé et harmonisé les données grâce au preprocessing, une autre étape essentielle consiste à aller au‑delà de la simple mise en forme pour réellement enrichir l’information disponible. En effet, même lorsque les données sont propres, cohérentes et prêtes à être utilisées, elles ne contiennent pas toujours les signaux nécessaires pour permettre à un modèle d’apprendre efficacement. C’est là qu’intervient une démarche plus créative et analytique: transformer les données pour en extraire davantage de sens.

Le feature engineering désigne précisément ce travail d’enrichissement. Il consiste à créer de nouvelles variables, à combiner celles existantes, à capturer des relations non linéaires, à extraire des motifs temporels ou textuels ou encore à reformuler l’information pour la rendre plus expressive. L’objectif n’est pas seulement de modifier les données, mais de révéler des patterns que le modèle ne pourrait pas percevoir directement dans les variables brutes. C’est une étape où l’expertise métier, l’intuition statistique et la compréhension du problème jouent un rôle central.

En pratique, le feature engineering peut transformer un dataset ordinaire en un jeu de données véritablement informatif et capable de soutenir des modèles plus performants, plus stables et parfois même plus simples. C’est souvent cette étape qui fait la différence entre un modèle moyen et un modèle robuste. Là où le preprocessing prépare le terrain, le feature engineering construit les fondations qui permettront au modèle d’apprendre quelque chose de réellement pertinent.

Prérequis indispensables avant de commencer

Avant de commencer ce cours, il est important d’avoir déjà une bonne compréhension des bases du Machine Learning, cela inclut la compréhension de ce qu’est un modèle, comment il apprend et être à l’aise avec des notions comme la régression, la classification ou l’apprentissage non supervisé. Ces fondements vous permettront d’aborder sereinement les concepts plus avancés que nous allons explorer.

Par ailleurs, une maîtrise minimale du langage de programmation Python est indispensable puisque nous utiliserons tout au long du cours des modules de l’écosystème Jupyter Notebook ainsi que des bibliothèques courantes de data science. Si certains de ces éléments ne vous sont pas encore familiers, je vous recommande vivement de suivre d’abord mon cours sur l'intelligence artificielle et le Machine Learning qui constitue un point de départ pour progresser avec confiance.