Gérer les valeurs manquantes
intermediate
📖 cours libre
🎯 Objectif : Distinguer NaN, None, '' et décider d'une stratégie d'imputation.
Question 1
df.isna().sum() te donne 40% de NaN sur 'salaire'. Tu supprimes ou tu imputes ?
Indice 1 :
Pourquoi la donnée est-elle manquante ?
Indice 2 :
Qu'est-ce qui se passe si tu imputes par la moyenne ?
Voir la réponse attendue
Ça dépend: si NaN = 'inconnu', imputer la médiane peut biaiser. Si NaN = 'pas concerné', mieux vaut une colonne flag + imputation neutre.