Dans cette section, nous avons présenté le contexte nécessaire et la littérature relative à l’imputation des données manquantes. Tout d’abord, nous avons décrit brièvement les types de données manquantes. Ensuite, nous avons présenté la revue de la littérature en deux catégories : imputation simple et imputation multiple.

Typiquement, les données manquantes peuvent être de trois types :

  • Missing Completely at Random (MCAR) : Les données sont manquantes indépendamment des données observées et non observées. Par exemple, dans une enquête auprès des étudiants, si nous obtenons 5 % de réponses manquantes au hasard, c’est MCAR.

  • Missing at Random (MAR) : Étant donné les données observées, les données sont manquantes indépendamment des données non observées. Par exemple, si nous obtenons 10% de réponses manquantes pour l’enquête sur les étudiants masculins et 5% de réponses manquantes pour l’enquête sur les étudiantes féminines, alors il s’agit de MAR.

  • Missing Not at Random (MNAR) : Les observations manquantes sont liées aux valeurs des données non observées elles-mêmes. Par exemple, si plus le CGPA d’un étudiant est faible, plus le taux de réponse manquante à l’enquête est élevé, alors il s’agit de MNAR.

Imputation simple

Les techniques d’imputation simple génèrent une valeur spécifique pour une valeur réelle manquante dans un ensemble de données. Cette technique nécessite un coût de calcul moindre. Il existe de nombreux types de méthodes d’imputation simple proposés par les chercheurs. La procédure générale consiste à choisir la réponse la plus élevée possible en analysant les autres réponses. La valeur peut être obtenue par la moyenne, la médiane ou le mode des valeurs disponibles de cette variable. D’autres approches, telles que les techniques basées sur l’apprentissage automatique, peuvent également être utilisées pour l’imputation unique. Un exemple illustratif du fonctionnement de l’imputation unique est présenté ci-dessous.

Dans le tableau 1, nous pouvons voir qu’il y a deux valeurs manquantes dans la colonne  » Revenu  » pour les numéros de série 2, et 5 qui sont représentés par NA. Nous pouvons effectuer une imputation moyenne pour imputer les valeurs manquantes. Ici, pour chaque valeur manquante, une seule valeur sera imputée par l’algorithme. Nous allons maintenant calculer la moyenne des valeurs disponibles de la colonne « Revenu ».

$$\begin{aligned} \hbox {Moyenne}= (100+100+300+200+200)/5= 180 \end{aligned}$
Tableau 1 Un ensemble de données avec des valeurs manquantes

À ce stade, les valeurs manquantes des séries 2 et 5 seront remplacées par la valeur moyenne de cette colonne, qui est 180. Le tableau 2 représente la situation après les imputations des valeurs manquantes. S’il y a beaucoup de données manquantes dans une colonne, et que ces données sont remplacées par la même valeur, le résultat statistique comme l’écart type, la variance diminue. Dans l’imputation simple, les valeurs imputées sont considérées comme des valeurs réelles. L’imputation simple ne tient pas compte du fait que la valeur réelle ne peut être prédite avec certitude par aucune méthode d’imputation. Les méthodes basées sur l’imputation unique ne tiennent pas compte de l’incertitude des valeurs imputées. Au contraire, elles reconnaissent les valeurs imputées comme des valeurs réelles dans l’analyse ultérieure. Cependant, ces valeurs peuvent avoir des erreurs standard. Celles-ci entraînent un biais dans le résultat .

Tableau 2 Imputation des valeurs manquantes à l’aide de la méthode d’imputation simple

Dans le tableau 3, nous pouvons voir, il y a quelques valeurs manquantes dans l’ensemble de données. Si nous utilisons une stratégie d’imputation unique, nous pouvons prendre le  » Mode  » (valeur la plus fréquente) de notre colonne cible  » Motif de décès  » pour combler ces valeurs manquantes. Dans cet exemple, le mode est « Cancer », et toutes les données manquantes seront donc remplacées par « Cancer ». Cependant, si nous considérons la colonne d’âge, nous pouvons voir que les valeurs manquantes concernent les patients âgés qui sont plus susceptibles de mourir dans le Covid-19. Donc, si nous remplissons simplement toutes les valeurs manquantes en utilisant uniquement l’imputation unique, cela peut ne pas répondre correctement à l’incertitude de l’ensemble de données et produire probablement une imputation biaisée.

Tableau 3 Analyse du biais pour la méthode d’imputation unique

Les éléments suivants sont des recherches éminentes sur les techniques d’imputation de données manquantes basées sur l’imputation unique. Grzymala-Busse et Grzymala-Busse ont présenté une revue des méthodes existantes de traitement des données manquantes dans le manuel Handling Missing Attribute Values. Ils ont classé les méthodes existantes en méthodes d’imputation séquentielle et d’imputation parallèle et ont discuté des imputations séquentielles les plus populaires, par exemple, la suppression des cas, l’attribution de la valeur la plus courante, l’attribution de valeurs restreintes par concept. Quelques méthodes d’imputation parallèle ont également été discutées dans leur article, par exemple, l’induction de règles, l’approximation inférieure et supérieure, l’appariement des valeurs d’attributs.

Dans , les auteurs ont énoncé les influences et les risques de l’imputation des données manquantes sur les données médicales et leur impact sur la précision de la classification. Les auteurs ont comparé trois méthodes de calcul de la moyenne des imputations de données : la moyenne globale, la moyenne par grappe et la moyenne par classe. L’importance de l’utilisation de techniques de classification après l’imputation avec un algorithme est également discutée dans l’article.

Rahman a présenté une technique d’imputation pour les données de santé manquantes basée sur une approche d’apprentissage automatique basée sur les règles. L’auteur a utilisé un algorithme, à savoir le Fuzzy Unordered Rule Induction Algorithm (FURIA). FURIA est un perfectionnement d’un algorithme d’apprentissage appelé RIPPER . FURIA produit quelques règles if-then en fonction de l’ensemble de données. Plus tard, ces règles if-then peuvent être utilisées pour imputer les valeurs manquantes. L’auteur a comparé les performances de FURIA avec celles de kNN, J48, SVM, et l’imputation moyenne, pour imputer les données manquantes et a trouvé que FURIA était meilleur en termes de sensibilité. La précision de FURIA n’était pas toujours prometteuse par rapport à ses concurrents.

Schmitt P., Mandel J. et Guedj M. ont sélectionné six des méthodes les plus populaires pour l’imputation des données manquantes à partir du moteur de recherche Google et ont comparé les méthodes en utilisant quelques ensembles de données en accès libre, à savoir l’iris, l’e.coli et le cancer du sein . Ils ont évalué l’efficacité de ces méthodes en utilisant l’erreur quadratique moyenne (RMSE), l’erreur de regroupement non supervisé et l’erreur de regroupement supervisé. Les auteurs ont constaté que l’analyse en composantes principales bayésienne(bPCA) et Fuzzy K-Means(FKM) surpassent les autres méthodes.

Amiri et Jensen ont présenté une technique d’imputation des données manquantes en utilisant des méthodes Fuzzy-Rough. L’article aide ses lecteurs à saisir les concepts des ensembles flous-rugueux ainsi que les différentes versions de l’inférence floue et leur mise en œuvre. L’article utilise « KEEL », un logiciel libre, ainsi qu’une bibliothèque qui peut être utilisée pour exécuter des techniques avancées d’exploration de données sur un ensemble de données. KEEL permet de mettre en œuvre des algorithmes tels que le Fuzzy-Rough Nearest Neighbor (FRNN), qui est un algorithme de classification. Les auteurs se sont penchés sur le FRNN et ont proposé trois méthodes d’imputation des valeurs manquantes : l’imputation par Fuzzy-Rough Nearest Neighbors (FRNNI), les Vaguely Quantified Rough Sets (VQRS) et les Ordered Weighted Average Based Rough Sets (OWABRS). Au final, FRNNI s’est avéré être le plus performant parmi les trois algorithmes proposés.

Dans , les auteurs ont comparé sept méthodes d’imputation pour les données numériques. Les algorithmes sont l’imputation moyenne, l’imputation médiane, la correspondance moyenne prédictive, kNN, la régression linéaire bayésienne (norm), la régression linéaire non bayésienne (norm.nob) et l’échantillon aléatoire. Ils ont utilisé cinq ensembles de données numériques provenant du dépôt d’apprentissage machine de l’UCI et ont constaté que l’imputation kNN surpassait toutes les autres méthodes.

La machine à vecteur support (SVM) est un algorithme de classification populaire qui est largement utilisé pour l’imputation des données manquantes . Pour un échantillon d’entraînement étiqueté, SVM essaie de trouver un hyperplan de séparation optimal tel que la distance entre l’hyperplan et les points de données les plus proches soit maximisée . Plus cette distance (c’est-à-dire la « marge ») est grande, plus l’erreur de généralisation du classificateur est faible. Le classifieur est appelé classifieur à marge maximale. Les points de données qui sont les plus proches de l’hyperplan sont appelés vecteurs de support. Plusieurs fonctions de noyau ont été introduites dans le SVM pour réduire le coût de calcul de la classification, comme le noyau linéaire, le noyau laplacien et le noyau polynomial.

Imputation multiple

Les méthodes d’imputation multiple produisent plusieurs valeurs pour l’imputation d’une seule valeur manquante en utilisant différents modèles de simulation. Ces méthodes introduisent la variabilité des données imputées pour trouver une gamme de réponses plausibles. Les méthodes d’imputation multiple sont complexes par nature, mais elles ne souffrent pas de valeurs biaisées comme l’imputation simple. L’algorithme MICE, proposé par V. S. Buuren et K. Groothuis-Oudshoorn, est largement utilisé pour l’imputation multiple. Le principe de fonctionnement des techniques d’imputation multiple est illustré ci-après par un exemple.

Dans l’imputation multiple, chaque donnée manquante est remplacée par m valeurs obtenues à partir de m itérations (où m > 1 et m se situe normalement entre 3 et 10). Prenons un ensemble de données de 1000 personnes (présentées dans le tableau 4) concernant leur distance par rapport à une bibliothèque particulière et le montant de l’amende de retard que la bibliothèque leur a imposée. L’ensemble de données comporte quelques valeurs manquantes dans la colonne du montant de l’amende. Nous voulons imputer les valeurs manquantes en utilisant des techniques d’imputation multiple où la valeur de m est 10. À chaque itération, nous effectuerons une régression entre  » Distance de la bibliothèque  » et  » Montant de l’amende  » en prenant 100 valeurs aléatoires. Lors de la première imputation, nous obtenons \(x_{i}^{1}\) pour les valeurs manquantes (remplacement de la ième valeur manquante de la variable cible x par la première régression). De même, dans la deuxième imputation, nous prenons 100 autres valeurs aléatoires et effectuons une régression entre « Distance de la bibliothèque » et « Montant de l’amende ». Ensuite, nous remplissons la ième valeur manquante avec \(x_{i}^{2}\) (remplacement de la ième valeur manquante de la variable cible x avec la deuxième régression). Nous effectuerons ces étapes dix fois pour obtenir dix imputations pour toutes les valeurs manquantes de la variable cible. La figure 1 est une illustration de deux imputations utilisant deux lignes de régression. Le tableau 5 représente les résultats de 3 imputations.

Tableau 4 Exemple de données fines de 1000 bibliothèques avec des valeurs manquantes
Fig. 1

Lignes de régression de deux ensembles de 100 données aléatoires tirées des données fines de 1000 bibliothèques

Tableau. 5 Imputation multiple pour le tableau 4

Le paquet MICE (Multivariate Imputation by Chained Equation) dans « R » est l’implémentation du populaire algorithme MICE. MICE suppose que les données sont manquantes au hasard (MAR). Il prétend que la probabilité d’une variable manquante dépend des données observées. MICE fournit plusieurs valeurs à la place d’une valeur manquante en créant une série de modèles de régression (ou d’autres modèles appropriés), en fonction de son paramètre « méthode ». Dans MICE, chaque variable manquante est traitée comme une variable dépendante, et les autres données de l’enregistrement sont traitées comme une variable indépendante. Le processus est présenté dans la Fig. 2.

Dans un premier temps, MICE prédit les données manquantes en utilisant les données existantes des autres variables. Ensuite, il remplace les valeurs manquantes en utilisant les valeurs prédites et crée un ensemble de données appelé ensemble de données imputées. Par itération, il crée plusieurs ensembles de données imputées. Chaque ensemble de données est ensuite analysé à l’aide de techniques d’analyse statistique standard, et les résultats de l’analyse multiple sont fournis. Comme les méthodes populaires d’imputation unique, par ex, moyenne, moyenne de classe, sont susceptibles de produire une imputation biaisée, les méthodes d’imputation multiple pourraient fournir de meilleurs résultats.

Fig. 2

L’organigramme de MICE

Dans le paquet MICE de R, il existe plus de vingt méthodes qui peuvent être définies pour l’imputation des données manquantes . Certaines méthodes ne peuvent être appliquées qu’aux données binaires, et d’autres fonctionnent pour les données numériques. Quelques méthodes peuvent être utilisées pour tous les types d’attributs. Des méthodes sélectionnées du paquet MICE sont discutées ci-dessous.

Appariement moyen prédictif

L’appariement moyen prédictif (PMM) est une méthode à usage général pour l’imputation des données manquantes . L’un des avantages de la PMM est que les imputations se limitent aux valeurs observées. La PMM peut préserver les relations non linéaires même lorsque la partie structurelle du modèle d’imputation est incorrecte. Soit, k est une variable avec certaines valeurs manquantes, et la variable l, sans données manquantes, est utilisée pour imputer k. L’algorithme fonctionne de la manière suivante :

  1. Pour les données non manquantes, une régression linéaire de k sur l est effectuée, ce qui produit b (un ensemble de coefficients).

  2. Un tirage aléatoire de la distribution prédictive postérieure de b est effectué, ce qui produit un nouvel ensemble de coefficients b*.

  3. En utilisant b*, des valeurs prédites pour k sont générées pour tous les cas.

  4. Pour les cas avec k manquant, on identifie un ensemble de cas qui contenaient des k observés dont les valeurs prédites sont proches de la valeur prédite avec les données manquantes.

  5. A partir de ces cas proches, une valeur est choisie au hasard pour remplacer la valeur manquante.

  6. Les étapes 2 à 5 sont répétées pour chaque ensemble de données complété.

Régression logistique

La régression logistique (LOGREG) , un outil statistique populaire utilisé pour analyser un ensemble de données pour un résultat où il y a une ou plusieurs variables indépendantes. Dans la régression logistique, la variable dépendante est binaire. Des exemples de telles données pourraient être OUI ou NON. La régression logistique génère les coefficients pour prédire une transformation logit de la probabilité de présence de la caractéristique de sortie:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k\) où y est la probabilité de la présence de la caractéristique de sortie.

Régression logistique polytomique

La méthode de régression logistique polytomique (POLYREG) définit comment la variable cible multinomiale Q dépend d’un ensemble de variables indépendantes, \(P_1, P_2, … P_m\). Il s’agit également d’un modèle linéaire généralisé où la composante aléatoire suppose que la distribution de la variable dépendante est Polynomiale \((n,\pi ),\) où \(\pi\) est un vecteur avec les probabilités de « succès » pour chaque catégorie.

Analyse discriminante linéaire

L’analyse discriminante linéaire(LDA) calcule les probabilités postérieures pour tous les cas incomplets et choisit les imputations, par la suite, à partir de leurs postérieures. Les étapes de l’analyse discriminante linéaire sont données ci-dessous

  1. Calculer les vecteurs moyens à d dimensions à partir de l’ensemble de données pour différentes classes

  2. Calculer les matrices de dispersion

  3. Calculer les vecteurs propres (\(e_1,e_2,…,e_d\))….,e_d\)) et leurs valeurs propres associées (\(\lambda _1\),\(\lambda _2\),….,\(\lambda _d\)) pour les matrices de dispersion

  4. Trier les vecteurs propres selon les valeurs propres décroissantes et choisir k vecteurs propres avec les valeurs propres les plus élevées pour former une matrice W avec d \(\times\) k dimension

  5. Utiliser W pour transformer les échantillons sur un nouveau sous-espace. Cela peut être résumé par la multiplication matricielle : Y = X \(\times\) W

Arbre de classification et de régression

L’arbre de classification et de régression (CART) examine d’abord toutes les variables explicatives et détermine quelle division binaire d’une seule variable explicative réduit le mieux la déviance dans la variable de réponse. CART et d’autres algorithmes basés sur des arbres de décision ont les éléments clés suivants :

  • Des règles pour diviser les données à un nœud en fonction de la valeur d’une variable

  • Des règles d’arrêt pour décider de la branche terminale sans plus de division

  • .

  • Une prédiction dans chaque nœud feuille pour la variable cible

Régression linéaire bayésienne

La régression linéaire bayésienne(BLR) est une méthode statistique populaire. Il s’agit d’une approche de la régression linéaire, où l’analyse statistique a été entreprise dans le contexte de l’inférence bayésienne. Ici, la régression linéaire est formée à l’aide de distributions de probabilité au lieu d’estimations ponctuelles. Y, la réponse, n’est pas évaluée comme une valeur unique, mais y est supposée être tirée d’une distribution de probabilité. BLR vise à découvrir la distribution postérieure pour les paramètres du modèle plutôt que de trouver une seule meilleure valeur.

Amelia

Amelia est une méthode d’imputation multiple qui n’est pas incluse dans le package MICE et un package R séparé est disponible pour elle. Pour imputer les valeurs manquantes pour un ensemble de données spécifique, Amelia utilise un algorithme de bootstrapping et de maximisation de l’espérance. Il crée des imputations multiples par itérations multiples . Ceci est utile car les imputations ultérieures peuvent être comparées pour découvrir des tendances ou pour trouver de meilleurs résultats.

Summary

Dans cette section, nous avons passé en revue de nombreux travaux de recherche, largement catégorisés en techniques basées sur l’imputation simple et l’imputation multiple. Les approches basées sur l’imputation simple sont efficaces sur le plan informatique mais peuvent souffrir de biais importants car elles ne tiennent pas compte de l’incertitude des données manquantes. Au contraire, les approches basées sur l’imputation multiple évitent le biais et ajoutent l’incertitude au prix d’un coût de calcul élevé. À l’ère du big data, où un volume massif de données est le cas typique des ensembles de données pratiques, les approches basées sur l’imputation multiple sont difficiles à mettre en œuvre. Compte tenu des limites des approches basées sur l’imputation simple et multiple, nous proposons une approche qui combine les avantages des deux approches : simplicité et incertitude. La technique d’imputation que nous proposons est présentée dans la section suivante.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.