In questa sezione, abbiamo presentato il background necessario e la letteratura relativa all’imputazione dei dati mancanti. In primo luogo, abbiamo descritto brevemente i tipi di dati mancanti. Poi abbiamo presentato la revisione della letteratura in due categorie: imputazione singola e imputazione multipla.

Tipicamente i dati mancanti possono essere di tre tipi:

  • Missing Completely at Random (MCAR): I dati mancano indipendentemente dai dati osservati e non osservati. Per esempio, in un sondaggio tra studenti, se abbiamo il 5% di risposte mancanti casualmente, è MCAR.

  • Missing at Random (MAR): Dati i dati osservati, i dati mancano indipendentemente dai dati non osservati. Per esempio, se abbiamo il 10% di risposte mancanti per l’indagine sugli studenti maschi e il 5% mancante per l’indagine sugli studenti femmine, allora è MAR.

  • Missing Not at Random (MNAR): Le osservazioni mancanti sono legate ai valori dei dati non osservati stessi. Per esempio, se più basso è il CGPA di uno studente, più alto è il tasso mancante di risposta al sondaggio, allora è MNAR.

Singola imputazione

Le tecniche di imputazione singola generano un valore specifico per un valore reale mancante in un set di dati. Questa tecnica richiede meno costi computazionali. Ci sono molti tipi di metodi di imputazione singola proposti dai ricercatori. La procedura generale è quella di scegliere la risposta più alta possibile analizzando le altre risposte. Il valore può essere ottenuto dalla media, mediana, modalità dei valori disponibili di quella variabile. Altri approcci, come le tecniche basate sull’apprendimento automatico, possono anche essere utilizzati per l’imputazione singola. Un esempio illustrativo di come funziona l’imputazione singola è presentato di seguito.

Nella tabella 1, possiamo vedere che ci sono due valori mancanti nella colonna “Reddito” per il numero di serie 2, e 5 che sono rappresentati da NA. Possiamo eseguire l’imputazione media per imputare i valori mancanti. Qui, per ogni valore mancante, solo un valore sarà imputato dall’algoritmo. Ora calcoleremo la media dei valori disponibili della colonna “Reddito”.

$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$$
Tabella 1 Un dataset con valori mancanti

A questo punto, i valori mancanti delle serie 2 e 5 saranno sostituiti dal valore medio di questa colonna, che è 180. La tabella 2 rappresenta la situazione dopo le imputazioni dei valori mancanti. Se ci sono molti dati mancanti in una colonna, e questi dati sono sostituiti dallo stesso valore, il risultato statistico come la deviazione standard, la varianza scende. Nell’imputazione singola, i valori imputati sono considerati come valori reali. L’imputazione singola ignora il fatto che il valore reale non può essere previsto con certezza da nessun metodo di imputazione. I metodi basati sull’imputazione singola non considerano l’incertezza dei valori imputati. Invece, riconoscono i valori imputati come valori reali nell’analisi successiva. Tuttavia, questi valori possono avere errori standard. Questi causano distorsioni nel risultato.

Tabella 2 Imputazione dei valori mancanti usando il metodo di imputazione singola

Nella tabella 3, possiamo vedere che ci sono alcuni valori mancanti nel set di dati. Se usiamo una strategia di imputazione singola, possiamo prendere il “Modo” (valore più frequente) della nostra colonna di destinazione “Motivo del decesso” per riempire questi valori mancanti. In questo esempio, la modalità è “Cancro”, quindi tutti i dati mancanti saranno sostituiti da “Cancro”. Tuttavia, se consideriamo la colonna dell’età, allora possiamo vedere che i valori mancanti sono per i pazienti anziani che hanno più probabilità di morire in Covid-19. Quindi, se ci limitiamo a riempire tutti i valori mancanti usando solo l’imputazione singola, potrebbe non affrontare correttamente l’incertezza del set di dati e produrre imputazioni distorte.

Tabella 3 Analisi delle distorsioni per il metodo di imputazione singola

Le seguenti sono alcune importanti ricerche sulle tecniche di imputazione dei dati mancanti basate su imputazione singola. Grzymala-Busse e Grzymala-Busse hanno presentato una revisione dei metodi esistenti di gestione dei dati mancanti nel manuale Handling Missing Attribute Values. Hanno categorizzato i metodi esistenti in imputazione sequenziale e metodi di imputazione parallela e hanno discusso le imputazioni sequenziali popolari, ad esempio, la cancellazione dei casi, l’assegnazione del valore più comune, l’assegnazione di valori limitati al concetto. Nel loro documento sono stati discussi anche alcuni metodi di imputazione parallela, ad esempio, l’induzione di regole, l’approssimazione inferiore e superiore, l’accoppiamento del valore dell’attributo.

In , gli autori hanno dichiarato le influenze e i rischi dell’imputazione dei dati mancanti sui dati medici e il loro impatto sulla precisione della classificazione. Gli autori hanno confrontato tre metodi di mediazione delle imputazioni di dati: media globale, media di cluster e media di classe. L’importanza di utilizzare tecniche di classificazione dopo l’imputazione con un algoritmo è anche discussa nel documento.

Rahman ha presentato una tecnica di imputazione dei dati sanitari mancanti basata su un approccio di apprendimento automatico basato su regole. Qui, l’autore ha usato un algoritmo, cioè il Fuzzy Unordered Rule Induction Algorithm (FURIA). FURIA è un avanzamento di un algoritmo di apprendimento chiamato RIPPER. FURIA produce alcune regole if-then a seconda del set di dati. Successivamente queste regole if-then possono essere utilizzate per imputare i valori mancanti. L’autore ha confrontato le prestazioni di FURIA con kNN, J48, SVM e imputazione media, per imputare i dati mancanti e ha trovato che FURIA è migliore in termini di sensibilità. La precisione di FURIA non era sempre promettente rispetto ai suoi concorrenti.

Schmitt P., Mandel J., e Guedj M. hanno selezionato sei dei metodi più popolari per l’imputazione dei dati mancanti dal motore di ricerca di Google e hanno confrontato i metodi utilizzando alcuni set di dati ad accesso aperto, cioè, iride, e.coli, e cancro al seno. Hanno valutato l’efficacia di questi metodi usando l’errore quadratico medio (RMSE), l’errore di clustering non supervisionato e l’errore di clustering supervisionato. Gli autori hanno trovato che Bayesian Principal Component Analysis(bPCA) e Fuzzy K-Means(FKM) superano gli altri metodi.

Amiri e Jensen hanno presentato una tecnica di imputazione dei dati mancanti usando Fuzzy-Rough Methods. L’articolo aiuta i lettori ad afferrare i concetti di insiemi fuzzy-rough insieme a diverse versioni di inferenza fuzzy e la loro implementazione. L’articolo ha usato “KEEL”, un software open-source, così come una libreria che può essere utilizzata per eseguire tecniche avanzate di data-mining su un set di dati. KEEL ha l’implementazione di algoritmi come Fuzzy-Rough Nearest Neighbor (FRNN), che è un algoritmo di classificazione. Gli autori hanno considerato FRNN e hanno proposto tre metodi di imputazione dei valori mancanti – Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS), e Ordered Weighted Average Based Rough Sets (OWABRS). Alla fine, FRNNI è risultato essere il migliore tra i tre algoritmi proposti.

In , gli autori hanno confrontato sette metodi di imputazione per dati numerici. Gli algoritmi sono imputazione media, imputazione mediana, corrispondenza media predittiva, kNN, regressione lineare bayesiana (norm), regressione lineare non bayesiana (norm.nob) e campione casuale. Hanno utilizzato cinque set di dati numerici dal repository di apprendimento automatico UCI e hanno scoperto che l’imputazione kNN ha superato tutti gli altri metodi.

Support Vector Machine (SVM) è un algoritmo di classificazione popolare che è ampiamente utilizzato per l’imputazione dei dati mancanti. Per un campione di allenamento etichettato, SVM cerca di trovare un iperpiano di separazione ottimale tale che la distanza dall’iperpiano ai punti dati più vicini sia massimizzata. Più grande è questa distanza (cioè il “margine”), più basso è l’errore di generalizzazione del classificatore. Il classificatore viene chiamato classificatore a margine massimo. I punti dati che sono più vicini all’iperpiano sono chiamati vettori di supporto. Diverse funzioni kernel sono state introdotte in SVM per ridurre il costo computazionale per la classificazione, come il kernel lineare, il kernel Laplaciano e il kernel Polinomiale.

Imputazione multipla

I metodi di imputazione multipla producono valori multipli per l’imputazione di un singolo valore mancante usando diversi modelli di simulazione. Questi metodi introducono la variabilità dei dati imputati per trovare una gamma di risposte plausibili. I metodi di imputazione multipla sono complessi in natura, ma non soffrono di valori bias come l’imputazione singola. L’algoritmo MICE, proposto da V. S. Buuren e K. Groothuis-Oudshoorn, è ampiamente utilizzato per l’imputazione multipla. Il principio di funzionamento delle tecniche di imputazione multipla è illustrato di seguito con un esempio.

Nell’imputazione multipla, ogni dato mancante viene sostituito con m valori ottenuti da m iterazioni (dove m > 1 e m è normalmente compreso tra 3 e 10). Abbiamo un set di dati di 1000 persone (mostrato nella tabella 4) sulla loro distanza da una particolare biblioteca e l’ammontare della multa tardiva che la biblioteca ha imposto loro. Il dataset ha alcuni valori mancanti nella colonna dell’importo della multa. Vogliamo imputare i valori mancanti usando tecniche di imputazione multipla dove il valore di m è 10. In ogni iterazione, eseguiremo una regressione tra “Distanza dalla biblioteca” e “Importo della multa” prendendo 100 valori casuali. Nella prima imputazione, otteniamo \(x_{i}^{1}}) per i valori mancanti (sostituzione dell’iesimo valore mancante della variabile target x con la prima regressione). Allo stesso modo, nella seconda imputazione, prendiamo altri 100 valori casuali ed eseguiamo la regressione tra “Distanza dalla biblioteca” e “Importo Fine”. Poi riempiamo l’iesimo valore mancante con \(x_{i}^{2}\ (sostituzione dell’iesimo valore mancante della variabile obiettivo x con la seconda regressione). Eseguiremo questi passaggi dieci volte per ottenere dieci imputazioni per tutti i valori mancanti della variabile obiettivo. La figura 1 è un’illustrazione di due imputazioni utilizzando due linee di regressione. La tabella 5 rappresenta i risultati di 3 imputazioni.

Tabella 4 Esempio di 1000 dati fini di biblioteca con valori mancanti
Fig. 1

Linee di regressione da due serie di 100 dati casuali presi da 1000 dati fine biblioteca

Tabella 5 Imputazione multipla per la tabella 4

Imputazione multivariata tramite equazione a catena (MICE) in “R” è l’implementazione del popolare algoritmo MICE. MICE presuppone che i dati siano mancanti a caso (MAR). Finge che la probabilità di una variabile mancante dipenda dai dati osservati. MICE fornisce valori multipli al posto di un valore mancante creando una serie di modelli di regressione (o altri modelli adatti), a seconda del suo parametro ‘metodo’. In MICE, ogni variabile mancante è trattata come una variabile dipendente, e gli altri dati nel record sono trattati come una variabile indipendente. Il processo è presentato nella Fig. 2.

All’inizio, MICE prevede i dati mancanti usando i dati esistenti di altre variabili. Poi sostituisce i valori mancanti usando i valori predetti e crea un set di dati chiamato dataset imputato. Per iterazione, crea più set di dati imputati. Ogni set di dati viene poi analizzato utilizzando tecniche standard di analisi statistica, e vengono forniti i risultati di analisi multiple. Poiché i metodi popolari di imputazione singola, ad es, media, class-mean, è probabile che producano un’imputazione distorta, i metodi di imputazione multipla potrebbero fornire risultati migliori.

Fig. 2

Schema di flusso MICE

Nel pacchetto MICE di R, ci sono più di venti metodi che possono essere impostati per l’imputazione dei dati mancanti. Alcuni metodi possono essere applicati solo ai dati binari, mentre altri funzionano per i dati numerici. Pochi metodi possono essere utilizzati per tutti i tipi di attributi. I metodi selezionati dal pacchetto MICE sono discussi di seguito.

Predictive mean matching

Predictive Mean Matching (PMM) è un metodo generico per l’imputazione dei dati mancanti. Un vantaggio del PMM è che le imputazioni sono limitate ai valori osservati. Il PMM può preservare le relazioni non lineari anche quando la parte strutturale del modello di imputazione non è corretta. Sia k una variabile con alcuni valori mancanti, e la variabile l, senza dati mancanti, sia usata per imputare k. L’algoritmo funziona nel modo seguente:

  1. Per i dati non mancanti, viene fatta una regressione lineare di k su l, che produce b (un insieme di coefficienti).

  2. Si fa un’estrazione casuale dalla distribuzione predittiva posteriore di b, che produce un nuovo insieme di coefficienti b*.

  3. Utilizzando b*, vengono generati i valori predetti per k per tutti i casi.

  4. Per i casi con k mancante, viene identificato un insieme di casi che contenevano k osservato i cui valori predetti sono vicini al valore predetto con dati mancanti.

  5. Da questi casi vicini, un valore viene scelto a caso per sostituire il valore mancante.

  6. I passi da 2 a 5 vengono ripetuti per ogni set di dati completato.

Regressione logistica

Regressione logistica (LOGREG), un popolare strumento statistico usato per analizzare un set di dati per un risultato in cui ci sono una o più variabili indipendenti. Nella regressione logistica, la variabile dipendente è binaria. Esempi di tali dati potrebbero essere SI o NO. La regressione logistica genera i coefficienti per prevedere una trasformazione logit della probabilità di presenza della caratteristica di uscita:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k\) dove y è la probabilità di presenza della caratteristica di uscita.

Regressione logistica politomica

Il metodo della regressione logistica politomica (POLYREG) definisce come la variabile target multinomiale Q dipende da un insieme di variabili indipendenti, \(P_1, P_2, … P_m\). Questo è anche un modello lineare generalizzato dove la componente casuale assume che la distribuzione della variabile dipendente sia polinomiale \((n,\pi ),\) dove \(\pi\) è un vettore con probabilità di “successo” per ogni categoria.

Analisi discriminante lineare

L’analisi discriminante lineare (LDA) calcola le probabilità posteriori per tutti i casi incompleti e sceglie le imputazioni, successivamente, dai loro posteriori. I passi per l’analisi discriminante lineare sono dati di seguito

  1. Calcolare i vettori medi d-dimensionali dal set di dati per diverse classi

  2. Calcolare le matrici di dispersione

  3. Computare gli autovettori (\(e_1,e_2,…,e_d\)) e i loro autovalori associati (\(\lambda _1\),\(\lambda _2\),…,\(\lambda _d\)) per le matrici di dispersione

  4. Ordina gli autovettori secondo gli autovalori decrescenti e scegli k autovettori con gli autovalori più alti per formare una matrice W con d \(\times\) k dimensione

  5. Utilizza W per trasformare i campioni in un nuovo sottospazio. Questo può essere riassunto dalla moltiplicazione della matrice: Y = X \(\times\) W

Classificazione e albero di regressione

Classificazione e albero di regressione (CART) prima esamina tutte le variabili esplicative e determina quale divisione binaria di una singola variabile esplicativa riduce meglio la devianza nella variabile risposta. CART e altri algoritmi basati su alberi decisionali hanno i seguenti elementi chiave:

  • Regole per dividere i dati in un nodo in base al valore di una variabile

  • Regole di arresto per decidere il ramo terminale senza più divisione

  • Una predizione in ogni nodo foglia per la variabile obiettivo

Regressione lineare bayesiana

La regressione lineare bayesiana (BLR) è un metodo statistico popolare. È un approccio alla regressione lineare, dove l’analisi statistica è stata intrapresa nel contesto dell’inferenza bayesiana. Qui la regressione lineare è formata con l’aiuto di distribuzioni di probabilità invece di stime puntuali. Y, la risposta, non è valutata come un singolo valore, ma si assume che y sia tratto da una distribuzione di probabilità. BLR mira a scoprire la distribuzione posteriore per i parametri del modello piuttosto che trovare un singolo valore migliore.

Amelia

Amelia è un metodo di imputazione multipla che non è incluso nel pacchetto MICE ed è disponibile un pacchetto R separato per esso. Per imputare i valori mancanti per uno specifico set di dati, Amelia usa un algoritmo di bootstrapping e di massimizzazione delle aspettative. Crea imputazioni multiple con iterazioni multiple. Questo è utile in quanto le imputazioni successive possono essere confrontate per scoprire le tendenze o per trovare risultati migliori.

Sommario

In questa sezione, abbiamo esaminato molti lavori di ricerca, ampiamente classificati come imputazione singola e tecniche di imputazione multipla. Gli approcci basati sull’imputazione singola sono efficienti dal punto di vista computazionale, ma possono soffrire significativamente di distorsioni in quanto non considerano l’incertezza dei dati mancanti. Al contrario, gli approcci basati sull’imputazione multipla evitano le distorsioni e aggiungono l’incertezza al costo di un alto costo computazionale. Nell’era dei grandi dati, dove un enorme volume di dati è il caso tipico dei set di dati pratici, gli approcci basati sull’imputazione multipla sono difficili da implementare. Considerando le limitazioni di entrambi gli approcci basati sull’imputazione singola e multipla, proponiamo un approccio che combina la bontà di entrambi gli approcci: semplicità e incertezza. La nostra tecnica di imputazione proposta è presentata nella prossima sezione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.