SICE: o tehnică îmbunătățită de imputare a datelor lipsă | Journal of Big Data

În această secțiune, am prezentat contextul necesar și literatura de specialitate referitoare la imputarea datelor lipsă. În primul rând, am descris pe scurt tipurile de date lipsă. Apoi am prezentat analiza literaturii de specialitate în două categorii: imputare unică și imputare multiplă.

În mod obișnuit, datele lipsă pot fi de trei tipuri:

Missing Completely at Random (MCAR): Datele lipsesc independent atât de datele observate, cât și de cele neobservate. De exemplu, într-un sondaj în rândul studenților, dacă avem 5% răspunsuri care lipsesc în mod aleatoriu, este MCAR.
Missing at Random (MAR): Având în vedere datele observate, datele lipsesc independent de datele neobservate. De exemplu, dacă avem 10% răspunsuri lipsă pentru sondajul studenților de sex masculin și 5% lipsă pentru sondajul studenților de sex feminin, atunci este MAR.
Missing Not at Random (MNAR): Observațiile lipsă sunt legate de valorile datelor neobservate în sine. De exemplu, dacă este mai mică CGPA a unui student, cu atât mai mare este rata de lipsă a răspunsului la sondaj, atunci este MNAR.

Imputare unică
Imputarea multiplă
Regresie logistică
Regresia logistică politomatică
Analiza discriminantă liniară
Arbore de clasificare și regresie
Regresie liniară bayesiană
Amelia
Rezumat

Imputare unică

Tehnicile de imputare unică generează o valoare specifică pentru o valoare reală lipsă într-un set de date. Această tehnică necesită un cost computațional mai mic. Există mai multe tipuri de metode de imputare unică propuse de cercetători. Procedura generală este de a alege cel mai mare răspuns posibil prin analizarea altor răspunsuri. Valoarea poate fi obținută prin medie, mediană, modă a valorilor disponibile ale variabilei respective. Alte abordări, cum ar fi tehnicile bazate pe învățare automată, pot fi, de asemenea, utilizate pentru imputarea unică. Un exemplu ilustrativ al modului în care funcționează imputarea unică este prezentat mai jos.

În tabelul 1, putem observa că există două valori lipsă în coloana „Venituri” pentru numerele de serie 2, și 5, care sunt reprezentate prin NA. Putem rula imputația medie pentru a imputa valorile lipsă. Aici, pentru fiecare valoare lipsă, doar o singură valoare va fi imputată de algoritm. Acum vom calcula media valorilor disponibile ale coloanei „Income”.

$$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200+200)/5= 180 \end{aligned}$$

Tabelul 1 Un set de date cu valori lipsă

În acest moment, valorile lipsă din seriile 2 și 5 vor fi înlocuite cu valoarea medie a acestei coloane, care este 180. Tabelul 2 reprezintă situația după imputarea valorilor lipsă. Dacă există o mulțime de date lipsă într-o coloană, iar aceste date sunt înlocuite cu aceeași valoare, rezultatul statistic, cum ar fi abaterea standard, varianța, scade. În cazul unei singure imputații, valorile imputate sunt considerate ca fiind valori reale. Imputarea unică ignoră faptul că valoarea reală nu poate fi prezisă cu certitudine prin nicio metodă de imputare. Metodele bazate pe imputare unică nu iau în considerare incertitudinea valorilor imputate. În schimb, acestea recunosc valorile imputate ca valori reale în analiza ulterioară. Cu toate acestea, aceste valori pot avea erori standard. Acestea cauzează distorsiuni în rezultat .

Tabel 2 Imputarea valorilor lipsă utilizând metoda de imputare unică

În tabelul 3, putem observa că există unele valori lipsă în setul de date. Dacă folosim o strategie de imputare unică, putem lua „Mode” (cea mai frecventă valoare) a coloanei noastre țintă „Motivul decesului” pentru a completa aceste valori lipsă. În acest exemplu, modul este „Cancer”, astfel încât toate datele lipsă vor fi înlocuite cu „Cancer”. Cu toate acestea, dacă luăm în considerare coloana „Vârsta”, atunci putem observa că valorile lipsă se referă la pacienții vârstnici, care au o probabilitate mai mare de a muri în Covid-19. Așadar, dacă completăm pur și simplu toate valorile lipsă folosind doar o singură imputare, este posibil să nu abordăm corect incertitudinea setului de date și este posibil să producem o imputare părtinitoare.

Tabelul 3 Analiza părtinitoare pentru metoda de imputare unică

Cele ce urmează sunt câteva cercetări proeminente ale tehnicilor de imputare a datelor lipsă bazate pe o singură imputare. Grzymala-Busse și Grzymala-Busse au prezentat o trecere în revistă a metodelor existente de tratare a datelor lipsă în manualul Handling Missing Missing Attribute Values. Aceștia au clasificat metodele existente în metode de imputare secvențială și metode de imputare paralelă și au discutat despre imputările secvențiale populare, de exemplu, ștergerea cazurilor, atribuirea celei mai comune valori, atribuirea de valori restrânse la nivel de concept. Câteva metode de imputare paralelă au fost, de asemenea, discutate în lucrarea lor, de exemplu, inducția regulilor, aproximarea inferioară și superioară, împerecherea valorilor atributelor.

În , autorii au afirmat influențele și riscurile imputării datelor lipsă asupra datelor medicale și modul în care acestea afectează acuratețea clasificării. Autorii au comparat trei metode de calcul al mediei de imputare a datelor: media globală, media clusterului și media clasei. Importanța utilizării tehnicilor de clasificare după imputarea cu un algoritm este, de asemenea, discutată în lucrare.

Rahman a prezentat o tehnică de imputare a datelor medicale lipsă bazată pe o abordare de învățare automată bazată pe reguli. Aici, autorul a folosit un algoritm, și anume Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA este o evoluție a unui algoritm de învățare numit RIPPER . FURIA produce câteva reguli if-then în funcție de setul de date. Ulterior, aceste reguli if-then pot fi utilizate pentru a imputa valorile lipsă. Autorul a comparat performanța FURIA cu kNN, J48, SVM și imputare medie, pentru a imputa datele lipsă și a constatat că FURIA este mai bun din punct de vedere al sensibilității. Precizia FURIA nu a fost întotdeauna promițătoare față de concurenții săi.

Schmitt P., Mandel J. și Guedj M. au selectat șase dintre cele mai populare metode de imputare a datelor lipsă din motorul de căutare Google și au comparat metodele folosind câteva seturi de date cu acces liber, și anume, iris, e.coli și cancer de sân . Ei au evaluat eficacitatea acestor metode utilizând eroarea medie pătratică (RMSE), eroarea de grupare nesupravegheată și eroarea de grupare supravegheată. Autorii au constatat că Bayesian Principal Component Analysis(bPCA) și Fuzzy K-Means(FKM) au performanțe superioare celorlalte metode.

Amiri și Jensen au prezentat o tehnică de imputare a datelor lipsă folosind Fuzzy-Rough Methods. Lucrarea își ajută cititorii să înțeleagă conceptele de seturi fuzzy-rough împreună cu diferite versiuni de inferență fuzzy și implementarea lor. Lucrarea a utilizat „KEEL”, un software open-source, precum și o bibliotecă care poate fi utilizată pentru a efectua tehnici avansate de extragere a datelor pe un set de date . KEEL dispune de implementarea unor algoritmi precum Fuzzy-Rough Nearest Neighbor (FRNN), care este un algoritm de clasificare. Autorii au luat în considerare FRNN și au propus trei metode de imputare a valorilor lipsă – Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS) și Ordered Weighted Average Based Rough Sets (OWABRS). La final, FRNNI s-a dovedit a fi cel mai performant dintre cei trei algoritmi propuși.

În , autorii au comparat șapte metode de imputare pentru date numerice. Algoritmii sunt: imputare medie, imputare mediană, potrivire medie predictivă, kNN, regresie liniară bayesiană (norm), regresie liniară non-Bayesiană (norm.nob) și eșantionare aleatorie. Ei au folosit cinci seturi de date numerice din depozitul de învățare automată UCI și au constatat că imputarea kNN a depășit toate celelalte metode.

Support Vector Machine (SVM) este un algoritm de clasificare popular care este utilizat pe scară largă pentru imputarea datelor lipsă . Pentru un eșantion de instruire etichetat, SVM încearcă să găsească un hiperplan de separare optim astfel încât distanța de la hiperplan la cele mai apropiate puncte de date să fie maximizată . Cu cât această distanță (adică „marja”) este mai mare, cu atât eroarea de generalizare a clasificatorului este mai mică. Clasificatorul este denumit clasificator cu marjă maximă. Punctele de date care sunt cele mai apropiate de hiperplan se numesc vectori suport. Mai multe funcții kernel au fost introduse în SVM pentru a reduce costul de calcul pentru clasificare, cum ar fi kernelul liniar, kernelul laplacian și kernelul polinomial.

Imputarea multiplă

Metodele de imputare multiplă produc valori multiple pentru imputarea unei singure valori lipsă folosind diferite modele de simulare. Aceste metode introduc variabilitatea datelor imputate pentru a găsi o gamă de răspunsuri plauzibile. Metodele de imputare multiplă sunt complexe prin natura lor, dar nu suferă de valori părtinitoare precum imputarea unică. Algoritmul MICE, propus de V. S. Buuren și K. Groothuis-Oudshoorn, este utilizat pe scară largă pentru imputarea multiplă . Principiul de funcționare al tehnicilor de imputare multiplă este ilustrat în continuare cu un exemplu.

În imputația multiplă, fiecare dată lipsă este înlocuită cu m valori obținute din m iterații (unde m > 1 și m se situează în mod normal între 3 și 10). Să avem un set de date de 1000 de persoane (prezentat în tabelul 4) cu privire la distanța lor față de o anumită bibliotecă și valoarea amenzii de întârziere pe care biblioteca le-a aplicat-o. Setul de date are câteva valori lipsă în coloana valorii amenzii. Dorim să imputăm valorile lipsă utilizând tehnici de imputare multiplă în care valoarea lui m este 10. În fiecare iterație, vom rula o regresie între „Distanța față de bibliotecă” și „Valoarea amenzii”, luând 100 de valori aleatorii. La prima imputare, obținem $x_{i}^{1}$ pentru valorile lipsă (înlocuirea celei de-a i-a valori lipsă a variabilei țintă x cu prima regresie). În mod similar, în a doua imputare, luăm alte 100 de valori aleatorii și efectuăm o regresie între „Distanța față de bibliotecă” și „Suma amenzii”. Apoi, completăm cea de-a i-a valoare lipsă cu $x_{i}^{2}$ (înlocuirea celei de-a i-a valori lipsă a variabilei țintă x cu a doua regresie). Vom efectua acești pași de zece ori pentru a obține zece imputări pentru toate valorile lipsă ale variabilei țintă. Figura 1 este o ilustrare a două imputări cu ajutorul a două linii de regresie. Tabelul 5 reprezintă rezultatele a trei imputări.

Tabel 4 Exemplu de 1000 de date fine de bibliotecă cu valori lipsă

Tabel 5 Imputarea multiplă pentru tabelul 4

Pachetul de imputare multivariată prin ecuație înlănțuită (MICE) în „R” este implementarea algoritmului popular MICE. MICE presupune că datele lipsesc la întâmplare (MAR). Acesta pretinde că probabilitatea unei variabile lipsă depinde de datele observate. MICE oferă valori multiple în locul unei valori lipsă prin crearea unei serii de modele de regresie (sau alte modele adecvate), în funcție de parametrul său „method” (metodă). În MICE, fiecare variabilă lipsă este tratată ca o variabilă dependentă, iar celelalte date din înregistrare sunt tratate ca o variabilă independentă. Procesul este prezentat în Fig. 2.

La început, MICE prezice datele lipsă folosind datele existente ale altor variabile. Apoi, înlocuiește valorile lipsă folosind valorile prezise și creează un set de date numit set de date imputate. Prin iterație, acesta creează mai multe seturi de date imputate. Fiecare set de date este apoi analizat cu ajutorul tehnicilor standard de analiză statistică, iar rezultatele analizelor multiple sunt furnizate. Ca metode populare de imputare unică, de ex, medie, medie de clasă, sunt susceptibile de a produce o imputare părtinitoare, metodele de imputare multiplă ar putea oferi rezultate mai bune.

În pachetul MICE din R, există mai mult de douăzeci de metode care pot fi setate pentru imputarea de date lipsă . Unele metode pot fi aplicate numai la date binare, iar altele funcționează pentru date numerice. Puține metode pot fi utilizate pentru toate tipurile de atribute. Metodele selectate din pachetul MICE sunt discutate mai jos.

Predictive mean matching

Predictive Mean Matching (PMM) este o metodă de uz general pentru imputarea datelor lipsă . Un avantaj al PMM este că imputările sunt limitate la valorile observate. PMM poate păstra relațiile neliniare și atunci când partea structurală a modelului de imputare este incorectă. Fie, k este o variabilă cu unele valori lipsă, iar variabila l, fără date lipsă, este utilizată pentru a imputa k. Algoritmul funcționează în felul următor:

Pentru datele care nu lipsesc, se face o regresie liniară a lui k pe l, ceea ce produce b (un set de coeficienți).
Se face o extragere aleatorie din distribuția predictivă posterioară a lui b, ceea ce produce un nou set de coeficienți b*.
Cu ajutorul lui b*, se generează valori prezise pentru k pentru toate cazurile.
Pentru cazurile cu k lipsă, se identifică un set de cazuri care conțineau k observate ale căror valori prezise sunt apropiate de valoarea prezisă cu date lipsă.
Din aceste cazuri apropiate, se alege aleatoriu o valoare pentru a înlocui valoarea lipsă.
Pasii de la 2 la 5 se repetă pentru fiecare set de date completat.

Regresie logistică

Regresie logistică (LOGREG) , un instrument statistic popular utilizat pentru a analiza un set de date pentru un rezultat în cazul în care există una sau mai multe variabile independente. În regresia logistică, variabila dependentă este binară. Exemple de astfel de date ar putea fi DA sau NU. Regresia logistică generează coeficienții pentru a prezice o transformare logit a probabilității de prezență a caracteristicii de ieșire:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ unde y este probabilitatea de prezență a caracteristicii de ieșire.

Regresia logistică politomatică

Metoda regresiei logistice politome (POLYREG) definește modul în care variabila țintă multinomială Q depinde de un set de variabile independente, $P_1, P_2, … P_m$. Acesta este, de asemenea, un model liniar generalizat în care componenta aleatorie presupune că distribuția variabilei dependente este polinominală $(n,\pi ),$ unde $\pi$ este un vector cu probabilități de „succes” pentru fiecare categorie.

Analiza discriminantă liniară

Analiza discriminantă liniară (LDA) calculează probabilitățile posterioare pentru toate cazurile incomplete și alege imputările, ulterior, din posterioarele acestora. Etapele analizei discriminante liniare sunt prezentate mai jos

Calculează vectorii medii d-dimensionali din setul de date pentru diferite clase
Calculează matricele de dispersie
Calculează vectorii proprii ($e_1,e_2,…,e_d$) și valorile proprii asociate acestora ($\(\lambda _1$,$\lambda _2$,….,$\(\lambda _d$) pentru matricile de dispersie
Sortați vectorii proprii în funcție de valorile proprii descrescătoare și alegeți k vectori proprii cu cele mai mari valori proprii pentru a forma o matrice W cu d $\times$ k dimensiune
Utilizați W pentru a transforma eșantioanele în noul subspațiu. Acest lucru se poate rezuma la înmulțirea matricei: Y = X $\times$ W

Arbore de clasificare și regresie

Arbore de clasificare și regresie (CART) examinează mai întâi toate variabilele explicative și determină care diviziune binară a unei singure variabile explicative reduce cel mai bine devianța în variabila de răspuns. CART și alți algoritmi bazați pe arbori de decizie au următoarele elemente cheie:

Reguli de divizare a datelor la un nod pe baza valorii unei variabile
Reguli de oprire pentru a decide ramura terminală fără alte diviziuni

O predicție în fiecare nod de frunze pentru variabila țintă

Regresie liniară bayesiană

Regresia liniară bayesiană (BLR) este o metodă statistică populară. Este o abordare a regresiei liniare, în care analiza statistică a fost realizată în contextul inferenței bayesiene. Aici regresia liniară este formată cu ajutorul unor distribuții de probabilitate în loc de estimări punctuale. Y, răspunsul, nu este evaluat ca o valoare unică, ci se presupune că y este extras dintr-o distribuție de probabilitate. BLR urmărește să afle distribuția posterioară pentru parametrii modelului mai degrabă decât să găsească o singură valoare optimă.

Amelia

Amelia este o metodă de imputare multiplă care nu este inclusă în pachetul MICE și pentru care este disponibil un pachet R separat. Pentru a imputa valorile lipsă pentru un anumit set de date, Amelia utilizează un algoritm de bootstrap și de maximizare a așteptărilor. Acesta creează imputări multiple prin iterații multiple . Acest lucru este util deoarece imputările ulterioare pot fi comparate pentru a descoperi tendințe sau pentru a găsi rezultate mai bune.

Rezumat

În această secțiune, am trecut în revistă mai multe lucrări de cercetare, clasificate în linii mari ca tehnici bazate pe o singură imputare și pe imputări multiple. Abordările bazate pe o singură imputare sunt eficiente din punct de vedere computațional, dar pot suferi în mod semnificativ de distorsiuni, deoarece nu iau în considerare incertitudinea datelor lipsă. Dimpotrivă, abordările bazate pe imputare multiplă evită distorsiunea și adaugă incertitudinea cu prețul unui cost de calcul ridicat. În această eră a volumului mare de date, în care un volum masiv de date este un caz tipic pentru seturile de date practice, abordările bazate pe imputări multiple sunt dificil de implementat. Având în vedere limitările atât ale abordărilor bazate pe o singură imputare, cât și ale celor bazate pe imputări multiple, propunem o abordare care combină avantajele ambelor abordări: simplitate și incertitudine. Tehnica de imputare propusă de noi este prezentată în secțiunea următoare.