SICE: an improved missing data imputation technique | Journal of Big Data

In dit hoofdstuk hebben we de nodige achtergrond en literatuur met betrekking tot missing data imputatie gepresenteerd. Eerst hebben wij kort de soorten ontbrekende gegevens beschreven. Vervolgens hebben wij de literatuurstudie in twee categorieën gepresenteerd: enkelvoudige imputatie en meervoudige imputatie.

Typisch kunnen ontbrekende gegevens van drie types zijn:

Missing Completely at Random (MCAR): Gegevens ontbreken onafhankelijk van zowel waargenomen als niet-waargenomen gegevens. Bijvoorbeeld, in een studentenenquête, als we 5% antwoorden krijgen die willekeurig ontbreken, is het MCAR.
Missing at Random (MAR): Gegeven de geobserveerde gegevens, ontbreken de gegevens onafhankelijk van de niet-geobserveerde gegevens. Als er bijvoorbeeld 10% antwoorden ontbreken voor de enquête onder mannelijke studenten en 5% voor de enquête onder vrouwelijke studenten, dan is er sprake van MAR.
Missing Not at Random (MNAR): Ontbrekende waarnemingen houden verband met waarden van niet-waargenomen gegevens zelf. Als bijvoorbeeld het CGPA van een student lager is, hoe hoger het ontbrekende percentage van de enquête-respons, dan is er sprake van MNAR.

Single imputation
Meervoudige imputatie
Predictive mean matching
Logistische regressie
Polytome logistische regressie
Lineaire discriminantanalyse
Classificatie- en regressieboom
Bayesiaanse lineaire regressie
Amelia
Samenvatting

Single imputation

Single imputation-technieken genereren een specifieke waarde voor een ontbrekende werkelijke waarde in een dataset. Deze techniek vergt minder rekenkosten. Er zijn vele soorten single imputation methoden voorgesteld door de onderzoekers. De algemene procedure is het kiezen van de hoogst mogelijke respons door het analyseren van andere antwoorden. De waarde kan worden verkregen door het gemiddelde, de mediaan of de modus van de beschikbare waarden van die variabele. Ook andere benaderingen, zoals technieken op basis van machinaal leren, kunnen voor enkelvoudige toerekening worden gebruikt. Hieronder volgt een illustratief voorbeeld van de werking van de enkelvoudige toerekening.

In tabel 1 zien we dat er twee ontbrekende waarden zijn in de kolom “Inkomen” voor serienummer 2 en 5, die worden weergegeven door NA. We kunnen een gemiddelde imputatie uitvoeren om de ontbrekende waarden toe te wijzen. Hier zal voor elke ontbrekende waarde slechts één waarde door het algoritme worden geïmputeerd. Nu berekenen we het gemiddelde van de beschikbare waarden van de kolom “Inkomen”.

$$ \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$$

Tabel 1 Een dataset met ontbrekende waarden

Op dit punt zullen de ontbrekende waarden van serie 2 en 5 worden vervangen door de gemiddelde waarde van deze kolom, die 180 is. Tabel 2 geeft de situatie na de imputaties van ontbrekende waarden weer. Als er in een kolom veel ontbrekende gegevens zijn en deze gegevens door dezelfde waarde worden vervangen, gaat het statistische resultaat, zoals standaardafwijking en variantie, naar beneden. Bij enkelvoudige toerekening worden de geïmputeerde waarden als werkelijke waarden beschouwd. Single imputation negeert het feit dat de werkelijke waarde door geen enkele imputatiemethode met zekerheid kan worden voorspeld. Bij methoden op basis van enkelvoudige toerekening wordt geen rekening gehouden met de onzekerheid van de toegerekende waarden. In plaats daarvan erkennen zij de geïmputeerde waarden als werkelijke waarden in de verdere analyse. Deze waarden kunnen echter standaardfouten hebben. Dit veroorzaakt vertekeningen in het resultaat.

Tabel 2 Imputatie van ontbrekende waarden met behulp van enkelvoudige imputatiemethode

In tabel 3 kunnen we zien dat er enkele ontbrekende waarden in de dataset zitten. Als wij een enkelvoudige toerekeningsstrategie gebruiken, kunnen wij de “modus” (meest frequente waarde) van onze doelkolom “Reden van overlijden” nemen om deze ontbrekende waarden op te vullen. In dit voorbeeld is de modus “Kanker”, zodat alle ontbrekende gegevens worden vervangen door “Kanker”. Als we echter naar de leeftijdskolom kijken, dan zien we dat de ontbrekende waarden voor de oudere patiënten zijn, die meer kans hebben om in Covid-19 te sterven. Als we dus alleen maar alle ontbrekende waarden invullen met behulp van een enkelvoudige imputatie, kan dit de onzekerheid van de dataset niet correct aanpakken en waarschijnlijk een vertekening van de imputatie opleveren.

Tabel 3 Analyse van de vertekening bij een enkelvoudige imputatiemethode

Hierna volgen enkele prominente onderzoeken naar imputatietechnieken voor ontbrekende gegevens op basis van een enkelvoudige imputatie. Grzymala-Busse en Grzymala-Busse hebben in het handboek Handling Missing Attribute Values een overzicht gegeven van de bestaande methoden voor de verwerking van ontbrekende gegevens. Zij hebben de bestaande methoden ingedeeld in sequentiële imputatie- en parallelle imputatiemethoden en hebben de populaire sequentiële imputaties besproken, bv. case deletion, toewijzing van de meest voorkomende waarde, concept-restricted toewijzing van waarden. Een paar parallelle imputatie methoden werden ook besproken in hun paper, bijvoorbeeld, regel inductie, lagere en hogere benadering, attribuut waarde pairing.

In , de auteurs vermeld de invloeden en risico’s van ontbrekende gegevens imputatie op medische gegevens en hoe ze de classificatie nauwkeurigheid beïnvloeden. De auteurs vergeleken drie gemiddelden van imputaties van gegevens: globaal gemiddelde, clustergemiddelde, en klassegemiddelde. Het belang van het gebruik van classificatietechnieken na imputatie met een algoritme wordt ook besproken in het artikel.

Rahman presenteerde een imputatietechniek voor ontbrekende gegevens in de gezondheidszorg op basis van regelgebaseerde machine-learning aanpak. Hier gebruikte de auteur een algoritme, namelijk het Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA is een verbetering van een leeralgoritme met de naam RIPPER . FURIA produceert een aantal if-then regels afhankelijk van de dataset. Later kunnen deze als-dan regels worden gebruikt om de ontbrekende waarden toe te schrijven. De auteur vergeleek de prestaties van FURIA met die van kNN, J48, SVM, en Mean imputation, om ontbrekende gegevens te imputeren en vond FURIA beter in termen van gevoeligheid. De nauwkeurigheid van FURIA was niet altijd veelbelovender dan die van zijn concurrenten.

Schmitt P., Mandel J., and Guedj M. selecteerden zes van de meest populaire methoden voor ontbrekende gegevens imputatie van Google zoekmachine en vergeleken de methoden met behulp van enkele open-access datasets, d.w.z., iris, e.coli, en borstkanker . Zij evalueerden de doeltreffendheid van deze methoden aan de hand van de RMSE (root mean square error), de Unsupervised Clustering Error, en de Supervised Clustering Error. De auteurs vonden dat Bayesian Principal Component Analysis (bPCA) en Fuzzy K-Means (FKM) beter presteren dan de andere methoden.

Amiri en Jensen presenteerden een imputatietechniek voor ontbrekende gegevens met behulp van Fuzzy-Rough Methods. De paper helpt de lezers om de concepten van fuzzy-rough sets te begrijpen, samen met de verschillende versies van fuzzy inferentie en de implementatie ervan. Het artikel maakte gebruik van “KEEL,” een open-source software, evenals een bibliotheek die kan worden gebruikt om geavanceerde data-mining technieken uit te voeren over een dataset . KEEL heeft de implementatie van algoritmen zoals Fuzzy-Rough Nearest Neighbor (FRNN), dat een classificatie-algoritme is. De auteurs hebben FRNN overwogen en drie imputatiemethoden voor ontbrekende waarden voorgesteld: Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS), en Ordered Weighted Average Based Rough Sets (OWABRS). Aan het eind bleek FRNNI het beste te presteren van de drie voorgestelde algoritmen.

In vergeleken de auteurs zeven imputatiemethoden voor numerieke gegevens. De algoritmen zijn gemiddelde imputatie, mediane imputatie, voorspellende gemiddelde matching, kNN, Bayesiaanse lineaire regressie (norm), niet-Bayesiaanse lineaire regressie (norm.nob), en willekeurige steekproef. Zij gebruikten vijf numerieke datasets uit de UCI machine learning repository en ontdekten dat kNN imputatie beter presteerde dan alle andere methoden.

Support Vector Machine (SVM) is een populair classificatiealgoritme dat veel wordt gebruikt voor ontbrekende gegevens imputatie . Voor een gelabeld trainingsmonster probeert SVM een optimaal scheidingshypervlak te vinden, zodat de afstand van het hypervlak tot de dichtstbijzijnde datapunten gemaximaliseerd is. Hoe groter deze afstand (d.w.z., “marge”), hoe lager de generalisatiefout van de classificator. De classificator wordt de “maximum margin classifier” genoemd. De gegevenspunten die zich het dichtst bij het hypervlak bevinden, worden de ondersteuningsvectoren genoemd. Er zijn verschillende kernelfuncties in SVM geïntroduceerd om de computationele kosten voor classificatie te verminderen, zoals de lineaire kernel, de Laplaciaanse kernel en de polynomiale kernel.

Meervoudige imputatie

Meervoudige imputatiemethoden produceren meerdere waarden voor de imputatie van een enkele ontbrekende waarde met behulp van verschillende simulatiemodellen. Deze methoden introduceren de variabiliteit van geïmputeerde gegevens om een reeks van plausibele antwoorden te vinden. Meervoudige imputatiemethoden zijn complex van aard, maar zij hebben geen last van biaswaarden zoals enkelvoudige imputatie. Het MICE-algoritme, voorgesteld door V. S. Buuren en K. Groothuis-Oudshoorn, wordt veel gebruikt voor meervoudige imputatie. Het werkingsprincipe van meervoudige imputatietechnieken wordt hierna met een voorbeeld geïllustreerd.

In meervoudige imputatie worden alle ontbrekende gegevens vervangen door m waarden verkregen uit m iteraties (waarbij m > 1 en m normaliter tussen 3 en 10 ligt). Stel we hebben een dataset van 1000 mensen (weergegeven in tabel 4) over hun afstand tot een bepaalde bibliotheek en het bedrag van de boete voor te laat komen die de bibliotheek hen heeft opgelegd. De dataset bevat enkele ontbrekende waarden in de kolom van het boetebedrag. Wij willen de ontbrekende waarden toerekenen met behulp van meervoudige toerekeningstechnieken waarbij de waarde van m 10 is. In elke iteratie voeren we regressie uit tussen “Afstand tot bibliotheek” en “Boetebedrag” door 100 willekeurige waarden te nemen. In de eerste imputatie krijgen we \(x_{i}^{1}) voor de ontbrekende waarden (vervanging van de i-de ontbrekende waarde van doelvariabele x door de eerste regressie). Op dezelfde manier nemen we in de tweede imputatie nog eens 100 willekeurige waarden en voeren we regressie uit tussen “Afstand tot bibliotheek” en “Boetebedrag”. Daarna vullen we de ide ontbrekende waarde aan met \(x_{i}^{2}) (vervanging van ide ontbrekende waarde van doelvariabele x met tweede regressie). We voeren deze stappen tien keer uit om tien imputaties te krijgen voor alle ontbrekende waarden van de doelvariabele. Figuur 1 is een illustratie van twee imputaties met behulp van twee regressielijnen. Tabel 5 geeft de resultaten van drie imputaties weer.

Tabel 4 Voorbeeld van gegevens uit 1000 bibliotheekbestanden met ontbrekende waarden

Tabel 5 Meervoudige imputatie voor tabel 4

Multivariate Imputation by Chained Equation (MICE) pakket in “R” is de implementatie van het populaire MICE algoritme. MICE gaat ervan uit dat gegevens willekeurig ontbreken (MAR). Het doet alsof de waarschijnlijkheid van een ontbrekende variabele afhangt van de waargenomen gegevens. MICE levert meerdere waarden in de plaats van één ontbrekende waarde door een reeks regressiemodellen (of andere geschikte modellen) te creëren, afhankelijk van de parameter “methode”. In MICE wordt elke ontbrekende variabele behandeld als een afhankelijke variabele, en worden de andere gegevens in het record behandeld als een onafhankelijke variabele. Het proces wordt weergegeven in Fig. 2.

In eerste instantie voorspelt MICE ontbrekende gegevens met behulp van de bestaande gegevens van andere variabelen. Dan vervangt het ontbrekende waarden door de voorspelde waarden en creëert een dataset die geïmputeerde dataset wordt genoemd. Door iteratie creëert het meerdere geïmputeerde datasets. Elke dataset wordt vervolgens geanalyseerd met standaard statistische analysetechnieken, en er worden meervoudige analyseresultaten verstrekt. Aangezien populaire enkelvoudige imputatiemethoden, bijv, gemiddelde, klasse-gemiddelde, waarschijnlijk een vertekende imputatie opleveren, zouden meervoudige imputatiemethoden betere resultaten kunnen opleveren.

In het MICE-pakket van R zijn er meer dan twintig methoden die kunnen worden ingesteld voor de imputatie van ontbrekende gegevens. Sommige methoden kunnen alleen op binaire gegevens worden toegepast, en sommige andere werken voor numerieke gegevens. Weinig methoden kunnen voor alle attribuuttypes worden gebruikt. Hieronder worden enkele methoden uit het MICE-pakket besproken.

Predictive mean matching

Predictive Mean Matching (PMM) is een algemene methode voor de imputatie van ontbrekende gegevens. Een voordeel van PMM is dat de imputaties beperkt blijven tot de waargenomen waarden. PMM kan niet-lineaire relaties in stand houden, ook wanneer het structurele deel van het imputatiemodel onjuist is. Stel, k is een variabele met enkele ontbrekende waarden, en variabele l, zonder ontbrekende gegevens, wordt gebruikt om k te imputeren. Het algoritme werkt als volgt:

Voor niet-ontbrekende gegevens wordt lineaire regressie van k op l uitgevoerd, die b (een reeks coëfficiënten) oplevert.
Er wordt een willekeurige trekking uit de posterior voorspellende verdeling van b gedaan, die een nieuwe reeks coëfficiënten b* oplevert.
Met behulp van b* worden voor alle gevallen voorspelde waarden voor k gegenereerd.
Voor de gevallen waarin k ontbreekt, wordt een reeks gevallen geïdentificeerd die waargenomen k bevatten waarvan de voorspelde waarden dicht bij de voorspelde waarde met ontbrekende gegevens liggen.
Van deze dicht bij elkaar liggende gevallen wordt willekeurig een waarde gekozen om de ontbrekende waarde te vervangen.
Stappen 2 tot en met 5 worden herhaald voor elke voltooide dataset.

Logistische regressie

Logistische regressie (LOGREG) , een populair statistisch hulpmiddel dat wordt gebruikt om een dataset te analyseren op een uitkomst met één of meer onafhankelijke variabelen. Bij logistische regressie is de afhankelijke variabele binair. Voorbeelden van dergelijke gegevens zijn JA of NEE. Logistische regressie genereert de coëfficiënten om een logit-transformatie van de waarschijnlijkheid van de aanwezigheid van het kenmerk van output te voorspellen:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ waarbij y de waarschijnlijkheid is van de aanwezigheid van het kenmerk van output.

Polytome logistische regressie

Polytome logistische regressie (POLYREG) bepaalt hoe multinomiale doelvariabele Q afhangt van een reeks onafhankelijke variabelen, P_1, P_2, … P_m). Dit is ook een gegeneraliseerd lineair model waarbij de random component veronderstelt dat de verdeling van de afhankelijke variabele Polynominaal is((n,\pi ),\) waarbij \(\pi) een vector is met kansen op “succes” voor elke categorie.

Lineaire discriminantanalyse

Lineaire discriminantanalyse (LDA) berekent posterior waarschijnlijkheden voor alle onvolledige gevallen en kiest vervolgens imputaties uit hun posterioriteiten. De stappen voor lineaire discriminantanalyse zijn als volgt

Bereken de d-dimensionale gemiddelde vectoren uit de dataset voor verschillende klassen
Bereken de spreidingsmatrices
Bereken de eigenvectoren (e_1,e_2,….e_d)) en de bijbehorende eigenwaarden (\lambda _1,\lambda _2,…
Sorteer de eigenvectoren volgens de afnemende eigenwaarden en kies k eigenvectoren met de hoogste eigenwaarden om een matrix W te vormen met d
k dimensie
Gebruik W om de monsters in de nieuwe deelruimte te transformeren. Dit kan worden samengevat door de matrixvermenigvuldiging: Y = X \(\tijden) W

Classificatie- en regressieboom

Classificatie- en regressieboom (CART) onderzoekt eerst alle verklarende variabelen en bepaalt welke binaire verdeling van een enkele verklarende variabele de afwijking in de responsvariabele het beste vermindert. CART en andere op beslissingsbomen gebaseerde algoritmen hebben de volgende hoofdelementen:

Regels om gegevens op een knooppunt te splitsen op basis van de waarde van één variabele
Stopregels om te beslissen over de terminale tak met geen splitsing meer
Een voorspelling in elk bladknooppunt voor de doelvariabele

Bayesiaanse lineaire regressie

Bayesiaanse lineaire regressie (BLR) is een populaire statistische methode. Het is een benadering van lineaire regressie, waarbij de statistische analyse is uitgevoerd binnen de context van Bayesiaanse gevolgtrekkingen. Hier wordt de lineaire regressie gevormd met behulp van waarschijnlijkheidsverdelingen in plaats van puntschattingen. Y, de respons, wordt niet beoordeeld als een enkele waarde, maar y wordt verondersteld te worden getrokken uit een waarschijnlijkheidsverdeling. BLR heeft tot doel de posterior verdeling voor de modelparameters te achterhalen in plaats van één enkele beste waarde te vinden.

Amelia

Amelia is een meervoudige imputatiemethode die niet in het MICE-pakket is opgenomen en waarvoor een afzonderlijk R-pakket beschikbaar is. Om ontbrekende waarden voor een specifieke dataset te imputeren, gebruikt Amelia een bootstrapping- en verwachtingsmaximalisatiealgoritme. Het creëert meerdere imputaties door meerdere iteraties. Dit is nuttig omdat latere imputaties kunnen worden vergeleken om trends te ontdekken of om betere resultaten te vinden.

Samenvatting

In dit gedeelte hebben we veel onderzoekswerken besproken, die grofweg zijn ingedeeld in technieken op basis van enkelvoudige imputatie en technieken op basis van meervoudige imputatie. Single imputation benaderingen zijn computationeel efficiënt, maar kunnen aanzienlijk last hebben van bias, omdat ze geen rekening houden met de onzekerheid van de ontbrekende gegevens. Meervoudige imputatietechnieken daarentegen vermijden bias en voegen onzekerheid toe ten koste van hoge computationele kosten. In dit tijdperk van big data, waarin een massaal volume aan gegevens het typische geval is voor datasets uit de praktijk, zijn benaderingen op basis van meervoudige toerekening een uitdaging om te implementeren. Gezien de beperkingen van zowel enkelvoudige als meervoudige imputatie benaderingen, stellen wij een aanpak voor die de goedheid van beide benaderingen combineert: eenvoud en onzekerheid. Onze voorgestelde imputatietechniek wordt in de volgende sectie gepresenteerd.