SICE: en förbättrad teknik för imputering av saknade data | Journal of Big Data

I det här avsnittet har vi presenterat den nödvändiga bakgrunden och litteraturen om imputering av saknade data. Först har vi kortfattat beskrivit typerna av saknade uppgifter. Därefter har vi presenterat litteraturgenomgången i två kategorier: enkel imputering och multipel imputering.

Typiskt sett kan saknade uppgifter vara av tre typer:

Missing Completely at Random (MCAR): Data saknas oberoende av både observerade och icke-observerade data. Om vi till exempel i en studentundersökning får 5 % svar som saknas slumpmässigt är det MCAR.

Missing at Random (MAR): Med tanke på de observerade uppgifterna saknas uppgifter oberoende av icke-observerade uppgifter. Om t.ex. 10 % av svaren saknas för de manliga studenternas undersökning och 5 % saknas för de kvinnliga studenternas undersökning är det MAR.

Missing Not at Random (MNAR): Saknade observationer är relaterade till värden av oobserverade data i sig själva. Om t.ex. en studerandes CGPA är lägre, desto högre är andelen saknade enkätsvar, så är det MNAR.

Single imputation
Multipel imputering
Predictive mean matching
Logistisk regression
Polytomous logistic regression
Linjär diskriminantanalys
Klassificerings- och regressionsträd
Bayesiansk linjär regression
Amelia
Sammanfattning

Single imputation

Single imputationstekniker genererar ett specifikt värde för ett saknat verkligt värde i en datauppsättning. Denna teknik kräver mindre beräkningskostnader. Forskarna har föreslagit många olika typer av metoder för enkel imputering. Det allmänna förfarandet går ut på att välja det högsta möjliga svaret genom att analysera andra svar. Värdet kan erhållas genom medelvärdet, medianen eller läget för de tillgängliga värdena för variabeln i fråga. Andra metoder, t.ex. tekniker baserade på maskininlärning, kan också användas för single imputation. Ett illustrativt exempel på hur single imputation fungerar presenteras nedan.

I tabell 1 kan vi se att det saknas två värden i kolumnen ”Inkomst” för löpnummer 2 och 5, vilka representeras av NA. Vi kan köra medelimputering för att ersätta de saknade värdena. För varje saknat värde kommer endast ett värde att imputeras av algoritmen. Nu ska vi beräkna medelvärdet av de tillgängliga värdena i kolumnen ”Inkomst”.

$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200+200)/5= 180 \end{aligned}}$$$

Tabell 1 Ett dataset med saknade värden

I det här läget kommer de saknade värdena för serie 2 och 5 att ersättas av medelvärdet för denna kolumn, som är 180. Tabell 2 visar situationen efter imputeringen av saknade värden. Om det finns många saknade uppgifter i en kolumn och dessa uppgifter ersätts med samma värde minskar det statistiska resultatet, t.ex. standardavvikelse och varians. Vid enkel imputering betraktas de imputerade värdena som faktiska värden. Vid enkel imputering ignoreras det faktum att det faktiska värdet inte kan förutsägas med säkerhet av någon imputeringsmetod. Metoder som bygger på enkel imputering tar inte hänsyn till osäkerheten i de imputerade värdena. Istället erkänner de de imputerade värdena som faktiska värden i efterföljande analyser. Dessa värden kan dock ha standardfel. Dessa orsakar bias i resultatet .

Tabell 2 Imputering av saknade värden med hjälp av enkel imputeringsmetod

I tabell 3 kan vi se att det finns en del saknade värden i datasetet. Om vi använder en strategi för enkel imputering kan vi ta ”Mode” (det mest frekventa värdet) i vår målkolumn ”Death Reason” för att fylla dessa saknade värden. I det här exemplet är modus ”Cancer”, så alla saknade data kommer att ersättas med ”Cancer”. Om vi däremot tar hänsyn till ålderskolumnen kan vi se att de saknade värdena gäller äldre patienter som är mer benägna att dö i Covid-19. Så om vi bara fyller i alla saknade värden med hjälp av enbart enkel imputering kan det hända att vi inte tar itu med datasetets osäkerhet på ett korrekt sätt och att vi sannolikt får en snedvriden imputering.

Tabell 3 Analys av snedvridenhet för enkel imputeringsmetod

Nedan följer en del framstående forskning om enkel imputering baserad på tekniker för imputering av saknade data. Grzymala-Busse och Grzymala-Busse presenterade en genomgång av befintliga metoder för hantering av saknade uppgifter i handboken Handling Handlinging Missing Attribute Values. De har kategoriserat befintliga metoder i sekventiella imputeringsmetoder och parallella imputeringsmetoder och diskuterat de populära sekventiella imputeringarna, t.ex. borttagning av fall, tilldelning av det vanligaste värdet, konceptbegränsad tilldelning av värden. Några parallella imputeringsmetoder diskuterades också i deras artikel, t.ex. regelinduktion, lägre och högre approximation, attributvärdesparning.

I , anger författarna påverkan och risker med imputering av saknade data på medicinska data och hur de påverkar klassificeringsnoggrannheten. Författarna jämförde tre medelvärdesmetoder för imputering av data: globalt medelvärde, klustermedelvärde och klassmedelvärde. Vikten av att använda klassificeringstekniker efter imputering med en algoritm diskuteras också i artikeln.

Rahman presenterade en imputeringsteknik för saknade hälsodata som bygger på regelbaserad maskininlärning. Här använde författaren en algoritm, nämligen Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA är en vidareutveckling av en inlärningsalgoritm som kallas RIPPER . FURIA producerar några om-då-regler beroende på datasetet. Senare kan dessa om-då-regler användas för att fylla ut de saknade värdena. Författaren jämförde FURIA:s prestanda med kNN, J48, SVM och Mean imputation för att ersätta saknade uppgifter och fann att FURIA var bättre när det gäller känslighet. FURIA:s noggrannhet var inte alltid mer lovande än konkurrenternas.

Schmitt P., Mandel J. och Guedj M. valde ut sex av de mest populära metoderna för imputering av saknade data från Googles sökmotor och jämförde metoderna med hjälp av ett fåtal datamängder med öppen tillgång, t.ex. iris, e.coli och bröstcancer. De utvärderade dessa metoders effektivitet med hjälp av root mean square error (RMSE), Unsupervised Clustering Error och Supervised Clustering Error. Författarna fann att Bayesian Principal Component Analysis (bPCA) och Fuzzy K-Means (FKM) överträffar de andra metoderna.

Amiri och Jensen presenterade en teknik för imputering av saknade data med hjälp av Fuzzy-Rough Methods. Artikeln hjälper sina läsare att förstå begreppen fuzzy-rough sets tillsammans med olika versioner av fuzzy-inferens och deras genomförande. I artikeln användes KEEL, en programvara med öppen källkod och ett bibliotek som kan användas för att utföra avancerade databearbetningstekniker över en datamängd. KEEL har ett genomförande av algoritmer som Fuzzy-Rough Nearest Neighbor (FRNN), som är en klassificeringsalgoritm. Författarna tog hänsyn till FRNN och föreslog tre metoder för imputering av saknade värden: Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS) och Ordered Weighted Average Based Rough Sets (OWABRS). I slutändan visade sig FRNNI ge bäst resultat bland de tre föreslagna algoritmerna.

I jämförde författarna sju imputeringsmetoder för numeriska data. Algoritmerna är medelimputering, medianimputering, prediktiv medelvärdesmatchning, kNN, Bayesiansk linjär regression (norm), icke-Bayesiansk linjär regression (norm.nob) och slumpmässigt urval. De använde fem numeriska dataset från UCI:s databas för maskininlärning och fann att kNN-imputering överträffade alla andra metoder.

Support Vector Machine (SVM) är en populär klassificeringsalgoritm som används i stor utsträckning för imputering av saknade data . För ett märkt träningsprov försöker SVM hitta en optimal separerande hyperplan så att avståndet från hyperplanet till de närmaste datapunkterna maximeras . Ju större detta avstånd (dvs. ”marginal”) är, desto lägre är klassificerarens generaliseringsfel. Klassificatorn kallas klassificerare med maximal marginal. De datapunkter som ligger närmast hyperplanet kallas stödvektorer. Flera kärnfunktioner har införts i SVM för att minska beräkningskostnaden för klassificering, t.ex. linjär kärna, laplacankärna och polynomkärna.

Multipel imputering

Metoder för multipel imputering producerar flera värden för imputering av ett enda saknat värde med hjälp av olika simuleringsmodeller. Dessa metoder introducerar variabiliteten i imputerade data för att hitta ett intervall av plausibla svar. Metoder för multipel imputering är komplexa till sin natur, men de lider inte av biasvärden som singelimputering. MICE-algoritmen, som föreslagits av V. S. Buuren och K. Groothuis-Oudshoorn, används ofta för multipel imputering . Principen för multipel imputering illustreras nedan med ett exempel.

I multipel imputering ersätts varje saknad uppgift med m värden som erhållits genom m iterationer (där m > 1 och m normalt ligger mellan 3 och 10). Låt oss ha ett dataset med 1 000 personer (se tabell 4) om deras avstånd till ett visst bibliotek och hur mycket förseningsböter biblioteket har ålagt dem. Datasetet har några saknade värden i kolumnen för bötesbelopp. Vi vill ersätta de saknade värdena med hjälp av tekniker för multipel imputering där värdet på m är 10. I varje iteration kommer vi att köra en regression mellan ”Avstånd från bibliotek” och ”Bötesbelopp” genom att ta 100 slumpmässiga värden. I den första imputeringen får vi $x_{i}^{1}$ för saknade värden (ersättning av det i:e saknade värdet för målvariabeln x med den första regressionen). På samma sätt tar vi i den andra imputeringen ytterligare 100 slumpmässiga värden och gör en regression mellan ”Avstånd från biblioteket” och ”bötesbelopp”. Sedan fyller vi det i:e saknade värdet med $x_{i}^{2}$ (ersättning av det i:e saknade värdet av målvariabeln x med den andra regressionen). Vi kommer att utföra dessa steg tio gånger för att få tio imputationer för alla saknade värden för målvariabeln. Figur 1 är en illustration av två imputeringar med hjälp av två regressionslinjer. Tabell 5 visar resultaten av tre imputationer.

Tabell 4 Exempel på 1000 library fine data med saknade värden

Tabell 5 Multipel imputering för tabell 4

Multivariate Imputation by Chained Equation (MICE)-paketet i ”R” är en implementering av den populära MICE-algoritmen. MICE utgår från att data saknas slumpmässigt (MAR). Den förutsätter att sannolikheten för en saknad variabel beror på de observerade uppgifterna. MICE ger flera värden i stället för ett saknat värde genom att skapa en serie regressionsmodeller (eller andra lämpliga modeller), beroende på parametern ”method”. I MICE behandlas varje saknad variabel som en beroende variabel, och andra uppgifter i posten behandlas som en oberoende variabel. Processen presenteras i figur 2.

I början förutsäger MICE saknade uppgifter med hjälp av befintliga uppgifter om andra variabler. Därefter ersätts de saknade värdena med de förutspådda värdena och ett dataset skapas som kallas imputerat dataset. Genom iteration skapas flera imputerade dataset. Varje dataset analyseras sedan med hjälp av vanliga statistiska analysmetoder och flera analysresultat tillhandahålls. Som populära metoder för enkel imputering, t.ex, medelvärde, klass-medelvärde, sannolikt ger en snedvriden imputering, kan flera imputeringsmetoder ge bättre resultat.

I R:s MICE-paket finns det mer än tjugo metoder som kan ställas in för imputering av saknade data . Vissa metoder kan endast tillämpas på binära data och vissa andra fungerar för numeriska data. Några få metoder kan användas för alla typer av attribut. Utvalda metoder från MICE-paketet diskuteras nedan.

Predictive mean matching

Predictive Mean Matching (PMM) är en generell metod för imputering av saknade data . En fördel med PMM är att imputeringen begränsas till de observerade värdena. PMM kan bevara icke-linjära relationer även när den strukturella delen av imputeringsmodellen är felaktig. Låt k vara en variabel med vissa saknade värden, och variabel l, utan saknade uppgifter, används för att ersätta k. Algoritmen fungerar på följande sätt:

För data som inte saknas görs en linjär regression av k på l, vilket ger b (en uppsättning koefficienter).

En slumpmässig dragning från den efterföljande prediktiva fördelningen av b görs, vilket ger en ny uppsättning koefficienter b*.

Med hjälp av b* genereras predikterade värden för k för alla fall.
För de fall där k saknas identifieras en uppsättning fall som innehöll observerade k vars predikterade värden ligger nära det predikterade värdet med saknade data.
Från dessa nära fall väljs ett värde slumpmässigt för att ersätta det saknade värdet.
Steg 2 till 5 upprepas för varje komplett dataset.

Logistisk regression

Logistisk regression (LOGREG) , ett populärt statistiskt verktyg som används för att analysera en datamängd för ett utfall där det finns en eller flera oberoende variabler. I logistisk regression är den beroende variabeln binär. Exempel på sådana data kan vara JA eller NEJ. Logistisk regression genererar koefficienterna för att förutsäga en logit-transformation av sannolikheten för förekomst av egenskapen för utfallet:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ där y är sannolikheten för förekomst av egenskapen för utfallet.

Polytomous logistic regression

Metoden POLYREG (Polytomous Logistic Regression) definierar hur den multinomiala målvariabeln Q beror på en uppsättning oberoende variabler, $P_1, P_2, … P_m$. Detta är också en generaliserad linjär modell där den slumpmässiga komponenten antar att fördelningen av den beroende variabeln är Polynominal $(n,\pi ),$ där $\pi$ är en vektor med sannolikheterna för ”framgång” för varje kategori.

Linjär diskriminantanalys

Linjär diskriminantanalys (LDA) beräknar sannolikheterna i efterhand för alla ofullständiga fall och väljer därefter imputeringar från deras posteriorer. Steg för linjär diskriminantanalys anges nedan

Beräkna de d-dimensionella medelvektorerna från datasetet för olika klasser
Beräkna spridningsmatriser
Beräkna egenvektorer ($e_1,e_2,…,e_d$) och deras tillhörande egenvärden ($\(\lambda _1$,$\(\lambda _2$,…,$\lambda _d$) för spridningsmatriserna
Sortera egenvektorerna enligt de minskande egenvärdena och välj k egenvektorer med de högsta egenvärdena för att bilda en matris W med d $\times$ k dimension

Använd W för att transformera proverna till ett nytt delområde. Detta kan sammanfattas med matrismultiplikation: Y = X $\times$ W

Klassificerings- och regressionsträd

Klassificerings- och regressionsträd (CART) undersöker först alla förklaringsvariabler och bestämmer vilken binär uppdelning av en enskild förklaringsvariabel som bäst minskar avvikelsen i responsvariabeln. CART och andra beslutsträdsbaserade algoritmer har följande nyckelelement:

Regler för att dela upp data vid en nod baserat på värdet av en variabel
Stoppregler för att bestämma den terminala grenen utan fler delningar

En förutsägelse i varje bladnod för målvariabeln

Bayesiansk linjär regression

Bayesiansk linjär regression (BLR) är en populär statistisk metod. Det är ett tillvägagångssätt för linjär regression, där den statistiska analysen har utförts inom ramen för Bayesiansk inferens. Här bildas linjär regression med hjälp av sannolikhetsfördelningar i stället för punktskattningar. Y, svaret, bedöms inte som ett enskilt värde, utan y antas vara hämtat från en sannolikhetsfördelning. BLR syftar till att ta reda på den efterföljande fördelningen för modellparametrarna snarare än att hitta ett enda bästa värde.

Amelia

Amelia är en metod för multipel imputering som inte ingår i MICE-paketet och det finns ett separat R-paket för den. För att imputera saknade värden för ett specifikt dataset använder Amelia en bootstrapping- och förväntningsmaximeringsalgoritm. Den skapar flera imputeringar genom flera iterationer . Detta är användbart eftersom senare imputeringar kan jämföras för att upptäcka trender eller hitta bättre resultat.

Sammanfattning

I det här avsnittet har vi granskat många forskningsarbeten, som i stort sett kategoriseras som enkel imputering och multipel imputeringsbaserade tekniker. Metoder som bygger på enkel imputering är beräkningsmässigt effektiva, men kan i hög grad drabbas av bias eftersom de inte tar hänsyn till osäkerheten i de saknade uppgifterna. Tvärtom undviker metoder baserade på flera imputeringar bias och lägger till osäkerhet på bekostnad av en hög beräkningskostnad. I denna era av stora datamängder, där en massiv datamängd är det typiska fallet för praktiska datamängder, är det en utmaning att genomföra metoder baserade på flera imputeringar. Med tanke på begränsningarna hos både enkel och multipel imputering föreslår vi ett tillvägagångssätt som kombinerar båda tillvägagångssätten: enkelhet och osäkerhet. Vår föreslagna imputeringsteknik presenteras i nästa avsnitt.