SICE: en forbedret teknik til imputation af manglende data | Journal of Big Data

I dette afsnit har vi præsenteret den nødvendige baggrund og litteratur i forbindelse med imputation af manglende data. Først har vi kort beskrevet de forskellige typer manglende data. Derefter har vi præsenteret litteraturgennemgangen i to kategorier: enkelt imputering og multipel imputering.

Typisk kan manglende data være af tre typer:

Missing Completely at Random (MCAR): Data mangler uafhængigt af både observerede og uobserverede data. Hvis vi f.eks. i en elevundersøgelse får 5 % svar, der mangler tilfældigt, er der tale om MCAR.

Missing at Random (MAR): I betragtning af de observerede data mangler data uafhængigt af uobserverede data. Hvis vi f.eks. får 10 % svar, der mangler for de mandlige studerendes undersøgelse, og 5 % mangler for de kvindelige studerendes undersøgelse, er det MAR.

Missing Not at Random (MNAR): Manglende observationer er relateret til værdier af uobserverede data selv. Hvis f.eks. en studerendes CGPA er lavere, jo højere er den manglende svarprocent i undersøgelsen, så er det MNAR.

Single imputation
Multiple imputation
Predictive Mean Matching
Logistisk regression
Polytomous logistisk regression
Linear diskriminantanalyse
Klassifikations- og regressionstræ
Bayesian lineær regression
Amelia
Summary

Single imputation

Single imputationsteknikker genererer en specifik værdi for en manglende reel værdi i et datasæt. Denne teknik kræver færre beregningsomkostninger. Forskerne har foreslået mange typer af metoder til enkelt imputering. Den generelle procedure er at vælge det højest mulige svar ved at analysere andre svar. Værdien kan opnås ved hjælp af middelværdien, medianen eller modus af de tilgængelige værdier for den pågældende variabel. Der kan også anvendes andre metoder, f.eks. maskinlæringsbaserede teknikker, til single imputation. Et illustrativt eksempel på, hvordan single imputation fungerer, er vist nedenfor.

I tabel 1 kan vi se, at der mangler to værdier i kolonnen “Indkomst” for løbenummer 2 og 5, som er repræsenteret ved NA. Vi kan køre middelimputation for at imputere de manglende værdier. Her vil algoritmen for hver manglende værdi kun imputere én værdi for hver manglende værdi. Nu vil vi beregne gennemsnittet af de tilgængelige værdier i kolonnen “Indkomst”.

$$$\begin{aligned} \hbox {Mean}= (100+100+100+300+200+200+200)/5= 180 \end{aligned}}$$$

Tabel 1 Et datasæt med manglende værdier

På dette tidspunkt vil de manglende værdier for serie 2 og 5 blive erstattet af middelværdien for denne kolonne, som er 180. Tabel 2 viser situationen efter imputeringen af manglende værdier. Hvis der er mange manglende data i en kolonne, og disse data erstattes af den samme værdi, falder det statistiske resultat som standardafvigelse og varians. Ved enkelt imputering betragtes de imputerede værdier som faktiske værdier. Ved enkelt imputering ses der bort fra det faktum, at den faktiske værdi ikke kan forudsiges med sikkerhed ved hjælp af nogen imputeringsmetode. Metoder baseret på single imputation tager ikke hensyn til usikkerheden ved de imputerede værdier. I stedet anerkender de de imputerede værdier som faktiske værdier i den efterfølgende analyse. Disse værdier kan imidlertid have standardfejl. Disse forårsager bias i resultatet .

Tabel 2 Imputering af manglende værdier ved hjælp af enkelt imputeringsmetode

I tabel 3 kan vi se, at der er nogle manglende værdier i datasættet. Hvis vi anvender en enkelt imputeringsstrategi, kan vi tage “Mode” (den hyppigste værdi) i vores målkolonne “Death Reason” for at udfylde disse manglende værdier. I dette eksempel er mode “Cancer”, så alle manglende data vil blive erstattet af “Cancer”. Hvis vi imidlertid betragter alderskolonnen, kan vi se, at de manglende værdier vedrører de ældre patienter, som er mere tilbøjelige til at dø i Covid-19. Så hvis vi bare udfylder alle de manglende værdier ved kun at bruge single imputation, kan det ikke tage korrekt højde for usikkerheden i datasættet og vil sandsynligvis give en skæv imputation.

Tabel 3 Analyse af skævhed for single imputation-metode

Det følgende er nogle fremtrædende undersøgelser af single imputation-baserede imputationsteknikker for manglende data. Grzymala-Busse og Grzymala-Busse præsenterede en gennemgang af eksisterende metoder til håndtering af manglende data i håndbogen Handling Handlinging Missing Attribute Values (håndbog om håndtering af manglende attributværdier). De har kategoriseret de eksisterende metoder i sekventielle imputeringsmetoder og parallelle imputeringsmetoder og diskuteret de populære sekventielle imputeringer, f.eks. case-sletning, tildeling af den mest almindelige værdi og begrebsbegrænset tildeling af værdier. Nogle få parallelle imputeringsmetoder blev også diskuteret i deres artikel, f.eks. regelinduktion, nedre og øvre tilnærmelse, attributværdiparring.

I , angav forfatterne påvirkningerne og risiciene ved imputering af manglende data på medicinske data, og hvordan de påvirker klassifikationsnøjagtigheden. Forfatterne sammenlignede tre metoder til beregning af gennemsnit af dataimputationer: globalt gennemsnit, klynge gennemsnit og klasse gennemsnit. Vigtigheden af at anvende klassifikationsteknikker efter imputering med en algoritme diskuteres også i artiklen.

Rahman præsenterede en imputeringsteknik for manglende sundhedsdata baseret på regelbaseret maskinlæringstilgang. Her anvendte forfatteren en algoritme, nemlig Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA er en videreudvikling af en læringsalgoritme kaldet RIPPER . FURIA producerer nogle få hvis-så-regler afhængigt af datasættet. Senere kan disse hvis-dan-regler anvendes til at udligne de manglende værdier. Forfatteren sammenlignede FURIA’s ydeevne med kNN, J48, SVM og Mean imputation til at imputere manglende data og fandt, at FURIA var bedre med hensyn til følsomhed. FURIA’s nøjagtighed var ikke altid lovende end konkurrenternes.

Schmitt P., Mandel J. og Guedj M. udvalgte seks af de mest populære metoder til imputering af manglende data fra Googles søgemaskine og sammenlignede metoderne ved hjælp af få datasæt med åben adgang, dvs. iris, e.coli og brystkræft . De evaluerede effektiviteten af disse metoder ved hjælp af root mean square error (RMSE), Unsupervised Clustering Error og Supervised Clustering Error. Forfatterne fandt, at Bayesian Principal Component Analysis(bPCA) og Fuzzy K-Means(FKM) klarer sig bedre end de andre metoder.

Amiri og Jensen præsenterede en teknik til imputering af manglende data ved hjælp af Fuzzy-Rough Methods. Papiret hjælper sine læsere med at forstå begreberne fuzzy-rough-sæt sammen med forskellige versioner af fuzzy-inferens og deres gennemførelse. I artiklen anvendes “KEEL”, en open source-software, samt et bibliotek, der kan bruges til at udføre avancerede data-mining-teknikker over et datasæt . KEEL har implementering af algoritmer som Fuzzy-Rough Nearest Neighbor (FRNN), som er en klassifikationsalgoritme. Forfatterne har overvejet FRNN og foreslået tre metoder til imputering af manglende værdier – Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS) og Ordered Weighted Average Based Rough Sets (OWABRS). Til sidst viste FRNNI sig at være den bedste af de tre foreslåede algoritmer.

I sammenlignede forfatterne syv imputeringsmetoder for numeriske data. Algoritmerne er middelimputation, medianimputation, predictive mean matching, kNN, Bayesian Linear Regression (norm), non-Bayesian Linear Regression (norm.nob) og random sample. De brugte fem numeriske datasæt fra UCI’s maskinlæringsarkiv og fandt, at kNN-imputering klarede sig bedre end alle andre metoder.

Support Vector Machine (SVM) er en populær klassifikationsalgoritme, der er meget anvendt til imputering af manglende data . For en mærket træningsprøve forsøger SVM at finde en optimal separerende hyperplan, således at afstanden fra hyperplanet til de nærmeste datapunkter er maksimeret . Jo større denne afstand (dvs. “margin”) er, jo lavere er klassifikatorens generaliseringsfejl. Klassifikatoren kaldes klassifikator med maksimal margin. De datapunkter, der ligger tættest på hyperplanet, kaldes støttevektorer. Der er blevet indført flere kernefunktioner i SVM for at reducere beregningsomkostningerne til klassifikation, f.eks. den lineære kerne, Laplacian-kernen og den polynomiale kerne.

Multiple imputation

Multiple imputationsmetoder producerer flere værdier til imputering af en enkelt manglende værdi ved hjælp af forskellige simuleringsmodeller. Disse metoder indfører variabiliteten i de imputerede data for at finde en række plausible svar. Multiple imputeringsmetoder er komplekse i deres natur, men de lider ikke af biasværdier som single imputation. MICE-algoritmen, der er foreslået af V. S. Buuren og K. Groothuis-Oudshoorn, anvendes i vid udstrækning til multipel imputering . Funktionsprincippet for multiple imputationsteknikker illustreres nedenfor ved hjælp af et eksempel.

I multiple imputation erstattes hver manglende data med m værdier, der er opnået ved m iterationer (hvor m > 1 og m normalt ligger mellem 3 og 10). Lad os have et datasæt med 1000 personer (vist i tabel 4) om deres afstand til et bestemt bibliotek og størrelsen af den forsinkelsesbøde, som biblioteket har pålagt dem. Datasættet har nogle manglende værdier i kolonnen for bødebeløb. Vi ønsker at imputere de manglende værdier ved hjælp af multiple imputationsteknikker, hvor værdien af m er 10. I hver iteration vil vi køre regression mellem “Afstand fra bibliotek” og “Bødebeløb” ved at tage 100 tilfældige værdier. I den første imputering får vi $x_{i}^{1}$ for manglende værdier (erstatning af den i’te manglende værdi af målvariablen x med den første regression). På samme måde tager vi i den anden imputering endnu 100 tilfældige værdier og udfører regression mellem “Afstand fra bibliotek” og “Bødebeløb”. Derefter udfylder vi den i’te manglende værdi med $x_{i}^{2}$ (erstatning af den i’te manglende værdi af målvariabel x med den anden regression). Vi udfører disse trin ti gange for at få ti imputationer for alle manglende værdier af målvariablen. Figur 1 er en illustration af to imputationer ved hjælp af to regressionslinjer. Tabel 5 viser resultaterne af tre imputationer.

Tabel 4 Eksempel på 1000 biblioteksfine data med manglende værdier

Tabel 5 Multiple imputation for tabel 4

Multivariate Imputation by Chained Equation (MICE) pakken i “R” er en implementering af den populære MICE algoritme. MICE antager, at data mangler tilfældigt (MAR). Den antager, at sandsynligheden for en manglende variabel afhænger af de observerede data. MICE giver flere værdier i stedet for en manglende værdi ved at skabe en række regressionsmodeller (eller andre egnede modeller), afhængigt af parameteren “method”. I MICE behandles hver manglende variabel som en afhængig variabel, og andre data i posten behandles som en uafhængig variabel. Processen er vist i fig. 2.

I første omgang forudsiger MICE de manglende data ved hjælp af de eksisterende data for andre variabler. Derefter erstatter den manglende værdier ved hjælp af de forudsagte værdier og opretter et datasæt, der kaldes imputeret datasæt. Ved iteration oprettes der flere imputerede datasæt. Hvert datasæt analyseres derefter ved hjælp af statistiske standardanalyseteknikker, og der leveres flere analyseresultater. Som populære metoder til enkelt imputering, f.eks, middelværdi, klasse-middelværdi, sandsynligvis vil give en skæv imputering, kan flere imputeringsmetoder give bedre resultater.

I MICE-pakken i R er der mere end tyve metoder, der kan indstilles til imputering af manglende data . Nogle metoder kan kun anvendes på binære data, og nogle andre fungerer til numeriske data. Nogle få metoder kan anvendes til alle attributtyper. Nedenfor gennemgås udvalgte metoder fra MICE-pakken.

Predictive Mean Matching

Predictive Mean Matching (PMM) er en generel metode til imputering af manglende data . En af fordelene ved PMM er, at imputationer er begrænset til de observerede værdier. PMM kan bevare ikke-lineære relationer, også når den strukturelle del af imputeringsmodellen er ukorrekt. Lad k være en variabel med nogle manglende værdier, og variabel l, som ikke indeholder manglende data, anvendes til at imputere k. Algoritmen fungerer på følgende måde:

For ikke-manglende data foretages en lineær regression af k på l, hvilket giver b (et sæt koefficienter).

Der foretages et tilfældigt træk fra den efterfølgende prædiktive fordeling af b, hvilket giver et nyt sæt koefficienter b*.

Gennem anvendelse af b* genereres forudsagte værdier for k for alle tilfælde.
For de tilfælde med manglende k identificeres et sæt af tilfælde, der indeholdt observerede k, hvis forudsagte værdier ligger tæt på den forudsagte værdi med manglende data.
Fra disse tætte tilfælde vælges en værdi tilfældigt til at erstatte den manglende værdi.
Strin 2 til 5 gentages for hvert fuldstændigt datasæt.

Logistisk regression

Logistisk regression (LOGREG) , et populært statistisk værktøj, der bruges til at analysere et datasæt for et resultat, hvor der er en eller flere uafhængige variabler. I logistisk regression er den afhængige variabel binær. Eksempler på sådanne data kunne være JA eller NEJ. Logistisk regression genererer koefficienterne til at forudsige en logit-transformation af sandsynligheden for tilstedeværelsen af udgangsegenskaben:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ hvor y er sandsynligheden for tilstedeværelsen af udgangsegenskaben.

Polytomous logistisk regression

Metoden POLYREG (Polytomous Logistic Regression) definerer, hvordan den multinomiale målvariabel Q afhænger af et sæt uafhængige variabler, $P_1, P_2, … P_m$. Dette er også en generaliseret lineær model, hvor den tilfældige komponent antager, at fordelingen af den afhængige variabel er Polynominal $(n,\pi ),$ hvor $\pi$ er en vektor med sandsynligheder for “succes” for hver kategori.

Linear diskriminantanalyse

Linear diskriminantanalyse(LDA) beregner posterior-sandsynligheder for alle ufuldstændige tilfælde og vælger efterfølgende imputationer ud fra deres posteriorer. Trinene for lineær diskriminantanalyse er angivet nedenfor

Beregn de d-dimensionelle middelvektorer fra datasættet for forskellige klasser

Beregn spredningsmatricer

Beregn egenvektorer ($e_1,e_2,….,e_d$) og deres tilhørende egenværdier ($\(\lambda _1$,$\(\lambda _2$,….,$\lambda _d$)) for spredningsmatricerne
Sortere egenvektorerne efter de faldende egenværdier og vælge k egenvektorer med de højeste egenværdier for at danne en matrix W med d $\times$ k dimension

Anvend W til at transformere prøverne til et nyt underrum. Dette kan sammenfattes ved matrixmultiplikation: Y = X $\times$ W

Klassifikations- og regressionstræ

Klassifikations- og regressionstræ (CART) undersøger først alle forklarende variabler og bestemmer, hvilken binær opdeling af en enkelt forklarende variabel der bedst reducerer afvigelsen i responsvariablen. CART og andre beslutningstræbaserede algoritmer har følgende nøgleelementer:

Regler til opdeling af data ved et knudepunkt baseret på værdien af en enkelt variabel
Stopregler til at afgøre den terminale gren med ikke flere opdelinger

En forudsigelse i hver bladknude for målvariablen

Bayesian lineær regression

Bayesian lineær regression(BLR) er en populær statistisk metode. Det er en tilgang til lineær regression, hvor den statistiske analyse blev foretaget inden for rammerne af Bayesiansk inferens. Her dannes lineær regression ved hjælp af sandsynlighedsfordelinger i stedet for punktestimater. Y, responsen, vurderes ikke som en enkelt værdi, men y antages at være trukket fra en sandsynlighedsfordeling. BLR har til formål at finde ud af den efterfølgende fordeling for modelparametrene i stedet for at finde en enkelt bedste værdi.

Amelia

Amelia er en multipel imputeringsmetode, som ikke er medtaget i MICE-pakken, og der findes en separat R-pakke til den. For at imputere manglende værdier for et specifikt datasæt bruger Amelia en bootstrapping- og forventningsmaksimeringsalgoritme. Den skaber flere imputationer ved flere iterationer . Dette er nyttigt, da senere imputationer kan sammenlignes for at opdage tendenser eller for at finde bedre resultater.

Summary

I dette afsnit har vi gennemgået mange forskningsarbejder, bredt kategoriseret som enkelt imputation og flere imputationsbaserede teknikker. Single imputation-baserede metoder er beregningseffektivt, men kan i væsentlig grad lide under bias, da de ikke tager hensyn til usikkerheden ved de manglende data. Derimod undgår metoder baseret på flere imputeringer skævheder og tilføjer usikkerhed på bekostning af høje beregningsomkostninger. I denne tid med store datamængder, hvor en massiv datamængde er det typiske tilfælde for praktiske datasæt, er det en udfordring at gennemføre metoder baseret på flere imputeringer. I betragtning af begrænsningerne ved både enkelt- og multipel imputeringsbaserede metoder foreslår vi en metode, der kombinerer de gode sider af begge metoder: enkelhed og usikkerhed. Vores foreslåede imputationsteknik præsenteres i det næste afsnit.