SICE: egy továbbfejlesztett hiányzó adatimputációs technika | Journal of Big Data

Ebben a részben bemutattuk a hiányzó adatok imputálásához szükséges hátteret és irodalmat. Először röviden ismertettük a hiányzó adatok típusait. Ezután két kategóriában mutattuk be az irodalmi áttekintést: egyszeri imputálás és többszörös imputálás.

A hiányzó adatok tipikusan háromfélék lehetnek:

Missing Completely at Random (MCAR): Az adatok mind a megfigyelt, mind a megfigyeletlen adatoktól függetlenül hiányoznak. Például egy diákfelmérésben, ha 5% véletlenszerűen hiányzó válaszokat kapunk, akkor az MCAR.
Teljesen véletlenszerűen hiányzó (MAR): Adott a megfigyelt adat, az adatok a nem megfigyelt adatoktól függetlenül hiányoznak. Például, ha a férfi hallgatók felmérésénél 10%, a női hallgatók felmérésénél 5% válasz hiányzik, akkor MAR.
Missing Not at Random (MNAR): A hiányzó megfigyelések magához a nem megfigyelt adatok értékeihez kapcsolódnak. Például, ha alacsonyabb egy hallgató CGPA-ja, annál magasabb a hiányzó válaszok aránya a felmérésben, akkor ez MNAR.

Single imputation
Multiple imputation
Prediktív átlagillesztés
Logisztikus regresszió
Polytomous logistic regression
Lineáris diszkriminancia analízis
Klasszifikációs és regressziós fa
Bayesi lineáris regresszió
Amelia
Összefoglaló

Single imputation

Az egyszeri imputációs technikák egy konkrét értéket generálnak egy hiányzó valós értékre egy adathalmazban. Ez a technika kevesebb számítási költséget igényel. A kutatók által javasolt egyszeri imputációs módszerek számos típusa létezik. Az általános eljárás a lehető legmagasabb válasz kiválasztása a többi válasz elemzésével. Az értéket az adott változó rendelkezésre álló értékeinek átlaga, mediánja, módusza alapján kaphatjuk meg. Más megközelítések, például gépi tanuláson alapuló technikák is alkalmazhatók az egyszeri imputáláshoz. Az alábbiakban egy szemléltető példát mutatunk be arra, hogyan működik az egyszeri imputálás.

Az 1. táblázatban látható, hogy a “jövedelem” oszlopban a 2. és az 5. sorszám esetében két hiányzó érték van, amelyeket a NA jelez. A hiányzó értékek imputálásához lefuttathatjuk az átlagos imputálást. Itt minden egyes hiányzó érték esetében csak egy értéket imputál az algoritmus. Most kiszámítjuk a “jövedelem” oszlop rendelkezésre álló értékeinek átlagát.

$$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$$$

1. táblázat Egy adatkészlet hiányzó értékekkel

A 2. és 5. sorszám hiányzó értékeit ekkor ennek az oszlopnak az átlagértékével helyettesítjük, ami 180. A 2. táblázat a hiányzó értékek imputálása utáni helyzetet mutatja be. Ha egy oszlopban sok hiányzó adat van, és ezeket az adatokat ugyanazzal az értékkel helyettesítjük, a statisztikai eredmény, például a szórás, a variancia csökken. Egyszeri imputálás esetén az imputált értékeket tényleges értékeknek tekintjük. Az egyszeri imputálás figyelmen kívül hagyja azt a tényt, hogy a tényleges értéket egyetlen imputálási módszerrel sem lehet biztosan megjósolni. Az egyszeri imputáláson alapuló módszerek nem veszik figyelembe az imputált értékek bizonytalanságát. Ehelyett az imputált értékeket tényleges értékeknek ismerik el a későbbi elemzés során. Ezek az értékek azonban standard hibákkal rendelkezhetnek. Ezek torzítást okoznak az eredményben .

2. táblázat Hiányzó értékek imputálása egyszeri imputációs módszerrel

A 3. táblázatban látható, hogy van néhány hiányzó érték az adatállományban. Ha egyszeri imputációs stratégiát alkalmazunk, akkor a “Halál oka” céloszlopunk “Mode” (leggyakoribb érték) értékét vehetjük alapul, hogy kitöltsük ezeket a hiányzó értékeket. Ebben a példában a módusz a “Rák”, így az összes hiányzó adatot a “Rák” értékkel fogjuk helyettesíteni. Ha azonban figyelembe vesszük az életkor oszlopot, akkor láthatjuk, hogy a hiányzó értékek az idősebb betegekre vonatkoznak, akik nagyobb valószínűséggel halnak meg a Covid-19-ben. Tehát, ha csak egyetlen imputációval töltjük ki az összes hiányzó értéket, akkor lehet, hogy nem megfelelően kezeli az adatállomány bizonytalanságát, és valószínűleg torz imputációt eredményez.

3. táblázat Az egyetlen imputációs módszer torzításának elemzése

A következőkben néhány kiemelkedő kutatás az egyetlen imputáción alapuló hiányzó adatimputációs technikákról. Grzymala-Busse és Grzymala-Busse a Handling Missing Attribute Values című kézikönyvben mutatta be a létező hiányzó adatok kezelési módszereinek áttekintését. A meglévő módszereket szekvenciális imputációs és párhuzamos imputációs módszerekre kategorizálták, és tárgyalták a népszerű szekvenciális imputációkat, például az esetek törlését, a leggyakoribb érték hozzárendelését, az értékek fogalomkorlátozott hozzárendelését. Néhány párhuzamos imputációs módszert is tárgyaltak a tanulmányukban, pl. szabályindukció, alsó és felső közelítés, attribútumérték-párosítás.

A szerzők megállapították a hiányzó adatok imputálásának hatásait és kockázatait az orvosi adatokra, és azt, hogy ezek hogyan befolyásolják az osztályozási pontosságot. A szerzők három adatimputációs átlagolási módszert hasonlítottak össze: globális átlag, klaszterátlag és osztályátlag. Az algoritmussal történő imputálás utáni osztályozási technikák alkalmazásának fontosságát is tárgyalja a cikk.

Rahman bemutatott egy szabályalapú gépi tanulási megközelítésen alapuló imputálási technikát a hiányzó egészségügyi adatokra. Itt a szerző egy algoritmust használt, nevezetesen a Fuzzy Unordered Rule Induction Algorithm(FURIA). A FURIA a RIPPER nevű tanuló algoritmus továbbfejlesztése. A FURIA az adatkészlettől függően néhány ha-akkor szabályt állít elő. Később ezek a ha-akkor szabályok felhasználhatók a hiányzó értékek imputálására. A szerző összehasonlította a FURIA teljesítményét a kNN, a J48, az SVM és a Mean imputation teljesítményével a hiányzó adatok imputálásához, és a FURIA-t érzékenység szempontjából jobbnak találta. A FURIA pontossága nem volt mindig ígéretesebb, mint a versenytársai.

Schmitt P., Mandel J. és Guedj M. a hiányzó adatok imputálására szolgáló hat legnépszerűbb módszert választott ki a Google keresőmotorjából, és összehasonlította a módszereket néhány nyílt hozzáférésű adatkészlet, azaz írisz, e.coli és mellrák segítségével . E módszerek hatékonyságát a négyzetes középhiba (RMSE), a felügyelet nélküli klaszterezési hiba és a felügyelt klaszterezési hiba segítségével értékelték. A szerzők azt találták, hogy a Bayesian Principal Component Analysis(bPCA) és a Fuzzy K-Means(FKM) felülmúlja a többi módszert.

Amiri és Jensen bemutatott egy hiányzó adat imputációs technikát Fuzzy-Rough Methods használatával. A cikk segít olvasóinak a fuzzy-rough halmazok fogalmainak megértésében a fuzzy következtetés különböző változataival és azok megvalósításával együtt. A papír használt “KEEL”, egy nyílt forráskódú szoftver, valamint egy könyvtár, amely használható a fejlett adatbányászati technikák elvégzésére egy adatkészlet felett . A KEEL olyan algoritmusok megvalósításával rendelkezik, mint a Fuzzy-Rough Nearest Neighbor (FRNN), amely egy osztályozási algoritmus. A szerzők figyelembe vették az FRNN-t, és három hiányzó érték imputálási módszert javasoltak – Fuzzy-Rough Nearest Neighbors Imputation(FRNNI), Vaguely Quantified Rough Sets(VQRS) és Ordered Weighted Average Based Rough Sets(OWABRS). A végén az FRNNI bizonyult a három javasolt algoritmus közül a legjobban teljesítőnek.

A szerzők hét imputációs módszert hasonlítottak össze numerikus adatokra. Az algoritmusok az átlagimputáció, a medián imputáció, a prediktív átlagillesztés, a kNN, a Bayesi lineáris regresszió (norm), a nem Bayesi lineáris regresszió (norm.nob) és a véletlenszerű minta. Öt numerikus adatkészletet használtak az UCI gépi tanulási adattárából, és megállapították, hogy a kNN imputálás felülmúlta az összes többi módszert.

A támogatási vektorgép (SVM) egy népszerű osztályozási algoritmus, amelyet széles körben használnak hiányzó adatok imputálására . Egy címkézett képzési minta esetében az SVM megpróbálja megtalálni az optimális elválasztó hipersíkot úgy, hogy a hipersík és a legközelebbi adatpontok közötti távolságot maximalizálja . Minél nagyobb ez a távolság (azaz a “margó”), annál kisebb az osztályozó általánosítási hibája. Az osztályozót maximális margójú osztályozónak nevezzük. A hipersíkhoz legközelebb eső adatpontokat támogató vektoroknak nevezzük. Az SVM-ben számos kernelfüggvényt vezettek be az osztályozás számítási költségeinek csökkentése érdekében, mint például a lineáris kernel, a Laplacian kernel és a polinomiális kernel.

Multiple imputation

A többszörös imputációs módszerek több értéket állítanak elő egyetlen hiányzó érték imputálásához különböző szimulációs modellek segítségével. Ezek a módszerek bevezetik az imputált adatok változékonyságát, hogy megtalálják a plauzibilis válaszok tartományát. A többszörös imputációs módszerek összetett jellegűek, de nem szenvednek torzított értékektől, mint az egyszeri imputáció. A V. S. Buuren és K. Groothuis-Oudshoorn által javasolt MICE algoritmust széles körben használják többszörös imputálásra . A többszörös imputációs technikák működési elvét a következőkben egy példával szemléltetjük.

A többszörös imputációban minden hiányzó adatot m iterációból kapott m értékkel helyettesítünk (ahol m > 1 és m általában 3 és 10 között van). Legyen egy 1000 emberből álló adathalmazunk (a 4. táblázatban látható) egy adott könyvtártól való távolságukról és a könyvtár által rájuk kiszabott késedelmi bírság összegéről. Az adatkészletben a bírság összege oszlopban néhány hiányzó érték van. A hiányzó értékeket többszörös imputációs technikával szeretnénk imputálni, ahol az m értéke 10. Minden egyes iterációban regressziót futtatunk a “Könyvtártól való távolság” és a “Bírság összege” között, 100 véletlenszerű értéket véve. Az első imputáció során $x_{i}^{1}$ hiányzó értékeket kapunk (az x célváltozó i-edik hiányzó értékének helyettesítése az első regresszióval). Hasonlóképpen, a második imputációban újabb 100 véletlen értéket veszünk, és regressziót futtatunk a “Könyvtártól való távolság” és a “Szép összeg” között. Ezután az i-edik hiányzó értéket $x_{i}^{2}$ értékkel töltjük ki (az x célváltozó i-edik hiányzó értékének helyettesítése a második regresszióval). Ezeket a lépéseket tízszer hajtjuk végre, hogy tíz imputációt kapjunk a célváltozó összes hiányzó értékére. Az 1. ábra két imputációt szemléltet két regressziós sor segítségével. Az 5. táblázat három imputáció eredményeit mutatja be.

4. táblázat Példa 1000 könyvtári finom adatra hiányzó értékekkel

Tábl. 5 Multiple imputation for table 4

Multivariate Imputation by Chained Equation (MICE) package in “R” a népszerű MICE algoritmus implementációja. A MICE feltételezi, hogy az adatok véletlenszerűen hiányoznak (MAR). Úgy tesz, mintha a hiányzó változó valószínűsége a megfigyelt adatoktól függne. A MICE egy hiányzó érték helyett több értéket szolgáltat egy sor regressziós (vagy más megfelelő) modell létrehozásával, a “method” paraméterétől függően. A MICE-ben minden egyes hiányzó változót függő változóként, a rekord egyéb adatait pedig független változóként kezeli. A folyamatot a 2. ábra mutatja be.

A MICE először a hiányzó adatokat más változók meglévő adatai alapján jósolja meg. Ezután a hiányzó értékeket az előre jelzett értékekkel helyettesíti, és létrehoz egy imputált adathalmaznak nevezett adathalmazt. Iterációval több imputált adathalmazt hoz létre. Ezután minden egyes adatkészletet standard statisztikai elemzési technikákkal elemez, és többszörös elemzési eredményeket ad. Mint a népszerű egyszeri imputálási módszerek, pl, mean, class-mean, valószínűleg torz imputációt eredményeznek, a többszörös imputációs módszerek jobb eredményeket adhatnak.

Az R MICE csomagjában több mint húsz módszer állítható be a hiányzó adatok imputálásához . Egyes módszerek csak bináris adatokra alkalmazhatók, mások numerikus adatokra működnek. Kevés módszer használható minden attribútumtípusra. Az alábbiakban a MICE csomagból kiválasztott módszereket tárgyaljuk.

Prediktív átlagillesztés

A prediktív átlagillesztés (PMM) egy általános célú módszer hiányzó adatok imputálására . A PMM egyik előnye, hogy az imputációk a megfigyelt értékekre korlátozódnak. A PMM akkor is képes megőrizni a nem lineáris kapcsolatokat, ha az imputációs modell strukturális része hibás. Legyen k egy változó, amelynek hiányzó értékei vannak, és az l változó, amelynek nincsenek hiányzó adatai, a k imputálására szolgál:

Nem hiányzó adatok esetén k lineáris regresszióját végezzük el l-re, ami b-t (együtthatók halmazát) eredményezi.
Véletlenszerű húzást végzünk b poszterior prediktív eloszlásából, ami egy új b* együtthatóhalmazt eredményez.
A b* felhasználásával minden esetre k prediktált értékeket generálunk.
A hiányzó k-val rendelkező esetek esetében azonosítunk egy olyan esethalmazt, amely olyan megfigyelt k-t tartalmazott, amelynek prediktált értékei közel állnak a hiányzó adatokkal rendelkező prediktált értékhez.
Ezekből a közeli esetekből véletlenszerűen kiválasztunk egy értéket a hiányzó érték helyettesítésére.
A 2-5. lépést minden teljes adathalmaz esetében megismételjük.

Logisztikus regresszió

Logisztikus regresszió (LOGREG) , egy népszerű statisztikai eszköz, amelyet egy eredményre vonatkozó adathalmaz elemzésére használnak, ahol egy vagy több független változó van. A logisztikus regresszióban a függő változó bináris. Ilyen adat lehet például az IGEN vagy a NEM. A logisztikus regresszió előállítja a kimeneti jellemző jelenlétének valószínűségét előrejelző együtthatókat egy logit transzformációval:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ ahol y a kimeneti jellemző jelenlétének valószínűsége.

Polytomous logistic regression

Polytomous Logistic Regression (POLYREG) módszer azt határozza meg, hogy a Q multinomiális célváltozó hogyan függ a független változók $P_1, P_2, … P_m$ halmazától. Ez is egy általánosított lineáris modell, ahol a véletlen komponens feltételezi, hogy a függő változó eloszlása polinominális $(n,\pi ),$, ahol $\pi$ egy vektor a “siker” valószínűségeivel az egyes kategóriákhoz.

Lineáris diszkriminancia analízis

Lineáris diszkriminancia analízis(LDA) kiszámítja a poszterior valószínűségeket az összes nem teljes esetre, és kiválasztja az imputációkat, később, a poszteriorokból. A lineáris diszkriminancia-analízis lépései az alábbiak

Kiszámítja a d-dimenziós átlagvektorokat az adathalmazból a különböző osztályokra
Kiszámítja a szórásmátrixokat
Kiszámítja a sajátvektorokat ($e_1,e_2,….,e_d$) és a hozzájuk tartozó sajátértékeket ($\(\lambda _1$,$\lambda _2$,…,$\lambda _d$) a szórásmátrixokhoz
Válogassuk a sajátvektorokat a csökkenő sajátértékek szerint, és válasszuk ki a legnagyobb sajátértékkel rendelkező k sajátvektort, hogy egy W mátrixot alkossunk, amelynek d $\times$ k dimenziója
A W-t használjuk a minták új altérbe való transzformálására. Ez a mátrixszorzással foglalható össze: Y = X $\times$ W

Klasszifikációs és regressziós fa

Klasszifikációs és regressziós fa (CART) először megvizsgálja az összes magyarázó változót, és meghatározza, hogy egyetlen magyarázó változó melyik bináris osztása csökkenti legjobban a válaszváltozó eltérését. A CART és más döntési fa alapú algoritmusok a következő kulcsfontosságú elemekkel rendelkeznek:

Szabályok az adatok felosztására egy csomópontnál az egyik változó értéke alapján
Megállító szabályok annak eldöntésére, hogy melyik a végső ág, ahol nincs több felosztás

Egy előrejelzés minden levélcsomópontban a célváltozóra

Bayesi lineáris regresszió

A Bayesi lineáris regresszió(BLR) egy népszerű statisztikai módszer. Ez a lineáris regresszió olyan megközelítése, ahol a statisztikai elemzést a Bayesi következtetés kontextusában végezték. Itt a lineáris regressziót pontbecslések helyett valószínűségi eloszlások segítségével képezik. Y, a válasz, nem egyetlen értékként kerül értékelésre, hanem feltételezzük, hogy y egy valószínűségi eloszlásból származik. A BLR célja a modellparaméterek utólagos eloszlásának megállapítása ahelyett, hogy egyetlen legjobb értéket találna.

Amelia

Amelia egy többszörös imputációs módszer, amely nem szerepel a MICE csomagban, és külön R csomag áll rendelkezésre hozzá. Egy adott adatkészlet hiányzó értékeinek imputálásához az Amelia bootstrapping és expectation-maximization algoritmust használ. Többszörös imputációt hoz létre többszörös iterációval . Ez hasznos, mivel a későbbi imputációkat össze lehet hasonlítani a trendek felfedezése vagy a jobb eredmények megtalálása érdekében.

Összefoglaló

Ebben a szakaszban számos kutatási munkát tekintettünk át, amelyeket nagyjából az egyszeri imputálás és a többszörös imputáláson alapuló technikák kategóriájába soroltunk. Az egyszeri imputáción alapuló megközelítések számítási szempontból hatékonyak, de jelentősen szenvedhetnek az elfogultságtól, mivel nem veszik figyelembe a hiányzó adatok bizonytalanságát. Ezzel szemben a többszörös imputáláson alapuló megközelítések elkerülik a torzítást és hozzáadják a bizonytalanságot a magas számítási költségek árán. A nagy adatok korában, amikor a gyakorlati adathalmazok jellemző esete a hatalmas adatmennyiség, a többszörös imputáláson alapuló megközelítéseket kihívást jelent a végrehajtás. Figyelembe véve mind az egyszeres, mind a többszörös imputáláson alapuló megközelítések korlátait, olyan megközelítést javasolunk, amely egyesíti mindkét megközelítés előnyeit: az egyszerűséget és a bizonytalanságot. A javasolt imputálási technikánkat a következő szakaszban mutatjuk be.