SICE: parannettu puuttuvien tietojen imputointitekniikka | Journal of Big Data

Tässä osiossa olemme esitelleet puuttuvien tietojen imputointiin liittyvää taustaa ja kirjallisuutta. Ensin olemme kuvailleet lyhyesti puuttuvien tietojen tyyppejä. Sitten olemme esitelleet kirjallisuuskatsauksen kahdessa kategoriassa: yksittäinen imputointi ja moninkertainen imputointi.

Tyypillisesti puuttuvat tiedot voivat olla kolmenlaisia:

Missing Completely at Random (MCAR): Tiedot puuttuvat riippumatta sekä havaituista että havaitsemattomista tiedoista. Jos esimerkiksi opiskelijakyselyssä 5 % vastauksista puuttuu satunnaisesti, kyseessä on MCAR.
Missing at Random (MAR): Kun otetaan huomioon havaitut tiedot, tiedot puuttuvat riippumatta havaitsemattomista tiedoista. Jos esimerkiksi miesopiskelijoiden kyselystä puuttuu 10 % vastauksia ja naisopiskelijoiden kyselystä 5 %, on MAR.
Missing Not at Random (MNAR): Puuttuvat havainnot liittyvät itse havaitsemattomien tietojen arvoihin. Jos esimerkiksi opiskelijan CGPA-arvo on alhaisempi, sitä suurempi on kyselyn vastausten puuttumisprosentti, kyseessä on MNAR.

Yksittäinen imputointi
Multiple imputation
Predictive mean matching
Logistinen regressio
Polytominen logistinen regressio
Lineaarinen diskriminanttianalyysi
Luokittelu- ja regressiopuu
Bayesin lineaarinen regressio
Amelia
Yhteenveto

Yksittäinen imputointi

Yksittäiset imputointitekniikat tuottavat tietylle puuttuvalle todelliselle arvolle tietyn arvon tietokokonaisuudessa. Tämä tekniikka vaatii vähemmän laskentakustannuksia. Tutkijat ovat ehdottaneet monenlaisia yksittäisiä imputointimenetelmiä. Yleinen menettely on valita korkein mahdollinen vastaus analysoimalla muita vastauksia. Arvo voidaan saada kyseisen muuttujan käytettävissä olevien arvojen keskiarvon, mediaanin tai moodin avulla. Myös muita lähestymistapoja, kuten koneoppimiseen perustuvia tekniikoita, voidaan käyttää yksittäiseen imputointiin. Seuraavassa esitetään havainnollistava esimerkki siitä, miten yksittäinen imputointi toimii.

Taulukossa 1 näkyy, että sarakkeessa ”Tulot” sarakkeessa on kaksi puuttuvaa arvoa sarjanumeroiden 2 ja 5 osalta, joita edustaa NA. Voimme suorittaa keskiarvoimputoinnin puuttuvien arvojen imputoimiseksi. Algoritmi imputoi jokaisesta puuttuvasta arvosta vain yhden arvon. Nyt lasketaan sarakkeen ”Tulot” käytettävissä olevien arvojen keskiarvo.

$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$$$

Taulukko 1 Aineisto, jossa on puuttuvia arvoja

Tässä vaiheessa sarakkeiden 2 ja 5 puuttuvat arvot korvataan sarakkeen keskiarvolla, joka on 180. Taulukko 2 esittää tilannetta puuttuvien arvojen imputoinnin jälkeen. Jos sarakkeessa on paljon puuttuvia tietoja ja nämä tiedot korvataan samalla arvolla, tilastollinen tulos, kuten keskihajonta ja varianssi, laskee. Yksittäisessä imputoinnissa imputoituja arvoja pidetään todellisina arvoina. Yksittäisessä imputoinnissa ei oteta huomioon sitä, että todellista arvoa ei voida ennustaa varmasti millään imputointimenetelmällä. Yksittäiseen imputointiin perustuvissa menetelmissä ei oteta huomioon imputoitujen arvojen epävarmuutta. Sen sijaan ne tunnustavat imputoidut arvot todellisiksi arvoiksi myöhemmässä analyysissä. Näillä arvoilla voi kuitenkin olla keskivirheitä. Nämä aiheuttavat harhaa tulokseen .

Taulukko 2 Puuttuvien arvojen imputointi yhden imputointimenetelmän avulla

Taulukosta 3 nähdään, että aineistossa on joitakin puuttuvia arvoja. Jos käytämme yhden imputoinnin strategiaa, voimme käyttää kohdesarakkeemme ”Kuolemansyy” ”moodia” (yleisintä arvoa) täyttämään nämä puuttuvat arvot. Tässä esimerkissä moodi on ”Cancer”, joten kaikki puuttuvat tiedot korvataan arvolla ”Cancer”. Jos kuitenkin tarkastelemme ikäsaraketta, voimme nähdä, että puuttuvat arvot koskevat vanhempia potilaita, jotka kuolevat todennäköisemmin Covid-19:ssä. Jos siis vain täytämme kaikki puuttuvat arvot käyttämällä pelkkää yksittäistä imputaatiota, se ei välttämättä ota asianmukaisesti huomioon tietokokonaisuuden epävarmuutta ja tuottaa todennäköisesti vääristyneitä imputaatioita.

Taulukko 3 Yksittäisen imputaatiomenetelmän vääristymien analyysi

Seuraavissa esitellään joitain yksittäiseen imputaatioon perustuvien puuttuvien tietojen imputointitekniikoiden näkyviä tutkimuksia. Grzymala-Busse ja Grzymala-Busse esittivät katsauksen olemassa olevista puuttuvien tietojen käsittelymenetelmistä käsikirjassa Handling Missing Attribute Values. He ovat luokitelleet olemassa olevat menetelmät peräkkäisiin imputointimenetelmiin ja rinnakkaisiin imputointimenetelmiin ja käsitelleet suosittuja peräkkäisiä imputointeja, kuten tapausten poistamista, yleisimmän arvon määrittämistä ja käsitteellisesti rajoitettua arvojen määrittämistä. Heidän artikkelissaan käsiteltiin myös muutamia rinnakkaisia imputointimenetelmiä, esim. sääntöinduktio, alempi ja ylempi approksimaatio, attribuuttiarvojen yhdistäminen.

Tekijät totesivat kirjoituksessaan puuttuvien tietojen imputoinnin vaikutukset ja riskit lääketieteellisissä aineistoissa ja miten ne vaikuttavat luokittelutarkkuuteen. Kirjoittajat vertasivat kolmea tietojen imputoinnin keskiarvomenetelmää: globaalia keskiarvoa, klusterikeskiarvoa ja luokkakeskiarvoa. Artikkelissa käsitellään myös luokittelutekniikoiden käytön tärkeyttä algoritmilla tehtävän imputoinnin jälkeen.

Rahman esitteli sääntöpohjaiseen koneoppimislähestymistapaan perustuvan imputointitekniikan puuttuville terveydenhuollon tiedoille. Tässä kirjoittaja käytti algoritmia, nimittäin Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA on RIPPER-nimisen oppija-algoritmin parannus. FURIA tuottaa muutamia jos-jos-sääntöjä aineistosta riippuen. Myöhemmin näitä jos-jos-sääntöjä voidaan käyttää puuttuvien arvojen imputointiin. Kirjoittaja vertasi FURIAn suorituskykyä kNN:n, J48:n, SVM:n ja Mean imputationin kanssa puuttuvien tietojen imputoimiseksi ja havaitsi FURIAn olevan herkkyydeltään parempi. FURIA:n tarkkuus ei ollut aina lupaavampi kuin sen kilpailijoiden.

Schmitt P., Mandel J. ja Guedj M. valitsivat Googlen hakukoneesta kuusi suosituinta menetelmää puuttuvien tietojen imputointiin ja vertasivat menetelmiä käyttäen muutamia avoimia tietokokonaisuuksia, eli iiris, e.coli ja rintasyöpä . He arvioivat näiden menetelmien tehokkuutta käyttämällä keskimääräistä neliövirheen juurta (RMSE), valvomatonta klusterointivirhettä (Unsupervised Clustering Error) ja valvottua klusterointivirhettä (Supervised Clustering Error). Kirjoittajat havaitsivat, että Bayesian Principal Component Analysis(bPCA) ja Fuzzy K-Means(FKM) päihittävät muut menetelmät.

Amiri ja Jensen esittelivät puuttuvien tietojen imputointitekniikan käyttäen Fuzzy-Rough Methods. Kirjoitus auttaa lukijoitaan hahmottamaan sumeiden karkeiden joukkojen käsitteitä yhdessä sumean päättelyn eri versioiden ja niiden toteutuksen kanssa. Paperissa käytettiin ”KEEL”, avoimen lähdekoodin ohjelmistoa sekä kirjastoa, jota voidaan käyttää kehittyneiden tiedonlouhintatekniikoiden suorittamiseen tietokokonaisuuden yli. KEEL:ssä on toteutettu algoritmeja, kuten Fuzzy-Rough Nearest Neighbor (FRNN), joka on luokittelualgoritmi. Kirjoittajat tarkastelivat FRNN:ää ja ehdottivat kolmea puuttuvien arvojen imputointimenetelmää: Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS) ja Ordered Weighted Average Based Rough Sets (OWABRS). Lopulta FRNNI:n todettiin toimivan parhaiten kolmesta ehdotetusta algoritmista.

Tekijät vertasivat seitsemää numeeristen tietojen imputointimenetelmää. Algoritmit ovat keskiarvoimputointi, mediaani-imputointi, ennakoiva keskiarvon täsmäytys, kNN, Bayesin lineaarinen regressio (norm), ei-Bayesin lineaarinen regressio (norm.nob) ja satunnaisotos. He käyttivät viittä numeerista tietokokonaisuutta UCI:n koneoppimisen arkistosta ja havaitsivat, että kNN-imputointi päihitti kaikki muut menetelmät.

Tukivektorikone (SVM, Support Vector Machine) on suosittu luokittelualgoritmi, jota käytetään laajalti puuttuvien tietojen imputointiin . Merkitylle harjoitusnäytteelle SVM yrittää löytää optimaalisen erottelevan hypertason siten, että etäisyys hypertasosta lähimpiin datapisteisiin on maksimoitu . Mitä suurempi tämä etäisyys (eli ”marginaali”) on, sitä pienempi on luokittelijan yleistysvirhe. Luokittimesta käytetään nimitystä maksimimarginaaliluokitin. Hyperitasoa lähimpänä olevia datapisteitä kutsutaan tukivektoreiksi. SVM:ssä on otettu käyttöön useita kernelfunktioita luokittelun laskentakustannusten vähentämiseksi, kuten lineaarinen kernel, Laplacian kernel ja polynominen kernel.

Multiple imputation

Multiple imputation -menetelmät tuottavat useita arvoja yhden puuttuvan arvon imputoimiseksi käyttäen erilaisia simulaatiomalleja. Näissä menetelmissä otetaan käyttöön imputoitujen tietojen vaihtelevuus, jotta löydetään erilaisia uskottavia vastauksia. Moninkertaiset imputointimenetelmät ovat luonteeltaan monimutkaisia, mutta ne eivät kärsi harha-arvoista kuten yksittäinen imputointi. V. S. Buurenin ja K. Groothuis-Oudshoornin ehdottamaa MICE-algoritmia käytetään laajalti moninkertaiseen imputointiin. Seuraavaksi havainnollistetaan moni-imputointitekniikoiden toimintaperiaatetta esimerkin avulla.

Moni-imputoinnissa kukin puuttuva tieto korvataan m:llä arvolla, jotka on saatu m:stä iteraatiokerrasta (jossa m > 1 ja m on tavallisesti välillä 3-10). Oletetaan, että meillä on 1000 kansasta koostuva tietokokonaisuus (taulukossa 4), joka koskee heidän etäisyyttään tietystä kirjastosta ja kirjaston heille määräämän myöhästymissakon määrää. Tietoaineistossa on joitakin puuttuvia arvoja sakon määrä -sarakkeessa. Haluamme imputoida puuttuvat arvot käyttämällä moninkertaista imputointitekniikkaa, jossa m:n arvo on 10. Jokaisessa iteraatiossa suoritetaan regressio ”Etäisyys kirjastosta” ja ”Sakkojen määrä” välillä ottamalla 100 satunnaisarvoa. Ensimmäisessä imputoinnissa saadaan $x_{i}^{1}$ puuttuville arvoille (kohdemuuttujan x i:n i:nnen puuttuvan arvon korvaaminen ensimmäisellä regressiolla). Vastaavasti toisessa imputoinnissa otamme toiset 100 satunnaisarvoa ja suoritamme regression ”Etäisyys kirjastosta” ja ”Fine Amount” välillä. Sitten täytämme i:nnen puuttuvan arvon $x_{i}^{2}$ (kohdemuuttujan x i:nnen puuttuvan arvon korvaaminen toisella regressiolla). Suoritamme nämä vaiheet kymmenen kertaa, jotta saamme kymmenen imputointia kaikille kohdemuuttujan puuttuville arvoille. Kuvassa 1 on havainnollistettu kaksi imputointia kahden regressiosuoran avulla. Taulukko 5 esittää kolmen imputoinnin tulokset.

Taulukko 4 Esimerkki 1000 kirjaston hienosta aineistosta, jossa on puuttuvia arvoja

Table 5 Multiple imputation for table 4

Multivariate Imputation by Chained Equation (MICE) -paketti ”R:ssä” on suositun MICE-algoritmin toteutus. MICE olettaa, että tiedot puuttuvat satunnaisesti (MAR). Se olettaa, että puuttuvan muuttujan todennäköisyys riippuu havaituista tiedoista. MICE antaa yhden puuttuvan arvon tilalle useita arvoja luomalla sarjan regressiomalleja (tai muita sopivia malleja) sen ”method”-parametrin mukaan. MICE:ssä kutakin puuttuvaa muuttujaa käsitellään riippuvaisena muuttujana ja muita tietueen tietoja riippumattomana muuttujana. Prosessi on esitetty kuvassa 2.

Aluksi MICE ennustaa puuttuvat tiedot käyttämällä muiden muuttujien olemassa olevia tietoja. Sitten se korvaa puuttuvat arvot ennustettujen arvojen avulla ja luo tietokokonaisuuden, jota kutsutaan imputoiduksi tietokokonaisuudeksi. Iteroimalla se luo useita imputoituja tietokokonaisuuksia. Kukin tietokokonaisuus analysoidaan sen jälkeen tavanomaisilla tilastollisilla analyysitekniikoilla, ja usean analyysin tulokset toimitetaan. Kuten suositut yksittäiset imputointimenetelmät, esim, keskiarvo, luokkakeskiarvo, tuottavat todennäköisesti vääristyneen imputoinnin, moninkertaiset imputointimenetelmät voivat tuottaa parempia tuloksia.

R:n paketissa R:n paketissa MICE on yli kaksikymmentä metodia, jotka voidaan asettaa puuttuvan datan imputointia varten . Joitakin menetelmiä voidaan soveltaa vain binääriseen dataan, ja jotkut muut toimivat numeeriselle datalle. Muutamia menetelmiä voidaan käyttää kaikille attribuuttityypeille. Seuraavassa käsitellään valikoituja menetelmiä MICE-paketista.

Predictive mean matching

Predictive Mean Matching (PMM) on yleiskäyttöinen menetelmä puuttuvien tietojen imputointiin . PMM:n etuna on, että imputointi rajoittuu havaittuihin arvoihin. PMM voi säilyttää epälineaariset suhteet myös silloin, kun imputointimallin rakenteellinen osa on virheellinen. Olkoon k muuttuja, jolla on joitakin puuttuvia arvoja, ja muuttujaa l, jolla ei ole puuttuvia tietoja, käytetään imputoimaan k. Algoritmi toimii seuraavasti:

Ei puuttuvia tietoja varten tehdään k:n lineaarinen regressio l:n suhteen, mikä tuottaa b:n (joukon kertoimia).
Tehdään satunnaisarvonta b:n posteriorisesta ennustevastaavasta jakaumasta, mikä tuottaa uuden joukon kertoimia b*.
Käyttämällä b*:a tuotetaan ennustetut arvot k:lle kaikille tapauksille.
Tapauksille, joista puuttuu k, tunnistetaan joukko tapauksia, jotka sisälsivät havaitun k:n, jonka ennustetut arvot ovat lähellä ennustettua arvoa puuttuvien tietojen kanssa.
Näistä lähellä toisiaan olevista tapauksista valitaan satunnaisesti arvo puuttuvan arvon tilalle.
Vaiheet 2-5 toistetaan jokaiselle valmiille aineistolle.

Logistinen regressio

Logistinen regressio (LOGREG) , suosittu tilastollinen työkalu, jota käytetään analysoimaan tietokokonaisuutta lopputuloksen osalta, jossa on yksi tai useampi riippumaton muuttuja. Logistisessa regressiossa riippuvainen muuttuja on binäärinen. Esimerkkejä tällaisesta aineistosta voisivat olla KYLLÄ tai EI. Logistinen regressio tuottaa kertoimet, joilla ennustetaan tuotoksen ominaisuuden esiintymistodennäköisyyden logit-muunnos:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ missä y on tuotoksen ominaisuuden esiintymistodennäköisyys.

Polytominen logistinen regressio

Polytominen logistinen regressio (POLYREG) -menetelmällä määritellään, miten multinomiaalinen kohdemuuttuja Q riippuu joukosta riippumattomia muuttujia $P_1, P_2, … P_m$. Tämä on myös yleistetty lineaarinen malli, jossa satunnaiskomponentti olettaa, että riippuvan muuttujan jakauma on Polynominaalinen $(n,\pi ),$, jossa $\pi$ on vektori, jossa on ”onnistumisen” todennäköisyydet kullekin kategorialle.

Lineaarinen diskriminanttianalyysi

Lineaarinen diskriminanttianalyysi (LDA) laskee posteriorisia todennäköisyyksiä kaikille epätäydellisille tapauksille ja poimii sen jälkeen imputaatioita jälkikäteen posterioreista. Lineaarisen diskriminaatioanalyysin vaiheet on esitetty alla

Lasketaan d-ulotteiset keskivektorit aineistosta eri luokkien osalta
Lasketaan hajontamatriisit
Lasketaan ominaisvektorit (omavektorit ($e_1,e_2,…,e_d$) ja niihin liittyvät ominaisarvot ($\lambda _1$,$\lambda _2$,…,$\lambda _d$) hajontamatriiseille
Lajittele ominaisvektorit vähenevien ominaisarvojen mukaan ja valitse k ominaisvektoria, joilla on suurimmat ominaisarvot, muodostaaksesi matriisin W, jolla on d $\times$ k ulottuvuus
Käytä W:tä muuntamaan näytteet uuteen aliavaruuteen. Tämä voidaan tiivistää matriisikertoimella: Y = X $\times$ W

Luokittelu- ja regressiopuu

Luokittelu- ja regressiopuu (CART) tarkastelee ensin kaikkia selittäviä muuttujia ja määrittää, mikä yksittäisen selittävän muuttujan binäärinen jaottelu vähentää parhaiten vastemuuttujan poikkeamaa. CART:lla ja muilla päätöspuupohjaisilla algoritmeilla on seuraavat keskeiset elementit:

Säännöt datan jakamiseksi solmussa yhden muuttujan arvon perusteella
Pysäytyssäännöt, joilla päätetään päätehaara, jossa ei ole enää jakoa

Ennuste jokaisessa lehtisolmussa kohdemuuttujalle

Bayesin lineaarinen regressio

Bayesin lineaarinen regressio(BLR) on suosittu tilastollinen menetelmä. Se on lähestymistapa lineaariseen regressioon, jossa tilastollinen analyysi tehtiin Bayesin päättelyn yhteydessä. Tässä lineaarinen regressio muodostetaan piste-estimaattien sijaan todennäköisyysjakaumien avulla. Vastetta Y ei arvioida yksittäisenä arvona, vaan y:n oletetaan olevan poimittu todennäköisyysjakaumasta. BLR pyrkii selvittämään malliparametrien posteriorijakauman sen sijaan, että etsittäisiin yksittäinen paras arvo.

Amelia

Amelia on moninkertainen imputointimenetelmä, joka ei sisälly MICE-pakettiin, ja sille on saatavilla erillinen R-paketti. Imputoidakseen puuttuvat arvot tietylle tietokokonaisuudelle Amelia käyttää bootstrapping- ja expectation-maximization-algoritmia. Se luo useita imputaatioita useilla iteraatioilla . Tämä on hyödyllistä, koska myöhempiä imputaatioita voidaan verrata trendien löytämiseksi tai parempien tulosten löytämiseksi.

Yhteenveto

Tässä osiossa olemme tarkastelleet monia tutkimustöitä, jotka on luokiteltu laajasti yhteen imputaatioon ja moninkertaiseen imputaatioon perustuviin tekniikoihin. Yksittäiseen imputaatioon perustuvat lähestymistavat ovat laskennallisesti tehokkaita, mutta voivat kärsiä merkittävästi harhasta, koska ne eivät ota huomioon puuttuvien tietojen epävarmuutta. Sitä vastoin useisiin imputaatioihin perustuvissa lähestymistavoissa vältetään harhaa ja lisätään epävarmuutta, mutta niiden laskentakustannukset ovat korkeat. Tänä suuren datan aikakautena, jolloin valtavat tietomäärät ovat tyypillinen tapaus käytännön tietokokonaisuuksissa, useisiin imputointeihin perustuvia lähestymistapoja on haastavaa toteuttaa. Ottaen huomioon sekä yhteen että useaan imputointiin perustuvien lähestymistapojen rajoitukset ehdotamme lähestymistapaa, jossa yhdistyvät molempien lähestymistapojen hyvät puolet: yksinkertaisuus ja epävarmuus. Ehdotettu imputointitekniikka esitellään seuraavassa jaksossa.