V této části jsme představili nezbytné souvislosti a literaturu týkající se imputace chybějících dat. Nejprve jsme stručně popsali typy chybějících údajů. Poté jsme uvedli přehled literatury ve dvou kategoriích: jednoduchá imputace a vícenásobná imputace.

Typicky mohou chybějící údaje být tří typů:

  • Chybějící zcela náhodně (MCAR): Data chybí nezávisle na pozorovaných i nepozorovaných datech. Například ve studentském průzkumu, pokud nám náhodně chybí 5 % odpovědí, jedná se o MCAR.

  • Náhodně chybějící (MAR): Vzhledem k pozorovaným údajům chybí údaje nezávisle na nepozorovaných údajích. Pokud například dostaneme 10 % chybějících odpovědí u dotazníku studentů a 5 % chybějících odpovědí u dotazníku studentek, pak je to MAR.

  • Missing Not at Random (MNAR): Chybějící pozorování se týkají hodnot samotných nepozorovaných údajů. Například pokud je nižší CGPA studenta, tím vyšší je míra chybějících odpovědí v průzkumu, pak se jedná o MNAR.

Jednorázová imputace

Techniky jednorázové imputace generují konkrétní hodnotu pro chybějící skutečnou hodnotu v souboru dat. Tato technika vyžaduje menší výpočetní náklady. Výzkumníci navrhli mnoho typů metod jednoduché imputace. Obecný postup spočívá ve výběru nejvyšší možné odpovědi analýzou ostatních odpovědí. Hodnotu lze získat pomocí průměru, mediánu, modu z dostupných hodnot dané proměnné. Pro jednoduchou imputaci lze použít i jiné přístupy, například techniky založené na strojovém učení. Ilustrativní příklad fungování jednoduché imputace je uveden níže.

V tabulce 1 vidíme, že ve sloupci „Příjem“ jsou dvě chybějící hodnoty pro pořadové číslo 2, a 5, které jsou reprezentovány NA. K imputování chybějících hodnot můžeme spustit střední imputaci. Zde bude pro každou chybějící hodnotu algoritmem imputována pouze jedna hodnota. Nyní vypočítáme průměr dostupných hodnot sloupce „Příjem“.

$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$$
Tabulka 1 Soubor dat s chybějícími hodnotami

V tomto okamžiku budou chybějící hodnoty pořadí 2 a 5 nahrazeny střední hodnotou tohoto sloupce, která je 180. Tabulka 2 představuje situaci po imputacích chybějících hodnot. Pokud je ve sloupci hodně chybějících údajů a tyto údaje jsou nahrazeny stejnou hodnotou, statistický výsledek, jako je směrodatná odchylka, rozptyl, klesne. Při jednoduché imputaci se imputované hodnoty považují za skutečné hodnoty. Jednoduchá imputace ignoruje skutečnost, že skutečnou hodnotu nelze s jistotou předpovědět žádnou metodou imputace. Metody založené na jednoduché imputaci nezohledňují nejistotu imputovaných hodnot. Místo toho v následné analýze uznávají imputované hodnoty jako skutečné hodnoty. Tyto hodnoty však mohou mít standardní chyby. Ty způsobují zkreslení výsledku .

Tabulka 2 Imputace chybějících hodnot pomocí metody jednoduché imputace

V tabulce 3 vidíme, že v souboru dat jsou některé chybějící hodnoty. Pokud použijeme strategii jediné imputace, můžeme k doplnění těchto chybějících hodnot vzít „Mode“ (nejčastější hodnotu) našeho cílového sloupce „Důvod úmrtí“. V tomto příkladu je mode „Rakovina“, takže všechny chybějící údaje budou nahrazeny hodnotou „Rakovina“. Pokud však vezmeme v úvahu sloupec „věk“, pak vidíme, že chybějící hodnoty se týkají starších pacientů, u nichž je větší pravděpodobnost úmrtí v Covid-19. Pokud tedy pouze doplníme všechny chybějící hodnoty pomocí jediné imputace, nemusí to správně řešit nejistotu datového souboru a pravděpodobně dojde k zkreslené imputaci.

Tabulka 3 Analýza zkreslení pro metodu jediné imputace

Následují některé významné výzkumy technik imputace chybějících údajů na základě jediné imputace. Grzymala-Busse a Grzymala-Busse představili přehled existujících metod zpracování chybějících dat v příručce Handling Missing Attribute Values. Rozdělili existující metody na sekvenční imputace a metody paralelních imputací a diskutovali populární sekvenční imputace, např. vymazání případů, přiřazení nejčastější hodnoty, přiřazení hodnot s omezením na koncept. V jejich článku bylo také diskutováno několik paralelních imputačních metod, např. indukce pravidel, dolní a horní aproximace, párování hodnot atributů.

V , autoři uvedli vlivy a rizika imputace chybějících dat u lékařských dat a jejich dopad na přesnost klasifikace. Autoři porovnávali tři metody průměrování imputací dat: globální průměr, shlukový průměr a průměr třídy. V článku je také diskutován význam použití klasifikačních technik po imputaci pomocí algoritmu.

Rahman představil techniku imputace chybějících zdravotnických dat založenou na přístupu strojového učení založeného na pravidlech. Autor zde použil algoritmus, a to Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA je zdokonalením učícího se algoritmu s názvem RIPPER . FURIA vytváří několik pravidel if-then v závislosti na souboru dat. Později lze tato pravidla if-then použít k dopočítání chybějících hodnot. Autor porovnal výkonnost FURIA s kNN, J48, SVM a Mean imputation pro imputování chybějících dat a zjistil, že FURIA je lepší z hlediska citlivosti. Přesnost metody FURIA nebyla vždy slibnější než u jejích konkurentů.

Schmitt P., Mandel J. a Guedj M. vybrali z vyhledávače Google šest nejpopulárnějších metod pro imputaci chybějících dat a porovnali je na několika otevřených souborech dat, tj. duhovka, e.coli a rakovina prsu . Účinnost těchto metod hodnotili pomocí střední kvadratické chyby (RMSE), chyby neřízeného shlukování a chyby řízeného shlukování. Autoři zjistili, že Bayesovská analýza hlavních komponent(bPCA) a Fuzzy K-Means(FKM) překonávají ostatní metody.

Amiri a Jensen představili techniku imputace chybějících dat pomocí metod Fuzzy-Rough. Článek pomáhá svým čtenářům pochopit koncepty fuzzy-hrubých množin spolu s různými verzemi fuzzy inference a jejich implementací. V článku byl použit „KEEL“, software s otevřeným zdrojovým kódem, a také knihovna, kterou lze použít k provádění pokročilých technik dolování dat nad souborem dat . KEEL disponuje implementací algoritmů jako Fuzzy-Rough Nearest Neighbor (FRNN), což je klasifikační algoritmus. Autoři uvažovali o FRNN a navrhli tři metody imputace chybějících hodnot – Fuzzy-Rough Nearest Neighbors Imputation(FRNNI), Vaguely Quantified Rough Sets(VQRS) a Ordered Weighted Average Based Rough Sets(OWABRS). Nakonec bylo zjištěno, že FRNNI si vede nejlépe ze všech tří navržených algoritmů.

V článku , autoři porovnávali sedm metod imputace číselných dat. Jedná se o tyto algoritmy: imputace průměru, imputace mediánu, prediktivní přiřazení průměru, kNN, bayesovská lineární regrese (norm), nebayesovská lineární regrese (norm.nob) a náhodný vzorek. Použili pět číselných souborů dat z úložiště strojového učení UCI a zjistili, že imputace kNN překonává všechny ostatní metody.

Support Vector Machine (SVM) je populární klasifikační algoritmus, který se široce používá pro imputaci chybějících dat . Pro označený trénovací vzorek se SVM snaží najít optimální separační hyperplochu tak, aby vzdálenost od hyperplochy k nejbližším datovým bodům byla maximální . Čím větší je tato vzdálenost (tj. „marže“), tím nižší je generalizační chyba klasifikátoru. Klasifikátor se označuje jako klasifikátor s maximální marží. Datové body, které jsou nejblíže hyperploše, se nazývají podpůrné vektory. Pro snížení výpočetních nákladů na klasifikaci bylo v SVM zavedeno několik funkcí jádra, například lineární jádro, laplaciánské jádro a polynomiální jádro.

Vícenásobná imputace

Metody vícenásobné imputace vytvářejí více hodnot pro imputaci jedné chybějící hodnoty pomocí různých simulačních modelů. Tyto metody zavádějí variabilitu imputovaných dat za účelem nalezení rozsahu věrohodných odpovědí. Metody vícenásobné imputace jsou ve své podstatě složité, ale netrpí zkreslením hodnot jako jednoduchá imputace. Algoritmus MICE, který navrhli V. S. Buuren a K. Groothuis-Oudshoorn, je pro vícenásobnou imputaci široce používán . Princip fungování technik vícenásobné imputace je ilustrován dále na příkladu.

Při vícenásobné imputaci se každý chybějící údaj nahradí m hodnotami získanými z m iterací (kde m > 1 a m obvykle leží mezi 3 až 10). Mějme soubor dat o 1000 lidech (uvedený v tabulce 4) o jejich vzdálenosti od určité knihovny a výši pokuty za prodlení, kterou jim knihovna uložila. Soubor dat má některé chybějící hodnoty ve sloupci výše pokuty. Tyto chybějící hodnoty chceme imputovat pomocí techniky vícenásobné imputace, kde hodnota m je 10. V každé iteraci provedeme regresi mezi položkami „Vzdálenost od knihovny“ a „Výše pokuty“, přičemž vybereme 100 náhodných hodnot. Při první imputaci získáme \(x_{i}^{1}\) pro chybějící hodnoty (nahrazení i-té chybějící hodnoty cílové proměnné x první regresí). Podobně při druhé imputaci vezmeme dalších 100 náhodných hodnot a provedeme regresi mezi „Vzdálenost od knihovny“ a „Výše pokuty“. Poté doplníme i-tou chybějící hodnotu pomocí \(x_{i}^{2}\) (náhrada i-té chybějící hodnoty cílové proměnné x pomocí druhé regrese). Tyto kroky provedeme desetkrát, abychom získali deset imputací pro všechny chybějící hodnoty cílové proměnné. Obrázek 1 znázorňuje dvě imputace pomocí dvou regresních přímek. Tabulka 5 představuje výsledky tří imputací.

Tabulka 4 Příklad 1000 knihovních jemných dat s chybějícími hodnotami
Obr. 4. 1

Regresní přímky ze dvou sad náhodných 100 údajů převzatých z 1000 knihovních jemných dat

Tabulka 1. 5 Vícenásobná imputace pro tabulku 4

Balíček MICE (Multivariate Imputation by Chained Equation) v „R“ je implementací populárního algoritmu MICE. MICE předpokládá, že data chybí náhodně (MAR). Předpokládá, že pravděpodobnost chybějící proměnné závisí na pozorovaných datech. MICE poskytuje místo jedné chybějící hodnoty více hodnot vytvořením řady regresních (nebo jiných vhodných) modelů v závislosti na svém parametru „method“. V MICE je každá chybějící proměnná považována za závislou proměnnou a ostatní údaje v záznamu jsou považovány za nezávislou proměnnou. Postup je znázorněn na obr. 2.

Nejprve MICE předpovídá chybějící údaje pomocí existujících údajů ostatních proměnných. Poté nahradí chybějící hodnoty pomocí předpovězených hodnot a vytvoří soubor dat nazvaný imputovaný soubor dat. Iterací vytvoří více imputovaných datových sad. Každý soubor dat je poté analyzován pomocí standardních technik statistické analýzy a jsou poskytnuty výsledky vícenásobné analýzy. Stejně jako oblíbené metody jednoduché imputace, např, mean, class-mean, pravděpodobně vytvoří zkreslenou imputaci, mohou metody vícenásobné imputace poskytnout lepší výsledky.

Obrázek 2

Kompoziční schéma MICE

V balíčku MICE systému R existuje více než dvacet metod, které lze nastavit pro imputaci chybějících dat . Některé metody lze použít pouze pro binární data, jiné fungují pro numerická data. Několik metod lze použít pro všechny typy atributů. Níže jsou probrány vybrané metody z balíčku MICE.

Prediktivní porovnávání průměrů

Prediktivní porovnávání průměrů (PMM) je univerzální metoda pro imputaci chybějících dat . Jednou z výhod PMM je, že imputace jsou omezeny na pozorované hodnoty. PMM může zachovat nelineární vztahy i v případě, že strukturální část imputačního modelu je nesprávná. Nechť k je proměnná s některými chybějícími hodnotami a k imputaci k se použije proměnná l bez chybějících dat. Algoritmus pracuje následujícím způsobem:

  1. Pro nechybějící data se provede lineární regrese k na l, čímž se získá b (soubor koeficientů).

  2. Provede se náhodný výběr z posteriorního prediktivního rozdělení b, čímž se získá nový soubor koeficientů b*.

  3. Pomocí b* se vygenerují predikované hodnoty k pro všechny případy.

  4. Pro případy s chybějícím k se určí množina případů, které obsahovaly pozorované k, jejichž predikované hodnoty jsou blízké predikované hodnotě s chybějícími údaji.

  5. Z těchto blízkých případů se náhodně vybere hodnota, která nahradí chybějící hodnotu.

  6. Kroky 2 až 5 se opakují pro každý doplněný soubor dat.

Logistická regrese

Logistická regrese (LOGREG) , populární statistický nástroj používaný k analýze souboru dat pro výsledek, kde existuje jedna nebo více nezávislých proměnných. V logistické regresi je závislá proměnná binární. Příkladem takových dat může být ANO nebo NE. Logistická regrese generuje koeficienty pro předpověď logitové transformace pravděpodobnosti přítomnosti charakteristiky výstupu:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k\) kde y je pravděpodobnost přítomnosti charakteristiky výstupu.

Polytomická logistická regrese

Metoda POLYREG (Polytomous Logistic Regression) určuje, jak multinomická cílová proměnná Q závisí na souboru nezávislých proměnných \(P_1, P_2, … P_m\). Jedná se také o zobecněný lineární model, kde náhodná složka předpokládá, že rozdělení závislé proměnné je polynominální \((n,\pi ),\), kde \(\pi\) je vektor s pravděpodobnostmi „úspěchu“ pro každou kategorii.

Lineární diskriminační analýza

Lineární diskriminační analýza(LDA) počítá posteriorní pravděpodobnosti pro všechny neúplné případy a následně vybírá imputace z jejich posteriorů. Kroky pro lineární diskriminační analýzu jsou uvedeny níže

  1. Vypočítejte d-rozměrné střední vektory ze souboru dat pro různé třídy

  2. Vypočítejte matice rozptylu

  3. Vypočítejte vlastní vektory (\(e_1,e_2,….,e_d\) a k nim přiřazené vlastní hodnoty (\(\lambda _1\),\(\lambda _2\),….,\(\lambda _d\)) pro matice rozptylu

  4. Seřaďte vlastní vektory podle klesajících vlastních čísel a vyberte k vlastních vektorů s nejvyššími vlastními čísly a vytvořte matici W s dimenzí d \(\times\) k

  5. Použijte W k transformaci vzorků do nového podprostoru. To lze shrnout pomocí násobení matic: Y = X \(\čas\) W

Klasifikační a regresní strom

Klasifikační a regresní strom (CART) nejprve zkoumá všechny vysvětlující proměnné a určuje, které binární rozdělení jedné vysvětlující proměnné nejlépe snižuje odchylku v proměnné odpovědi. CART a další algoritmy založené na rozhodovacích stromech mají následující klíčové prvky:

  • Pravidla pro rozdělení dat v uzlu na základě hodnoty jedné proměnné

  • Zastavovací pravidla pro rozhodnutí o koncové větvi bez dalšího rozdělení

  • .

  • Předpověď v každém listovém uzlu pro cílovou proměnnou

Bayesova lineární regrese

Bayesova lineární regrese(BLR) je populární statistická metoda. Jedná se o přístup k lineární regresi, kdy byla statistická analýza provedena v rámci bayesovské inference. Lineární regrese je zde tvořena pomocí pravděpodobnostních rozdělení namísto bodových odhadů. Y, odpověď, se neposuzuje jako jediná hodnota, ale předpokládá se, že y je vybráno z pravděpodobnostního rozdělení. Cílem BLR je spíše zjistit posteriorní rozdělení parametrů modelu než najít jedinou nejlepší hodnotu.

Amelia

Amelia je metoda vícenásobné imputace, která není zahrnuta v balíčku MICE a je pro ni k dispozici samostatný balíček pro R. K imputování chybějících hodnot pro konkrétní soubor dat používá Amelia algoritmus bootstrappingu a maximalizace očekávání. Vytváří vícenásobné imputace pomocí několika iterací . To je užitečné, protože pozdější imputace lze porovnat a zjistit tak trendy nebo najít lepší výsledky.

Shrnutí

V této části jsme provedli přehled mnoha výzkumných prací, široce rozdělených na techniky založené na jednoduché imputaci a vícenásobné imputaci. Přístupy založené na jednoduché imputaci jsou výpočetně efektivní, ale mohou výrazně trpět zkreslením, protože nezohledňují nejistotu chybějících údajů. Naopak přístupy založené na vícenásobné imputaci se vyhýbají zkreslení a přidávají nejistotu za cenu vysokých výpočetních nákladů. V dnešní době velkých dat, kdy je pro praktické datové soubory typický obrovský objem dat, jsou přístupy založené na vícenásobné imputaci náročné na implementaci. Vzhledem k omezením přístupů založených na jednoduché i vícenásobné imputaci navrhujeme přístup, který kombinuje přednosti obou přístupů: jednoduchost a nejistotu. Námi navrhovaná technika imputace je představena v následující části.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.