W tym rozdziale przedstawiliśmy niezbędne tło i literaturę związaną z imputacją brakujących danych. Po pierwsze, krótko opisaliśmy rodzaje brakujących danych. Następnie przedstawiliśmy przegląd literatury w dwóch kategoriach: imputacja pojedyncza i imputacja wielokrotna.

Typowo brakujące dane mogą być trzech typów:

  • Missing Completely at Random (MCAR): Braki danych występują niezależnie zarówno od danych obserwowanych, jak i nieobserwowanych. Na przykład, w ankiecie studenckiej, jeśli otrzymamy 5% odpowiedzi brakujących losowo, jest to MCAR.

  • Missing at Random (MAR): Biorąc pod uwagę dane obserwowane, dane są brakujące niezależnie od danych nieobserwowanych. Na przykład, jeśli otrzymamy 10% brakujących odpowiedzi w ankiecie dla studentów płci męskiej i 5% brakujących odpowiedzi w ankiecie dla studentek, to jest to MAR.

  • Missing Not at Random (MNAR): Brakujące obserwacje są związane z wartościami samych nieobserwowanych danych. Na przykład, jeśli niższy CGPA studenta, tym wyższy wskaźnik braku odpowiedzi w ankiecie, wtedy jest to MNAR.

Pojedyncza imputacja

Techniki pojedynczej imputacji generują określoną wartość dla brakującej wartości rzeczywistej w zbiorze danych. Technika ta wymaga mniejszego kosztu obliczeniowego. Istnieje wiele rodzajów metod pojedynczej imputacji proponowanych przez badaczy. Ogólna procedura polega na wybraniu najwyższej możliwej odpowiedzi poprzez analizę innych odpowiedzi. Wartość ta może być uzyskana przez średnią, medianę, tryb z dostępnych wartości tej zmiennej. Inne podejścia, takie jak techniki oparte na uczeniu maszynowym, mogą być również wykorzystywane do pojedynczej imputacji. Przykład ilustrujący, jak działa pojedyncza imputacja jest przedstawiony poniżej.

W Tabeli 1, widzimy, że są dwie brakujące wartości w kolumnie „Dochód” dla numeru seryjnego 2, i 5, które są reprezentowane przez NA. Możemy uruchomić imputację średnią, aby imputować brakujące wartości. Tutaj, dla każdej brakującej wartości, tylko jedna wartość będzie imputowana przez algorytm. Teraz obliczymy średnią z dostępnych wartości kolumny „Dochód”.

$$begin{aligned} \{Mean}= (100+100+300+200+200)/5= 180 ^end{aligned}$$
Tabela 1 Zbiór danych z brakującymi wartościami

W tym momencie brakujące wartości szeregu 2 i 5 zostaną zastąpione średnią wartością tej kolumny, która wynosi 180. Tabela 2 przedstawia sytuację po imputacji brakujących wartości. Jeśli w kolumnie jest wiele brakujących danych i dane te są zastępowane przez tę samą wartość, wynik statystyczny, taki jak odchylenie standardowe, wariancja, spada. W pojedynczej imputacji, wartości imputowane są uważane za wartości rzeczywiste. Pojedyncza imputacja ignoruje fakt, że rzeczywista wartość nie może być przewidziana na pewno przez żadną metodę imputacji. Metody oparte na pojedynczej imputacji nie biorą pod uwagę niepewności wartości przypisanych. Zamiast tego, uznają one wartości imputowane jako wartości rzeczywiste w późniejszej analizie. Jednakże, wartości te mogą mieć błędy standardowe. To powoduje tendencyjność w wynikach .

Tabela 2 Imputacja brakujących wartości przy użyciu metody pojedynczej imputacji

W Tabeli 3, możemy zobaczyć, że istnieją pewne brakujące wartości w zbiorze danych. Jeśli użyjemy strategii pojedynczej imputacji, możemy wziąć „Tryb” (najczęstszą wartość) naszej docelowej kolumny „Powód śmierci”, aby wypełnić te brakujące wartości. W tym przykładzie, trybem jest „Rak”, więc wszystkie brakujące dane zostaną zastąpione przez „Rak”. Jednakże, jeśli weźmiemy pod uwagę kolumnę wieku, wtedy możemy zobaczyć, że brakujące wartości są dla starszych pacjentów, którzy są bardziej skłonni umrzeć w Covid-19. Tak więc, jeśli po prostu wypełnimy wszystkie brakujące wartości używając tylko pojedynczej imputacji, to może to nie rozwiązać prawidłowo niepewności zbioru danych i prawdopodobnie wyprodukować imputację stronniczości.

Tabela 3 Analiza stronniczości dla metody pojedynczej imputacji

Następujące są niektóre wybitne badania pojedynczej imputacji opartej na technikach imputacji brakujących danych. Grzymała-Busse i Grzymała-Busse przedstawili przegląd istniejących metod operowania na brakujących danych w podręczniku Handling Missing Attribute Values. Skategoryzowali oni istniejące metody na metody imputacji sekwencyjnej i równoległej oraz omówili popularne imputacje sekwencyjne, np. usuwanie przypadków, przypisywanie najczęstszej wartości, przypisywanie wartości z ograniczeniami pojęciowymi. W pracy omówiono również kilka metod imputacji równoległej, np. indukcję regułową, aproksymację dolną i górną, parowanie wartości atrybutów.

W pracy autorzy określili wpływ i ryzyko imputacji brakujących danych na dane medyczne oraz ich wpływ na dokładność klasyfikacji. Autorzy porównali trzy metody uśredniania imputacji danych: średnią globalną, średnią klastrową i średnią klasową. W pracy omówiono również znaczenie stosowania technik klasyfikacyjnych po imputacji za pomocą algorytmu.

Rahman przedstawił technikę imputacji brakujących danych medycznych opartą na podejściu uczenia maszynowego opartego na regułach. Autor zastosował tutaj algorytm Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA jest rozwinięciem algorytmu uczącego o nazwie RIPPER . FURIA produkuje kilka reguł if-then w zależności od zbioru danych. Reguły te mogą być później użyte do imputacji brakujących wartości. Autor porównał działanie FURIA z kNN, J48, SVM, i Mean imputation, do imputacji brakujących danych i stwierdził, że FURIA jest lepsza pod względem czułości. Dokładność FURIA nie zawsze była obiecująca niż jej konkurentów.

Schmitt P., Mandel J., and Guedj M. wybrali sześć najbardziej popularnych metod imputacji brakujących danych z wyszukiwarki Google i porównali te metody używając kilku ogólnodostępnych zbiorów danych, tj. iris, e.coli i rak piersi. Ocenili efektywność tych metod używając root mean square error (RMSE), Unsupervised Clustering Error oraz Supervised Clustering Error. Autorzy stwierdzili, że Bayesian Principal Component Analysis(bPCA) i Fuzzy K-Means(FKM) przewyższają pozostałe metody.

Amiri i Jensen przedstawili technikę imputacji brakujących danych przy użyciu Fuzzy-Rough Methods. Praca pomaga czytelnikom w zrozumieniu koncepcji zbiorów rozmytych wraz z różnymi wersjami wnioskowania rozmytego i ich implementacją. W artykule wykorzystano „KEEL”, oprogramowanie typu open-source, jak również bibliotekę, która może być używana do wykonywania zaawansowanych technik data-mining nad zbiorem danych. KEEL posiada implementację takich algorytmów jak Fuzzy-Rough Nearest Neighbor (FRNN), który jest algorytmem klasyfikacyjnym. Autorzy rozważali FRNN i zaproponowali trzy metody imputacji brakujących wartości – Fuzzy-Rough Nearest Neighbors Imputation(FRNNI), Vaguely Quantified Rough Sets(VQRS), oraz Ordered Weighted Average Based Rough Sets(OWABRS). Ostatecznie okazało się, że FRNNI działa najlepiej spośród trzech zaproponowanych algorytmów.

W artykule autorzy porównali siedem metod imputacji dla danych liczbowych. Algorytmy te to imputacja średniej, imputacja mediany, predykcyjne dopasowanie średniej, kNN, bayesowska regresja liniowa (norm), nie-bajesowska regresja liniowa (norm.nob) oraz próbka losowa. Użyli oni pięciu numerycznych zbiorów danych z repozytorium uczenia maszynowego UCI i odkryli, że imputacja kNN przewyższa wszystkie inne metody.

Support Vector Machine (SVM) jest popularnym algorytmem klasyfikacji, który jest szeroko stosowany do imputacji brakujących danych. Dla oznakowanej próbki treningowej SVM próbuje znaleźć optymalną hiperpłaszczyznę separującą, tak aby odległość od hiperpłaszczyzny do najbliższych punktów danych była maksymalna. Im większa jest ta odległość (tzn. „margines”), tym mniejszy jest błąd generalizacji klasyfikatora. Klasyfikator ten jest określany jako klasyfikator z maksymalnym marginesem. Punkty danych, które są najbliżej hiperpłaszczyzny są nazywane wektorami wsparcia. Kilka funkcji jądra zostało wprowadzonych w SVM w celu zmniejszenia kosztów obliczeniowych klasyfikacji, takich jak jądro liniowe, jądro Laplacian i jądro wielomianowe.

Wielokrotna imputacja

Metody wielokrotnej imputacji produkują wiele wartości dla imputacji pojedynczej brakującej wartości przy użyciu różnych modeli symulacyjnych. Metody te wprowadzają zmienność danych imputowanych w celu znalezienia zakresu prawdopodobnych odpowiedzi. Metody imputacji wielokrotnej są złożone z natury, ale nie cierpią z powodu wartości bias jak imputacja pojedyncza. Algorytm MICE, zaproponowany przez V. S. Buuren i K. Groothuis-Oudshoorn, jest szeroko stosowany do imputacji wielokrotnej. Zasada działania technik wielokrotnej imputacji jest zilustrowana na przykładzie.

W wielokrotnej imputacji, każde brakujące dane są zastępowane przez m wartości uzyskanych z m iteracji (gdzie m > 1 i m zwykle leży pomiędzy 3 a 10). Miejmy zbiór danych 1000 osób (pokazany w Tabeli 4) o ich odległości od konkretnej biblioteki i wysokości kary za spóźnienie, którą nałożyła na nich biblioteka. Zbiór danych posiada pewne brakujące wartości w kolumnie wysokość grzywny. Chcemy imputować brakujące wartości używając techniki imputacji wielokrotnej, gdzie wartość m wynosi 10. W każdej iteracji przeprowadzimy regresję pomiędzy „Odległość od biblioteki” i „Kwota grzywny” przyjmując 100 losowych wartości. W pierwszej imputacji otrzymamy \(x_{i}^{1}) dla brakujących wartości (zastąpienie i-tej brakującej wartości zmiennej docelowej x z pierwszą regresją). Podobnie, w drugiej imputacji, bierzemy kolejne 100 losowych wartości i uruchamiamy regresję pomiędzy „Odległość od biblioteki” i „Kwota grzywny”. Następnie wypełniamy i-tą brakującą wartość za pomocą \(x_{i}^{2}) (zastąpienie i-tej brakującej wartości zmiennej docelowej x z drugą regresją). Wykonamy te kroki dziesięć razy, aby uzyskać dziesięć imputacji dla wszystkich brakujących wartości zmiennej docelowej. Rysunek 1 jest ilustracją dwóch imputacji przy użyciu dwóch linii regresji. Tabela 5 przedstawia wyniki 3 imputacji.

Tabela 4 Przykład danych 1000 library fine z brakującymi wartościami
Fig. 1

Linie regresji z dwóch zestawów losowych 100 danych pobranych z 1000 danych library fine

Tabela 5 Multiple imputation for table 4

Multivariate Imputation by Chained Equation (MICE) pakiet w „R” jest implementacją popularnego algorytmu MICE. MICE zakłada, że dane są brakujące w sposób losowy (MAR). Udaje, że prawdopodobieństwo brakującej zmiennej zależy od obserwowanych danych. MICE dostarcza wiele wartości w miejsce jednej brakującej wartości poprzez tworzenie serii modeli regresji (lub innych odpowiednich), w zależności od parametru „metoda”. W MICE, każda brakująca zmienna jest traktowana jako zmienna zależna, a inne dane w rekordzie są traktowane jako zmienne niezależne. Proces ten jest przedstawiony na Rys. 2.

Na początku MICE przewiduje brakujące dane wykorzystując istniejące dane innych zmiennych. Następnie zastępuje brakujące wartości przy użyciu przewidywanych wartości i tworzy zbiór danych zwany imputowanym zbiorem danych. Poprzez iterację, tworzy wiele imputowanych zbiorów danych. Każdy zbiór danych jest następnie analizowany przy użyciu standardowych technik analizy statystycznej, a wyniki analizy wielokrotnej są dostarczane. Jako popularne metody pojedynczej imputacji, np, średnia, klasa-średnia, prawdopodobnie dadzą nieobiektywną imputację, metody imputacji wielokrotnej mogą zapewnić lepsze wyniki.

Rys. 2

Schemat blokowy MICE

W pakiecie MICE programu R istnieje ponad dwadzieścia metod, które można ustawić do imputacji brakujących danych. Niektóre metody mogą być stosowane tylko do danych binarnych, a inne działają dla danych numerycznych. Niewiele metod może być zastosowanych dla wszystkich typów atrybutów. Poniżej omówiono wybrane metody z pakietu MICE.

Predictive mean matching

Predictive Mean Matching (PMM) jest metodą ogólnego przeznaczenia do imputacji brakujących danych . Jedną z zalet PMM jest to, że imputacje są ograniczone do obserwowanych wartości. PMM może zachować nieliniowe relacje również wtedy, gdy strukturalna część modelu imputacyjnego jest niepoprawna. Niech, k jest zmienną z pewnymi brakującymi wartościami, a zmienna l, bez brakujących danych, jest używana do imputacji k. Algorytm działa w następujący sposób:

  1. Dla brakujących danych wykonywana jest regresja liniowa k na l, co daje b (zbiór współczynników).

  2. Wykonywane jest losowanie z rozkładu posterior predykcji b, co daje nowy zbiór współczynników b*.

  3. Przez użycie b*, przewidywane wartości dla k są generowane dla wszystkich przypadków.

  4. Dla przypadków z brakującymi k, identyfikowany jest zbiór przypadków, które zawierały obserwowane k, których przewidywane wartości są bliskie przewidywanej wartości z brakującymi danymi.

  5. Z tych bliskich przypadków wartość jest wybierana losowo, aby zastąpić brakującą wartość.

  6. Kroki od 2 do 5 są powtarzane dla każdego uzupełnionego zbioru danych.

Regresja logistyczna

Regresja logistyczna (LOGREG) , popularne narzędzie statystyczne stosowane do analizy zbioru danych pod kątem wyniku, w którym występuje jedna lub więcej zmiennych niezależnych. W regresji logistycznej, zmienna zależna jest binarna. Przykładem takich danych może być TAK lub NIE. Regresja logistyczna generuje współczynniki do przewidywania logitowej transformacji prawdopodobieństwa obecności cechy wyjścia:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k\) gdzie y jest prawdopodobieństwem obecności cechy wyjścia.

Regresja logistyczna wielomianowa

Metoda POLYREG (ang. Polytomous Logistic Regression) określa, w jaki sposób wielomianowa zmienna docelowa Q zależy od zbioru zmiennych niezależnych, P_1, P_2, … P_m. Jest to również uogólniony model liniowy, w którym składnik losowy zakłada, że rozkład zmiennej zależnej jest wielomianowy \((n,\pi ),\), gdzie \ jest wektorem z prawdopodobieństwami „sukcesu” dla każdej kategorii.

Liniowa analiza dyskryminacyjna

Liniowa analiza dyskryminacyjna (LDA) oblicza prawdopodobieństwa potomne dla wszystkich niekompletnych przypadków i wybiera imputacje, następnie, z ich wartości potomnych. Kroki dla liniowej analizy dyskryminacyjnej są podane poniżej

  1. Oblicz d-wymiarowe wektory średnie ze zbioru danych dla różnych klas

  2. Oblicz macierze rozrzutu

  3. Oblicz wektory własne (e_1,e_2,…….,e_d)) i związane z nimi wartości własne (\(e_1\),\(e_2\),…) dla macierzy rozproszenia

  4. Sortuj wektory własne według malejących wartości własnych i wybierz k wektorów własnych z najwyższymi wartościami własnymi, aby utworzyć macierz W o wymiarze d k

  5. Użyj W do transformacji próbek na nową podprzestrzeń. Można to podsumować przez mnożenie macierzy: Y = X ∗ W

Drzewo klasyfikacji i regresji

Drzewo klasyfikacji i regresji (CART) najpierw bada wszystkie zmienne objaśniające i określa, który binarny podział pojedynczej zmiennej objaśniającej najlepiej zmniejsza odchylenie w zmiennej odpowiedzi. CART i inne algorytmy oparte na drzewach decyzyjnych mają następujące kluczowe elementy:

  • Reguły podziału danych w węźle na podstawie wartości jednej zmiennej

  • Reguły zatrzymania decydujące o gałęzi końcowej, w której nie ma już więcej podziałów

  • .

  • Prognoza w każdym węźle liścia dla zmiennej docelowej

Bayesian linear regression

Bayesian Linear Regression(BLR) jest popularną metodą statystyczną. Jest to podejście do regresji liniowej, gdzie analiza statystyczna została podjęta w kontekście wnioskowania bayesowskiego. Tutaj regresja liniowa jest tworzona przy pomocy rozkładów prawdopodobieństwa zamiast oszacowań punktowych. Y, odpowiedź, nie jest oceniana jako pojedyncza wartość, ale zakłada się, że y jest wylosowane z rozkładu prawdopodobieństwa. BLR ma na celu poznanie rozkładu posterior dla parametrów modelu, a nie znalezienie jednej najlepszej wartości.

Amelia

Amelia jest metodą imputacji wielokrotnej, która nie jest zawarta w pakiecie MICE i dostępny jest dla niej oddzielny pakiet R. Do imputacji brakujących wartości dla określonego zbioru danych, Amelia używa algorytmu bootstrappingu i maksymalizacji oczekiwań. Tworzy on wiele imputacji przez wiele iteracji. Jest to pomocne, ponieważ późniejsze imputacje mogą być porównywane w celu odkrycia trendów lub znalezienia lepszych wyników.

Podsumowanie

W tej sekcji dokonaliśmy przeglądu wielu prac badawczych, szeroko skategoryzowanych jako techniki oparte na pojedynczej imputacji i wielokrotnej imputacji. Podejścia oparte na pojedynczej imputacji są wydajne obliczeniowo, ale mogą znacząco ucierpieć z powodu błędu systematycznego, ponieważ nie biorą pod uwagę niepewności brakujących danych. Przeciwnie, metody oparte na imputacji wielokrotnej unikają błędu systematycznego i dodają niepewność kosztem wysokich kosztów obliczeniowych. W obecnej erze big data, gdzie ogromna ilość danych jest typowym przypadkiem dla praktycznych zbiorów danych, metody oparte na wielokrotnej imputacji są trudne do wdrożenia. Biorąc pod uwagę ograniczenia zarówno pojedynczej jak i wielokrotnej imputacji, proponujemy podejście, które łączy w sobie zalety obu podejść: prostotę i niepewność. Proponowana przez nas technika imputacji jest przedstawiona w następnej sekcji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.