SICE: eine verbesserte Technik zur Imputation fehlender Daten | Journal of Big Data

In diesem Abschnitt haben wir den notwendigen Hintergrund und die Literatur zur Imputation fehlender Daten vorgestellt. Zunächst haben wir kurz die Arten von fehlenden Daten beschrieben. Dann haben wir die Literatur in zwei Kategorien unterteilt: einfache Imputation und mehrfache Imputation.

Typischerweise können fehlende Daten von drei Typen sein:

Missing Completely at Random (MCAR): Die Daten fehlen unabhängig von den beobachteten und unbeobachteten Daten. Wenn zum Beispiel bei einer Umfrage unter Studenten 5% der Antworten zufällig fehlen, handelt es sich um MCAR.
Missing at Random (MAR): Angesichts der beobachteten Daten fehlen die Daten unabhängig von den unbeobachteten Daten. Wenn beispielsweise 10 % der Antworten für die Umfrage unter männlichen Studenten und 5 % für die Umfrage unter weiblichen Studenten fehlen, dann handelt es sich um MAR.
Missing Not at Random (MNAR): Fehlende Beobachtungen beziehen sich auf die Werte der unbeobachteten Daten selbst. Wenn zum Beispiel der CGPA eines Studenten niedriger ist, desto höher ist die Rate der fehlenden Antworten, dann handelt es sich um MNAR.

Single Imputation
Multiple-Imputation
Predictive Mean Matching
Logistische Regression
Polytomose logistische Regression
Lineare Diskriminanzanalyse
Klassifizierungs- und Regressionsbaum
Bayes’sche lineare Regression
Amelia
Zusammenfassung

Single Imputation

Single Imputationstechniken erzeugen einen spezifischen Wert für einen fehlenden realen Wert in einem Datensatz. Diese Technik erfordert weniger Berechnungsaufwand. Es gibt viele Arten von Single-Imputationsverfahren, die von den Forschern vorgeschlagen wurden. Das allgemeine Verfahren besteht darin, die höchstmögliche Antwort zu ermitteln, indem andere Antworten analysiert werden. Der Wert kann durch Mittelwert, Median oder Modus der verfügbaren Werte dieser Variablen ermittelt werden. Andere Ansätze, wie auf maschinellem Lernen basierende Techniken, können ebenfalls für die einfache Imputation verwendet werden. Im Folgenden wird ein Beispiel für die Funktionsweise der einfachen Imputation vorgestellt.

In Tabelle 1 sehen wir, dass in der Spalte „Einkommen“ zwei Werte für die Seriennummer 2 und 5 fehlen, die durch NA dargestellt werden. Wir können eine Mittelwert-Imputation durchführen, um die fehlenden Werte zu imputieren. In diesem Fall wird für jeden fehlenden Wert nur ein Wert durch den Algorithmus imputiert. Nun berechnen wir den Mittelwert der verfügbaren Werte der Spalte „Einkommen“.

$$$\begin{aligned} \hbox {Mittelwert}= (100+100+300+200+200)/5= 180 \end{aligned}$$

Tabelle 1 Ein Datensatz mit fehlenden Werten

Zu diesem Zeitpunkt werden die fehlenden Werte der Reihe 2 und 5 durch den Mittelwert dieser Spalte ersetzt, der 180 beträgt. Tabelle 2 zeigt die Situation nach den Imputationen der fehlenden Werte. Wenn in einer Spalte viele Daten fehlen und diese Daten durch denselben Wert ersetzt werden, sinkt das statistische Ergebnis wie Standardabweichung und Varianz. Bei der einfachen Imputation werden die imputierten Werte als tatsächliche Werte betrachtet. Bei der einfachen Imputation wird die Tatsache ignoriert, dass der tatsächliche Wert durch keine Imputationsmethode mit Sicherheit vorhergesagt werden kann. Methoden, die auf einer einfachen Imputation basieren, berücksichtigen die Unsicherheit der imputierten Werte nicht. Stattdessen erkennen sie die imputierten Werte in der nachfolgenden Analyse als tatsächliche Werte an. Diese Werte können jedoch Standardfehler aufweisen. Dies führt zu einer Verzerrung des Ergebnisses.

Tabelle 2 Imputation fehlender Werte mit der Methode der einfachen Imputation

In Tabelle 3 können wir sehen, dass es einige fehlende Werte im Datensatz gibt. Wenn wir eine einfache Imputationsstrategie verwenden, können wir den „Modus“ (häufigster Wert) unserer Zielspalte „Todesursache“ nehmen, um diese fehlenden Werte zu füllen. In diesem Beispiel ist der Modus „Krebs“, so dass alle fehlenden Daten durch „Krebs“ ersetzt werden. Betrachtet man jedoch die Spalte „Alter“, so stellt man fest, dass die fehlenden Werte die älteren Patienten betreffen, die mit größerer Wahrscheinlichkeit in Covid-19 sterben. Wenn wir also alle fehlenden Werte nur mit einer einzigen Imputation auffüllen, kann es sein, dass die Unsicherheit des Datensatzes nicht richtig berücksichtigt wird und die Imputation zu Verzerrungen führt.

Tabelle 3 Analyse der Verzerrungen für die Methode der einfachen Imputation

Im Folgenden werden einige prominente Forschungsarbeiten zu Imputationsverfahren auf der Grundlage der einfachen Imputation von fehlenden Daten aufgeführt. Grzymala-Busse und Grzymala-Busse haben in ihrem Handbuch Handling Missing Attribute Values einen Überblick über bestehende Methoden zur Behandlung fehlender Daten gegeben. Sie haben die vorhandenen Methoden in sequentielle und parallele Imputationsmethoden unterteilt und die gängigen sequentiellen Imputationen diskutiert, z. B. Falllöschung, Zuweisung des häufigsten Wertes, konzeptbeschränkte Zuweisung von Werten. Einige parallele Imputationsmethoden wurden ebenfalls diskutiert, z. B. Regelinduktion, untere und obere Annäherung, Attributwertpaarung.

In haben die Autoren die Einflüsse und Risiken der Imputation fehlender Daten bei medizinischen Daten und deren Auswirkungen auf die Klassifikationsgenauigkeit dargelegt. Die Autoren verglichen drei Mittelungsmethoden für Datenimputationen: globaler Durchschnitt, Clusterdurchschnitt und Klassendurchschnitt. Die Bedeutung der Verwendung von Klassifizierungsverfahren nach der Imputation mit einem Algorithmus wird ebenfalls in dem Beitrag erörtert.

Rahman stellte eine Imputationstechnik für fehlende Daten im Gesundheitswesen vor, die auf einem regelbasierten Ansatz des maschinellen Lernens beruht. Dabei verwendete der Autor einen Algorithmus, nämlich den Fuzzy Unordered Rule Induction Algorithm (FURIA). FURIA ist eine Weiterentwicklung eines Lernalgorithmus namens RIPPER . FURIA erstellt einige Wenn-dann-Regeln in Abhängigkeit vom Datensatz. Später können diese Wenn-dann-Regeln zum Imputieren der fehlenden Werte verwendet werden. Der Autor verglich die Leistung von FURIA mit kNN, J48, SVM und Mean Imputation zur Imputation fehlender Daten und stellte fest, dass FURIA in Bezug auf die Sensitivität besser ist. Die Genauigkeit von FURIA war nicht immer vielversprechender als die seiner Konkurrenten.

Schmitt P., Mandel J. und Guedj M. wählten sechs der populärsten Methoden zur Imputation fehlender Daten aus der Google-Suchmaschine aus und verglichen die Methoden anhand einiger frei zugänglicher Datensätze, z. B. Iris, e.coli und Brustkrebs. Sie bewerteten die Effektivität dieser Methoden anhand des Root Mean Square Error (RMSE), des Unsupervised Clustering Error und des Supervised Clustering Error. Die Autoren fanden heraus, dass Bayesian Principal Component Analysis (bPCA) und Fuzzy K-Means (FKM) die anderen Methoden übertreffen.

Amiri und Jensen präsentierten eine Technik zur Imputation fehlender Daten unter Verwendung von Fuzzy-Rough Methods. Das Papier hilft seinen Lesern, die Konzepte der Fuzzy-Rough-Sets zusammen mit verschiedenen Versionen der Fuzzy-Inferenz und deren Implementierung zu verstehen. Das Papier verwendet „KEEL“, eine Open-Source-Software, sowie eine Bibliothek, die verwendet werden kann, um erweiterte Data-Mining-Techniken über einen Datensatz durchzuführen. KEEL bietet die Implementierung von Algorithmen wie Fuzzy-Rough Nearest Neighbor (FRNN), einem Klassifizierungsalgorithmus. Die Autoren betrachteten FRNN und schlugen drei Methoden zur Imputation fehlender Werte vor – Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS) und Ordered Weighted Average Based Rough Sets (OWABRS). Am Ende wurde festgestellt, dass FRNNI unter den drei vorgeschlagenen Algorithmen am besten abschneidet.

In verglichen die Autoren sieben Imputationsmethoden für numerische Daten. Bei den Algorithmen handelt es sich um Mittelwert-Imputation, Median-Imputation, prädiktives Mittelwert-Matching, kNN, Bayessche Lineare Regression (norm), Nicht-Bayessche Lineare Regression (norm.nob) und Zufallsstichprobe. Sie verwendeten fünf numerische Datensätze aus dem UCI-Repository für maschinelles Lernen und stellten fest, dass die kNN-Imputation alle anderen Methoden übertraf.

Support Vector Machine (SVM) ist ein beliebter Klassifizierungsalgorithmus, der häufig für die Imputation fehlender Daten verwendet wird. SVM versucht, für eine gelabelte Trainingsstichprobe eine optimale trennende Hyperebene zu finden, so dass der Abstand von der Hyperebene zu den nächstgelegenen Datenpunkten maximiert wird. Je größer dieser Abstand (d. h. die „Marge“) ist, desto geringer ist der Generalisierungsfehler des Klassifikators. Der Klassifikator wird als „maximum margin classifier“ bezeichnet. Die Datenpunkte, die der Hyperebene am nächsten liegen, werden als Support-Vektoren bezeichnet. In der SVM wurden mehrere Kernel-Funktionen eingeführt, um die Rechenkosten für die Klassifizierung zu reduzieren, z. B. der lineare Kernel, der Laplacian-Kernel und der Polynom-Kernel.

Multiple-Imputation

Multiple-Imputations-Methoden erzeugen mehrere Werte für die Imputation eines einzigen fehlenden Wertes unter Verwendung verschiedener Simulationsmodelle. Diese Methoden nutzen die Variabilität der imputierten Daten, um eine Reihe von plausiblen Antworten zu finden. Methoden der multiplen Imputation sind von Natur aus komplex, aber sie leiden nicht unter Verzerrungswerten wie die einfache Imputation. Der von V. S. Buuren und K. Groothuis-Oudshoorn vorgeschlagene MICE-Algorithmus wird häufig für die multiple Imputation verwendet. Das Funktionsprinzip der multiplen Imputationstechniken wird im Folgenden anhand eines Beispiels veranschaulicht.

Bei der multiplen Imputation werden alle fehlenden Daten durch m Werte aus m Iterationen ersetzt (wobei m > 1 und m normalerweise zwischen 3 und 10 liegt). Nehmen wir einen Datensatz von 1000 Personen (siehe Tabelle 4) über ihre Entfernung zu einer bestimmten Bibliothek und die Höhe der Geldstrafe, die die Bibliothek gegen sie verhängt hat. Der Datensatz enthält einige fehlende Werte in der Spalte für den Bußgeldbetrag. Wir wollen die fehlenden Werte mit Hilfe von multiplen Imputationstechniken ersetzen, wobei der Wert von m 10 beträgt. In jeder Iteration führen wir eine Regression zwischen „Entfernung zur Bibliothek“ und „Bußgeldbetrag“ durch, indem wir 100 Zufallswerte nehmen. Bei der ersten Imputation erhalten wir $x_{i}^{1}$ für fehlende Werte (Ersetzung des i-ten fehlenden Wertes der Zielvariablen x durch die erste Regression). In ähnlicher Weise nehmen wir bei der zweiten Imputation weitere 100 Zufallswerte und führen eine Regression zwischen „Entfernung zur Bibliothek“ und „Geldbetrag“ durch. Dann füllen wir den i-ten fehlenden Wert mit $x_{i}^{2}$ (Ersatz des i-ten fehlenden Wertes der Zielvariablen x mit der zweiten Regression). Diese Schritte werden zehnmal durchgeführt, um zehn Imputationen für alle fehlenden Werte der Zielvariablen zu erhalten. Abbildung 1 veranschaulicht zwei Imputationen mit zwei Regressionslinien. Tabelle 5 stellt die Ergebnisse von 3 Imputationen dar.

Tabelle 4 Beispiel für 1000 Bibliotheksfeindaten mit fehlenden Werten

Tabelle 5 Multiple Imputation für Tabelle 4

Multivariate Imputation by Chained Equation (MICE) in „R“ ist die Implementierung des beliebten MICE-Algorithmus. MICE geht davon aus, dass die Daten nach dem Zufallsprinzip fehlen (MAR). Es gibt vor, dass die Wahrscheinlichkeit einer fehlenden Variable von den beobachteten Daten abhängt. MICE liefert mehrere Werte anstelle eines fehlenden Wertes, indem es eine Reihe von Regressionsmodellen (oder anderen geeigneten Modellen) erstellt, abhängig von seinem Parameter „Methode“. In MICE wird jede fehlende Variable als abhängige Variable behandelt, und andere Daten im Datensatz werden als unabhängige Variable behandelt. Der Prozess ist in Abb. 2 dargestellt.

Zunächst sagt MICE fehlende Daten anhand der vorhandenen Daten anderer Variablen voraus. Dann werden die fehlenden Werte durch die vorhergesagten Werte ersetzt und ein Datensatz mit der Bezeichnung imputierter Datensatz erstellt. Durch Iteration werden mehrere unterstellte Datensätze erstellt. Jeder Datensatz wird dann mit standardmäßigen statistischen Analyseverfahren analysiert, und die Ergebnisse der Mehrfachanalyse werden bereitgestellt. Gängige Einzelimputationsmethoden, z. B., Mittelwert, Klassenmittelwert, wahrscheinlich zu einer verzerrten Imputation führen, könnten Methoden der Mehrfach-Imputation bessere Ergebnisse liefern.

Im MICE-Paket von R gibt es mehr als zwanzig Methoden, die für die Imputation fehlender Daten eingestellt werden können. Einige Methoden können nur auf binäre Daten angewandt werden, andere funktionieren auch bei numerischen Daten. Nur wenige Methoden können für alle Attributtypen verwendet werden. Ausgewählte Methoden aus dem MICE-Paket werden im Folgenden erörtert.

Predictive Mean Matching

Predictive Mean Matching (PMM) ist eine Allzweckmethode zur Imputation fehlender Daten. Ein Vorteil von PMM ist, dass sich die Imputationen auf die beobachteten Werte beschränken. PMM kann nicht-lineare Beziehungen auch dann erhalten, wenn der strukturelle Teil des Imputationsmodells fehlerhaft ist. Angenommen, k ist eine Variable mit einigen fehlenden Werten, und die Variable l, die keine fehlenden Daten enthält, wird zur Imputation von k verwendet:

Für nicht fehlende Daten wird eine lineare Regression von k auf l durchgeführt, die b (einen Satz von Koeffizienten) ergibt.
Eine zufällige Ziehung aus der posterioren prädiktiven Verteilung von b wird vorgenommen, die einen neuen Satz von Koeffizienten b* ergibt.
Durch die Verwendung von b* werden für alle Fälle Vorhersagewerte für k generiert.
Für die Fälle mit fehlenden k wird eine Gruppe von Fällen identifiziert, die beobachtete k enthielten, deren Vorhersagewerte nahe an den Vorhersagewerten mit fehlenden Daten liegen.
Aus diesen nahe beieinander liegenden Fällen wird ein Wert zufällig ausgewählt, um den fehlenden Wert zu ersetzen.
Die Schritte 2 bis 5 werden für jeden vollständigen Datensatz wiederholt.

Logistische Regression

Logistische Regression (LOGREG) , ein beliebtes statistisches Instrument zur Analyse eines Datensatzes für ein Ergebnis, bei dem es eine oder mehrere unabhängige Variablen gibt. Bei der logistischen Regression ist die abhängige Variable binär. Beispiele für solche Daten könnten JA oder NEIN sein. Die logistische Regression erzeugt die Koeffizienten zur Vorhersage einer Logit-Transformation der Wahrscheinlichkeit des Vorhandenseins des Merkmals der Ausgabe:

logit(y)= $b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k$ wobei y die Wahrscheinlichkeit des Vorhandenseins des Merkmals der Ausgabe ist.

Polytomose logistische Regression

Die Methode der polytomialen logistischen Regression (POLYREG) definiert, wie die multinomiale Zielvariable Q von einer Menge unabhängiger Variablen $P_1, P_2, … P_m$ abhängt. Dies ist ebenfalls ein verallgemeinertes lineares Modell, bei dem die Zufallskomponente davon ausgeht, dass die Verteilung der abhängigen Variablen polynominal $(n,\pi ),$ ist, wobei $\pi$ ein Vektor mit „Erfolgswahrscheinlichkeiten“ für jede Kategorie ist.

Lineare Diskriminanzanalyse

Lineare Diskriminanzanalyse (LDA) berechnet Posteriorwahrscheinlichkeiten für alle unvollständigen Fälle und wählt anschließend Imputationen aus deren Posterioren aus. Schritte für die lineare Diskriminanzanalyse:

Berechnen Sie die d-dimensionalen Mittelwertvektoren aus dem Datensatz für verschiedene Klassen
Berechnen Sie Streumatrizen
Berechnen Sie Eigenvektoren ($e_1,e_2,….,e_d$) und ihre zugehörigen Eigenwerte ($\lambda _1$,$\lambda _2$,…,$\lambda _d$) für die Streumatrizen
Sortieren Sie die Eigenvektoren nach den abnehmenden Eigenwerten und wählen Sie k Eigenvektoren mit den höchsten Eigenwerten aus, um eine Matrix W mit d $\times$ k Dimension
Verwenden Sie W, um die Proben in einen neuen Unterraum zu transformieren. Dies lässt sich durch die Matrixmultiplikation zusammenfassen: Y = X $\mal$ W

Klassifizierungs- und Regressionsbaum

Klassifizierungs- und Regressionsbaum (CART) untersucht zunächst alle erklärenden Variablen und bestimmt, welche binäre Aufteilung einer einzelnen erklärenden Variable die Abweichung in der Antwortvariablen am besten reduziert. CART und andere auf Entscheidungsbäumen basierende Algorithmen haben die folgenden Schlüsselelemente:

Regeln zur Aufteilung der Daten an einem Knoten auf der Grundlage des Wertes einer Variablen
Stopp-Regeln, um den Endzweig zu bestimmen, an dem keine Aufteilung mehr stattfindet
Eine Vorhersage in jedem Blattknoten für die Zielvariable

Bayes’sche lineare Regression

Bayes’sche lineare Regression(BLR) ist eine beliebte statistische Methode. Sie ist ein Ansatz zur linearen Regression, bei dem die statistische Analyse im Rahmen der Bayes’schen Inferenz durchgeführt wurde. Hier wird die lineare Regression mit Hilfe von Wahrscheinlichkeitsverteilungen anstelle von Punktschätzungen gebildet. Y, die Antwort, wird nicht als Einzelwert bewertet, sondern es wird angenommen, dass y aus einer Wahrscheinlichkeitsverteilung gezogen wird. BLR zielt darauf ab, die Posterior-Verteilung für die Modellparameter zu ermitteln, anstatt einen einzelnen besten Wert zu finden.

Amelia

Amelia ist eine Methode zur multiplen Imputation, die nicht im MICE-Paket enthalten ist und für die ein separates R-Paket zur Verfügung steht. Um fehlende Werte für einen bestimmten Datensatz zu imputieren, verwendet Amelia einen Bootstrapping- und Erwartungsmaximierungsalgorithmus. Er erstellt mehrere Imputationen durch mehrere Iterationen. Dies ist hilfreich, da spätere Imputationen verglichen werden können, um Trends zu entdecken oder bessere Ergebnisse zu finden.

Zusammenfassung

In diesem Abschnitt haben wir viele Forschungsarbeiten untersucht, die grob in einfache und mehrfache Imputationstechniken unterteilt sind. Auf einfacher Imputation basierende Ansätze sind rechnerisch effizient, können aber erheblich unter Verzerrungen leiden, da sie die Unsicherheit der fehlenden Daten nicht berücksichtigen. Im Gegensatz dazu vermeiden die auf Mehrfach-Imputation basierenden Ansätze Verzerrungen und fügen Unsicherheiten hinzu, was jedoch mit hohen Rechenkosten verbunden ist. Im Zeitalter von Big Data, wo ein riesiges Datenvolumen der typische Fall für praktische Datensätze ist, ist die Implementierung von Ansätzen, die auf mehrfacher Imputation basieren, eine Herausforderung. In Anbetracht der Einschränkungen sowohl der einfachen als auch der mehrfachen Imputation schlagen wir einen Ansatz vor, der die Vorzüge beider Ansätze vereint: Einfachheit und Unsicherheit. Die von uns vorgeschlagene Imputationstechnik wird im nächsten Abschnitt vorgestellt.