En esta sección, hemos presentado los antecedentes necesarios y la literatura relacionada con la imputación de datos perdidos. En primer lugar, hemos descrito brevemente los tipos de datos perdidos. A continuación, hemos presentado la revisión de la literatura en dos categorías: imputación simple e imputación múltiple.

Típicamente, los datos que faltan pueden ser de tres tipos:

  • Se pierden completamente al azar (MCAR): Los datos faltan independientemente de los datos observados y no observados. Por ejemplo, en una encuesta a estudiantes, si tenemos un 5% de respuestas perdidas al azar, es MCAR.

  • Falta al azar (MAR): Dados los datos observados, los datos faltan independientemente de los datos no observados. Por ejemplo, si tenemos un 10% de respuestas perdidas para la encuesta de los estudiantes masculinos y un 5% de respuestas perdidas para la encuesta de las estudiantes femeninas, entonces es MAR.

  • Observaciones no aleatorias (MNAR): Las observaciones faltantes están relacionadas con los valores de los datos no observados en sí mismos. Por ejemplo, si cuanto más bajo es el CGPA de un estudiante, más alta es la tasa de respuesta a la encuesta que falta, entonces es MNAR.

Imputación simple

Las técnicas de imputación simple generan un valor específico para un valor real que falta en un conjunto de datos. Esta técnica requiere un menor coste computacional. Hay muchos tipos de métodos de imputación única propuestos por los investigadores. El procedimiento general consiste en elegir la respuesta más alta posible mediante el análisis de otras respuestas. El valor puede obtenerse mediante la media, la mediana o la moda de los valores disponibles de esa variable. También pueden utilizarse otros enfoques, como las técnicas basadas en el aprendizaje automático, para la imputación única. A continuación se presenta un ejemplo ilustrativo de cómo funciona la imputación única.

En la Tabla 1, podemos ver que hay dos valores perdidos en la columna «Ingresos» para el número de serie 2, y 5 que están representados por NA. Podemos ejecutar la imputación media para imputar los valores que faltan. Aquí, para cada valor que falta, sólo un valor será imputado por el algoritmo. Ahora vamos a calcular la media de los valores disponibles de la columna «Ingresos».

$$\begin{aligned} \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$$
Tabla 1 Un conjunto de datos con valores perdidos

En este punto, los valores perdidos de las series 2 y 5 serán sustituidos por el valor medio de esta columna, que es 180. La tabla 2 representa la situación después de las imputaciones de los valores perdidos. Si hay muchos datos que faltan en una columna, y estos datos se sustituyen por el mismo valor, el resultado estadístico, como la desviación estándar, la varianza, disminuye. En la imputación simple, los valores imputados se consideran valores reales. La imputación simple ignora el hecho de que el valor real no puede predecirse con seguridad mediante ningún método de imputación. Los métodos basados en la imputación única no tienen en cuenta la incertidumbre de los valores imputados. En cambio, reconocen los valores imputados como valores reales en el análisis posterior. Sin embargo, estos valores pueden tener errores estándar. Esto provoca un sesgo en el resultado.

Tabla 2 Imputación de valores perdidos utilizando el método de imputación simple

En la Tabla 3, podemos ver que hay algunos valores perdidos en el conjunto de datos. Si utilizamos una estrategia de imputación simple, podemos tomar el «Modo» (valor más frecuente) de nuestra columna objetivo «Motivo de muerte» para rellenar estos valores perdidos. En este ejemplo, el modo es «Cáncer», por lo que todos los datos que faltan serán sustituidos por «Cáncer». Sin embargo, si tenemos en cuenta la columna de la edad, podemos ver que los valores que faltan corresponden a los pacientes mayores que tienen más probabilidades de morir en Covid-19. Por lo tanto, si simplemente rellenamos todos los valores que faltan utilizando una única imputación, es posible que no se aborde correctamente la incertidumbre del conjunto de datos y es probable que se produzca un sesgo en la imputación.

Tabla 3 Análisis del sesgo para el método de imputación única

Las siguientes son algunas investigaciones destacadas de técnicas de imputación de datos que faltan basadas en la imputación única. Grzymala-Busse y Grzymala-Busse presentaron una revisión de los métodos existentes de tratamiento de datos perdidos en el manual Handling Missing Attribute Values. Han clasificado los métodos existentes en métodos de imputación secuencial y métodos de imputación paralela y han discutido las imputaciones secuenciales más populares, por ejemplo, la eliminación de casos, la asignación del valor más común, la asignación de valores restringida por conceptos. También se discutieron algunos métodos de imputación paralela, por ejemplo, inducción de reglas, aproximación inferior y superior, emparejamiento de valores de atributos.

En , los autores expusieron las influencias y los riesgos de la imputación de datos perdidos en los datos médicos y cómo afectan a la precisión de la clasificación. Los autores compararon tres métodos de promedio de imputación de datos: promedio global, promedio de clúster y promedio de clase. La importancia de utilizar técnicas de clasificación después de la imputación con un algoritmo también se discute en el artículo.

Rahman presentó una técnica de imputación de datos sanitarios faltantes basada en un enfoque de aprendizaje automático basado en reglas. Aquí, el autor utilizó un algoritmo, a saber, el Algoritmo de Inducción de Reglas Difusas Desordenadas (FURIA). FURIA es un avance de un algoritmo de aprendizaje llamado RIPPER . FURIA produce unas cuantas reglas if-then en función del conjunto de datos. Posteriormente, estas reglas if-then pueden utilizarse para imputar los valores perdidos. El autor comparó el rendimiento de FURIA con kNN, J48, SVM, y la imputación media, para imputar los datos que faltan y encontró que FURIA es mejor en términos de sensibilidad. La precisión de FURIA no siempre fue más prometedora que la de sus competidores.

Schmitt P., Mandel J. y Guedj M. seleccionaron seis de los métodos más populares para la imputación de datos faltantes del motor de búsqueda de Google y compararon los métodos utilizando algunos conjuntos de datos de acceso abierto, es decir, iris, e.coli y cáncer de mama. Evaluaron la eficacia de estos métodos mediante el error cuadrático medio (RMSE), el error de agrupación no supervisado y el error de agrupación supervisado. Los autores encontraron que el Análisis Bayesiano de Componentes Principales (bPCA) y Fuzzy K-Means (FKM) superan a los otros métodos.

Amiri y Jensen presentaron una técnica de imputación de datos faltantes utilizando métodos Fuzzy-Rough. El artículo ayuda a sus lectores a comprender los conceptos de los conjuntos difusos-rugosos junto con diferentes versiones de inferencia difusa y su implementación. El artículo utiliza «KEEL», un software de código abierto, así como una biblioteca que puede utilizarse para realizar técnicas avanzadas de minería de datos sobre un conjunto de datos. KEEL cuenta con la implementación de algoritmos como el Fuzzy-Rough Nearest Neighbor (FRNN), que es un algoritmo de clasificación. Los autores consideraron FRNN y propusieron tres métodos de imputación de valores perdidos: Fuzzy-Rough Nearest Neighbors Imputation (FRNNI), Vaguely Quantified Rough Sets (VQRS) y Ordered Weighted Average Based Rough Sets (OWABRS). Al final, FRNNI resultó ser el mejor de los tres algoritmos propuestos.

En , los autores compararon siete métodos de imputación para datos numéricos. Los algoritmos son la imputación de la media, la imputación de la mediana, la coincidencia de la media predictiva, kNN, la regresión lineal bayesiana (norm), la regresión lineal no bayesiana (norm.nob) y la muestra aleatoria. Utilizaron cinco conjuntos de datos numéricos del repositorio de aprendizaje automático de la UCI y descubrieron que la imputación kNN superaba a todos los demás métodos.

La máquina de vectores de apoyo (SVM) es un popular algoritmo de clasificación que se utiliza ampliamente para la imputación de datos perdidos. Para una muestra de entrenamiento etiquetada, SVM trata de encontrar un hiperplano de separación óptimo tal que la distancia del hiperplano a los puntos de datos más cercanos se maximiza . Cuanto mayor sea esta distancia (es decir, el «margen»), menor será el error de generalización del clasificador. El clasificador se denomina clasificador de margen máximo. Los puntos de datos más cercanos al hiperplano se denominan vectores de soporte. Se han introducido varias funciones de kernel en la SVM para reducir el coste computacional de la clasificación, como el kernel lineal, el kernel laplaciano y el kernel polinómico.

Imputación múltiple

Los métodos de imputación múltiple producen múltiples valores para la imputación de un único valor perdido utilizando diferentes modelos de simulación. Estos métodos introducen la variabilidad de los datos imputados para encontrar un rango de respuestas plausibles. Los métodos de imputación múltiple son complejos por naturaleza, pero no sufren de valores de sesgo como la imputación simple. El algoritmo MICE, propuesto por V. S. Buuren y K. Groothuis-Oudshoorn, se utiliza ampliamente para la imputación múltiple. El principio de funcionamiento de las técnicas de imputación múltiple se ilustra a continuación con un ejemplo.

En la imputación múltiple, cada dato que falta se sustituye por m valores obtenidos de m iteraciones (donde m > 1 y m normalmente se encuentra entre 3 y 10). Tengamos un conjunto de datos de 1.000 personas (mostrados en la Tabla 4) sobre su distancia a una determinada biblioteca y la cantidad de multas de retraso que la biblioteca les ha impuesto. El conjunto de datos tiene algunos valores que faltan en la columna del importe de la multa. Queremos imputar los valores que faltan utilizando técnicas de imputación múltiple donde el valor de m es 10. En cada iteración, realizaremos una regresión entre «Distancia a la biblioteca» y «Importe de la multa» tomando 100 valores aleatorios. En la primera imputación, obtenemos \(x_{i}^{1}\) para los valores perdidos (sustitución del iésimo valor perdido de la variable objetivo x con la primera regresión). Del mismo modo, en la segunda imputación, tomamos otros 100 valores aleatorios y ejecutamos la regresión entre «Distancia de la biblioteca» y «Cantidad de multa». A continuación, rellenamos el i-ésimo valor que falta con \(x_{i}^{2}\) (sustitución del i-ésimo valor que falta de la variable objetivo x con la segunda regresión). Realizaremos estos pasos diez veces para obtener diez imputaciones para todos los valores perdidos de la variable objetivo. La Figura 1 es una ilustración de dos imputaciones utilizando dos líneas de regresión. La tabla 5 representa los resultados de 3 imputaciones.

Tabla 4 Ejemplo de datos finos de 1000 bibliotecas con valores perdidos
Fig. 1

Líneas de regresión de dos conjuntos de datos 100 aleatorios tomados de los datos finos de 1000 bibliotecas

Tabla 5 Imputación múltiple para la tabla 4

El paquete de Imputación Multivariante por Ecuación Encadenada (MICE) en «R» es la implementación del popular algoritmo MICE. MICE asume que los datos faltan al azar (MAR). Pretende que la probabilidad de una variable ausente depende de los datos observados. MICE proporciona múltiples valores en el lugar de un valor perdido creando una serie de modelos de regresión (u otros adecuados), dependiendo de su parámetro «método». En la MICE, cada variable ausente se trata como una variable dependiente, y los demás datos del registro se tratan como una variable independiente. El proceso se presenta en la Fig. 2.

Al principio, MICE predice los datos que faltan utilizando los datos existentes de otras variables. Luego reemplaza los valores faltantes usando los valores predichos y crea un conjunto de datos llamado conjunto de datos imputados. Por iteración, crea múltiples conjuntos de datos imputados. A continuación, se analiza cada conjunto de datos mediante técnicas de análisis estadístico estándar y se proporcionan los resultados del análisis múltiple. Como los métodos populares de imputación simple, por ejemplo media, media de clase, es probable que produzcan una imputación sesgada, los métodos de imputación múltiple podrían proporcionar mejores resultados.

Fig. 2

Diagrama de flujo de MICE

En el paquete MICE de R, hay más de veinte métodos que pueden establecerse para la imputación de datos perdidos . Algunos métodos sólo pueden aplicarse a datos binarios, y otros funcionan para datos numéricos. Pocos métodos pueden utilizarse para todos los tipos de atributos. A continuación se analizan algunos métodos seleccionados del paquete MICE.

Comparación de medias predictivas

La Comparación de medias predictivas (PMM) es un método de propósito general para la imputación de datos perdidos . Una ventaja de PMM es que las imputaciones se limitan a los valores observados. PMM puede preservar las relaciones no lineales también cuando la parte estructural del modelo de imputación es incorrecta. Sea k una variable con algunos valores perdidos, y la variable l, sin datos perdidos, se utiliza para imputar k. El algoritmo funciona de la siguiente manera:

  1. Para los datos no ausentes, se realiza una regresión lineal de k sobre l, que produce b (un conjunto de coeficientes).

  2. Se realiza una extracción aleatoria de la distribución predictiva posterior de b, que produce un nuevo conjunto de coeficientes b*.

  3. Al utilizar b*, se generan valores predichos para k para todos los casos.

  4. Para los casos con k faltante, se identifica un conjunto de casos que contenían k observados cuyos valores predichos son cercanos al valor predicho con datos faltantes.

  5. De esos casos cercanos, se elige un valor al azar para reemplazar el valor que falta.

  6. Los pasos 2 a 5 se repiten para cada conjunto de datos completado.

Regresión logística

Regresión logística (LOGREG) , una popular herramienta estadística utilizada para analizar un conjunto de datos para un resultado donde hay una o más variables independientes. En la regresión logística, la variable dependiente es binaria. Ejemplos de estos datos podrían ser SÍ o NO. La regresión logística genera los coeficientes para predecir una transformación logit de la probabilidad de presencia de la característica de salida:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k\) donde y es la probabilidad de presencia de la característica de salida.

Regresión logística politómica

El método de regresión logística politómica (POLYREG) define cómo la variable objetivo multinomial Q depende de un conjunto de variables independientes, \(P_1, P_2, … P_m\). Se trata también de un modelo lineal generalizado en el que el componente aleatorio supone que la distribución de la variable dependiente es polinómica \((n,\pi ),\) donde \(\pi\) es un vector con probabilidades de «éxito» para cada categoría.

Análisis discriminante lineal

El análisis discriminante lineal(LDA) calcula las probabilidades posteriores para todos los casos incompletos y elige las imputaciones, posteriormente, a partir de sus posteriors. Los pasos para el análisis discriminante lineal son los siguientes

  1. Calcular los vectores medios d-dimensionales del conjunto de datos para diferentes clases

  2. Calcular las matrices de dispersión

  3. Calcular los vectores propios (\(e_1,e_2,…,e_d\)) y sus valores propios asociados (\(\lambda _1\),\(\lambda _2\),…,\(\lambda _d\)) para las matrices de dispersión

  4. Ordenar los vectores propios según los valores propios decrecientes y elegir k vectores propios con los valores propios más altos para formar una matriz W con d \(\times\) k dimensión

  5. Utilizar W para transformar las muestras en un nuevo subespacio. Esto puede ser resumido por la multiplicación de la matriz: Y = X \(\times\) W

Árbol de clasificación y regresión

El árbol de clasificación y regresión (CART) examina primero todas las variables explicativas y determina qué división binaria de una sola variable explicativa reduce mejor la desviación en la variable de respuesta. CART y otros algoritmos basados en árboles de decisión tienen los siguientes elementos clave:

  • Reglas para dividir los datos en un nodo en función del valor de una variable

  • Reglas de parada para decidir la rama terminal sin más división

  • Una predicción en cada nodo hoja para la variable objetivo

Regresión lineal bayesiana

La regresión lineal bayesiana(BLR) es un método estadístico popular. Es un enfoque de la regresión lineal, donde el análisis estadístico se llevó a cabo en el contexto de la inferencia bayesiana. Aquí la regresión lineal se forma con la ayuda de distribuciones de probabilidad en lugar de estimaciones puntuales. Y, la respuesta, no se evalúa como un valor único, sino que se supone que y se extrae de una distribución de probabilidad. BLR tiene como objetivo encontrar la distribución posterior de los parámetros del modelo en lugar de encontrar un único valor óptimo.

Amelia

Amelia es un método de imputación múltiple que no está incluido en el paquete MICE y para el que existe un paquete R independiente. Para imputar los valores perdidos de un conjunto de datos específico, Amelia utiliza un algoritmo de bootstrapping y de maximización de expectativas. Crea múltiples imputaciones mediante múltiples iteraciones. Esto es útil ya que las imputaciones posteriores pueden ser comparadas para descubrir tendencias o encontrar mejores resultados.

Resumen

En esta sección, hemos revisado muchos trabajos de investigación, ampliamente categorizados como técnicas basadas en imputación simple e imputación múltiple. Los enfoques basados en la imputación única son eficientes desde el punto de vista computacional, pero pueden adolecer de un importante sesgo, ya que no tienen en cuenta la incertidumbre de los datos que faltan. Por el contrario, los enfoques basados en la imputación múltiple evitan el sesgo y añaden incertidumbre a costa de un alto coste computacional. En esta era de los grandes datos, en la que un volumen masivo de datos es el caso típico de los conjuntos de datos prácticos, los enfoques basados en la imputación múltiple son difíciles de aplicar. Teniendo en cuenta las limitaciones de los enfoques basados en la imputación simple y múltiple, proponemos un enfoque que combina las bondades de ambos enfoques: simplicidad e incertidumbre. Nuestra técnica de imputación propuesta se presenta en la siguiente sección.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.