Nesta secção, apresentamos o fundo e a literatura necessários relacionados com a imputação de dados ausentes. Em primeiro lugar, descrevemos brevemente os tipos de dados em falta. Depois apresentamos a revisão da literatura em duas categorias: imputação única e imputação múltipla.

Os dados tipicamente ausentes podem ser de três tipos:

  • Missing Completely at Random (MCAR): Os dados estão faltando independentemente dos dados observados e não observados. Por exemplo, num inquérito aos alunos, se obtivermos 5% de respostas em falta aleatoriamente, é MCAR.

  • Missing at Random (MAR): Dados os dados observados, os dados faltam independentemente dos dados não observados. Por exemplo, se obtivermos 10% de respostas ausentes para o inquérito aos alunos do sexo masculino e 5% ausentes para o inquérito às alunas, então é MAR.

  • Missing Not at Random (MNAR): As observações em falta estão relacionadas com os valores dos próprios dados não observados. Por exemplo, se menor o CGPA de um estudante, maior a taxa de resposta ausente, então é MNAR.

Atribuição única

Técnicas de imputação únicas geram um valor específico para um valor real ausente em um conjunto de dados. Esta técnica requer menos custos computacionais. Há muitos tipos de métodos de imputação única propostos pelos pesquisadores. O procedimento geral é escolher a maior resposta possível, analisando outras respostas. O valor pode ser obtido pela média, mediana, modo dos valores disponíveis dessa variável. Outras abordagens, tais como técnicas baseadas na aprendizagem de máquinas, também podem ser usadas para a imputação única. Um exemplo ilustrativo de como funciona a imputação única é apresentado abaixo.

Na Tabela 1, podemos ver que existem dois valores em falta na coluna “Renda” para o número de série 2, e 5, que são representados por NA. Podemos executar a imputação média para imputar os valores em falta. Aqui, para cada valor em falta, apenas um valor será imputado pelo algoritmo. Agora vamos calcular a média dos valores disponíveis da coluna “Rendimento”.

$$\begin{alinhado}. \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{alinhado}$$
Tabela 1 A com os valores em falta

Neste ponto, os valores em falta da série 2 e 5 serão substituídos pelo valor médio desta coluna, que é 180. A tabela 2 representa a situação após as imputações dos valores em falta. Se houver muitos dados em falta em uma coluna e esses dados forem substituídos pelo mesmo valor, o resultado estatístico como desvio padrão, a variância vai para baixo. Na imputação individual, os valores imputados são considerados como valores reais. A imputação individual ignora o fato de que o valor real não pode ser previsto com certeza por qualquer método de imputação. Os métodos baseados em imputação individual não consideram a incerteza dos valores imputados. Em vez disso, eles reconhecem os valores imputados como valores reais na análise subseqüente. Entretanto, esses valores podem ter erros standard. Isso causa um viés no resultado .

Tabela 2 Imputando valores ausentes usando o método de imputação única

Na Tabela 3, podemos ver que há alguns valores ausentes no conjunto de dados. Se usarmos uma estratégia de imputação única, podemos pegar “Mode” (valor mais freqüente) da nossa coluna “Death Reason” para preencher esses valores faltantes. Neste exemplo, o modo é “Câncer”, então todos os dados em falta serão substituídos por “Câncer”. No entanto, se considerarmos a coluna de idade, então podemos ver que os valores em falta são para os pacientes idosos que têm maior probabilidade de morrer no Covid-19. Assim, se apenas preenchermos todos os valores em falta usando apenas uma única imputação, pode não abordar corretamente a incerteza do conjunto de dados e provavelmente produzirá a imputação de viés.

Table 3 Análise de viés para o método de imputação única

As seguintes são algumas pesquisas proeminentes de técnicas de imputação de dados em falta baseadas em imputação única. Grzymala-Busse e Grzymala-Busse apresentaram uma revisão dos métodos existentes de tratamento de dados em falta no manual Handling Missing Attribute Values (Tratamento de Valores de Atributos em Falta). Eles categorizaram os métodos existentes em métodos de imputação seqüencial e métodos de imputação paralela e discutiram as imputações seqüenciais populares, por exemplo, eliminação de casos, atribuição do valor mais comum, atribuição de valores restrita ao conceito. Alguns métodos de imputação paralela também foram discutidos em seu trabalho, por exemplo, indução de regras, aproximação inferior e superior, emparelhamento de valores de atributos.

In , os autores relataram as influências e riscos da imputação de dados ausentes nos dados médicos e como eles impactam a precisão da classificação. Os autores compararam três métodos médios de imputação de dados: média global, média de clusters e média de classes. A importância de usar técnicas de classificação após a imputação com um algoritmo também é discutida no artigo.

Rahman apresentou uma técnica de imputação para dados de saúde faltantes baseada em uma abordagem de aprendizagem mecânica baseada em regras. Aqui, o autor utilizou um algoritmo, nomeadamente o Fuzzy Unordered Rule Induction Algorithm(FURIA). FURIA é um avanço de um algoritmo de aprendizagem chamado RIPPER . FURIA produz algumas regras if-then, dependendo do conjunto de dados. Mais tarde estas regras if-then podem ser usadas para imputar os valores em falta. O autor comparou o desempenho de FURIA com kNN, J48, SVM e imputação média, para imputar os dados em falta e achou que FURIA é melhor em termos de sensibilidade. A precisão de FURIA nem sempre foi promissora do que seus concorrentes.

Schmitt P., Mandel J., e Guedj M. selecionaram seis dos métodos mais populares de imputação de dados faltantes do mecanismo de busca do Google e compararam os métodos usando poucos conjuntos de dados de acesso aberto, ou seja, íris, e.coli, e câncer de mama . Eles avaliaram a eficácia desses métodos usando o erro quadrático médio (RMSE), o erro de agrupamento sem supervisão e o erro de agrupamento supervisionado. Os autores descobriram que Bayesian Análise de Componentes Principais(bPCA) e Fuzzy K-Means(FKM) superam os outros métodos.

Amiri e Jensen apresentaram uma técnica de imputação de dados ausentes usando os Métodos Fuzzy-Rough. O artigo ajuda seus leitores a compreender os conceitos de fuzzy-rough sets juntamente com diferentes versões de inferência fuzzy e sua implementação. O artigo utilizou “KEEL”, um software de código aberto, assim como uma biblioteca que pode ser usada para realizar técnicas avançadas de mineração de dados sobre um conjunto de dados. KEEL tem a implementação de algoritmos como o Fuzzy-Rough Nearest Neighbor (FRNN), que é um algoritmo de classificação. Os autores consideraram o FRNN e propuseram três métodos de imputação de valores em falta – Fuzzy-Rough Nearest Neighbors Imputation(FRNNI), Vaguely Quantified Rough Sets(VQRS), e Ordered Weighted Average Based Rough Sets(OWABRS). No final, o FRNNI teve o melhor desempenho entre os três algoritmos propostos.

In , os autores compararam sete métodos de imputação para dados numéricos. Os algoritmos são: imputação média, imputação mediana, correspondência da média preditiva, kNN, Regressão Linear Bayesiana (norm), Regressão Linear não Bayesiana (norm.nob), e amostra aleatória. Eles usaram cinco conjuntos de dados numéricos do repositório de aprendizagem da máquina UCI e descobriram que a imputação kNN superou todos os outros métodos.

Support Vector Machine (SVM) é um algoritmo de classificação popular que é amplamente utilizado para a imputação de dados ausentes . Para uma amostra de treinamento rotulada, SVM tenta encontrar um hiperplano separador ideal, de forma que a distância do hiperplano até os pontos de dados mais próximos seja maximizada . Quanto maior for essa distância (ou seja, “margem”), menor será o erro de generalização do classificador. O classificador é referido como o classificador da margem máxima. Os pontos de dados que estão mais próximos do hiperplano são chamados de vetores de suporte. Várias funções do kernel foram introduzidas no SVM para reduzir o custo computacional da classificação como o kernel Linear, kernel Laplaciano e kernel Polinomial.

Atribuição múltipla

Métodos de imputação múltipla produzem múltiplos valores para a imputação de um único valor faltante usando diferentes modelos de simulação. Estes métodos introduzem a variabilidade dos dados imputados para encontrar uma gama de respostas plausíveis. Os métodos de imputação múltipla são complexos por natureza, mas não sofrem de valores tendenciosos como a imputação única. O algoritmo MICE, proposto por V. S. Buuren e K. Groothuis-Oudshoorn, é amplamente utilizado para múltiplas imputações. O princípio de trabalho das técnicas de imputação múltipla é ilustrado a seguir com um exemplo.

Em imputação múltipla, cada dado em falta é substituído por m valores obtidos de m iterações (onde m > 1 e m normalmente se situa entre 3 a 10). Vamos ter um conjunto de dados de 1000 pessoas (mostrado na Tabela 4) sobre a sua distância de uma determinada biblioteca e a quantidade de multa que a biblioteca lhes impôs tardiamente. O conjunto de dados tem alguns valores em falta na coluna de valor da multa. Queremos imputar os valores em falta usando múltiplas técnicas de imputação onde o valor de m é 10. Em cada iteração, vamos executar uma regressão entre “Distância da biblioteca” e “Valor Fino” tomando 100 valores aleatórios. Na primeira imputação, obtemos \(x_{i}^{1}) para valores em falta (substituição do ith valor em falta da variável alvo x pela primeira regressão). Da mesma forma, na segunda imputação, pegamos outros 100 valores aleatórios e fazemos uma regressão entre “Distância da biblioteca” e “Valor Fino”. Em seguida, preenchemos o ith valor em falta com \(x_{i}^{2}) (substituição do ith valor em falta da variável alvo x pela segunda regressão). Vamos executar estes passos dez vezes para obter dez imputações para todos os valores em falta da variável alvo. A Figura 1 é uma ilustração de duas imputações usando duas linhas de regressão. A Tabela 5 representa os resultados de 3 imputações.

Tabela 4 Exemplo de 1000 dados finos de biblioteca com valores ausentes
Fig. 1

Linhas de regressão de dois conjuntos de 100 dados aleatórios retirados de 1000 dados finos da biblioteca

Tabela 5 Imputação múltipla para a tabela 4

Imputação multivariada por equação encadeada (MICE) pacote em “R” é a implementação do popular algoritmo MICE. MICE assume que os dados estão faltando ao acaso (MAR). Ele finge que a probabilidade de uma variável estar faltando depende dos dados observados. MICE fornece múltiplos valores no lugar de um valor ausente, criando uma série de modelos de regressão (ou outros adequados), dependendo do seu parâmetro ‘método’. Em MICE, cada variável em falta é tratada como uma variável dependente, e outros dados no registro são tratados como uma variável independente. O processo é apresentado na Fig. 2.

A princípio, MICE prevê os dados ausentes usando os dados existentes de outras variáveis. Em seguida, ele substitui os valores ausentes usando os valores previstos e cria um conjunto de dados chamado conjunto de dados imputados. Por iteração, ele cria múltiplos conjuntos de dados imputados. Cada conjunto de dados é então analisado usando técnicas de análise estatística padrão, e são fornecidos resultados de análises múltiplas. Como métodos populares de imputação única, por exemplo média, classe, são susceptíveis de produzir uma imputação tendenciosa, métodos de imputação múltipla poderiam fornecer melhores resultados.

Fig. 2

fluxogramaMICE

No pacote MICE de R, há mais de vinte métodos que podem ser definidos para a imputação de dados em falta . Alguns métodos podem ser aplicados apenas a dados binários, e alguns outros funcionam para dados numéricos. Poucos métodos podem ser usados para todos os tipos de atributos. Métodos selecionados do pacote MICE são discutidos abaixo.

Predictive mean matching

Predictive Mean Matching (PMM) é um método de propósito geral para a imputação de dados ausentes . Uma vantagem de PMM é que as imputações estão confinadas aos valores observados. PMM pode preservar relações não lineares também quando a parte estrutural do modelo de imputação estiver incorreta. Let, k é uma variável com alguns valores ausentes, e a variável l, sem dados ausentes, é usada para imputar k. O algoritmo funciona da seguinte forma:

  1. Para dados não omissos, é feita uma regressão linear de k sobre l, que produz b (um conjunto de coeficientes).

  2. É feito um sorteio a partir da distribuição preditiva posterior de b, que produz um novo conjunto de coeficientes b*.

  3. Ao utilizar b*, são gerados valores previstos para k para todos os casos.

    Para os casos com k em falta, é identificado um conjunto de casos que continham k observados cujos valores previstos estão próximos do valor previsto com dados em falta.

  4. Desses casos fechados, um valor é escolhido aleatoriamente para substituir o valor ausente.

  5. Os passos 2 a 5 são repetidos para cada conjunto de dados completado.

Regressão logística

Regressão logística (LOGREG) , uma ferramenta estatística popular usada para analisar um conjunto de dados para um resultado onde há uma ou mais variáveis independentes. Na regressão logística, a variável dependente é binária. Exemplos de tais dados podem ser SIM ou NÃO. A regressão logística gera os coeficientes para prever uma transformação logística da probabilidade da presença da característica de saída:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+…….+b_kX_k\) onde y é a probabilidade da presença da característica de saída.

Regressão logística polinomial

Método POLYREG (Polytomous Logistic Regression) define como a variável alvo multinomial Q depende de um conjunto de variáveis independentes, \(P_1, P_2, … P_m\). Este também é um modelo linear generalizado onde o componente aleatório assume que a distribuição da variável dependente é Polinominal \((n,\pi ),\pi) onde \pi) é um vetor com probabilidades de “sucesso” para cada categoria.

Análise linear discriminante

Análise linear discriminante(LDA) calcula probabilidades posteriores para todos os casos incompletos e escolhe imputações, posteriormente, a partir de seus posteriors. Os passos para análise discriminante linear são dados abaixo

  1. Calcular os vetores d-d-dimensionais médios do conjunto de dados para diferentes classes

  2. Calcular matrizes de dispersão

  3. Calcular vetores próprios (\(e_1,e_2,….,e_d\)) e os seus valores próprios associados (lambda _1\),lambda _2\),…para as matrizes de dispersão

  4. >

  5. Ordenar os auto-vectores de acordo com os auto-valores decrescentes e escolher k auto-vectores com os auto-valores mais elevados para formar uma matriz W com d dimensão k

  6. >

  7. >

    Utilizar W para transformar as amostras em novo subespaço. Isto pode ser resumido pela multiplicação da matriz: Y = X \(\times\) W

Árvore de classificação e regressão

Árvore de classificação e regressão (CART) examina primeiro todas as variáveis explicativas e determina qual a divisão binária de uma única variável explicativa que melhor reduz o desvio na variável de resposta. O CART e outros algoritmos baseados em árvores de decisão têm os seguintes elementos chave:

    Regras para divisão de dados em um nó com base no valor de uma variável

    Regras para decidir o ramo terminal sem mais divisão

  • Uma previsão em cada nó foliar para a variável alvo

Regressão linear Bayesiana

Regressão Linear Bayesiana(BLR) é um método estatístico popular. É uma abordagem à regressão linear, onde a análise estatística foi realizada dentro do contexto da inferência Bayesiana. Aqui a regressão linear é formada com a ajuda de distribuições de probabilidade ao invés de estimativas pontuais. Y, a resposta, não é avaliada como um valor único, mas y é assumido como sendo extraído de uma distribuição de probabilidade. BLR visa encontrar a distribuição posterior para os parâmetros do modelo ao invés de encontrar um único melhor valor.

Amélia

Amélia é um método de imputação múltipla que não está incluído no pacote MICE e um pacote R separado está disponível para ele. Para imputar valores ausentes para um conjunto de dados específico, Amelia usa um algoritmo de bootstrapping e de maximização de expectativas. Ele cria múltiplas imputações por múltiplas iterações . Isso é útil já que imputações posteriores podem ser comparadas para descobrir tendências ou para encontrar melhores resultados.

Sumário

Nesta seção, nós revisamos muitos trabalhos de pesquisa, amplamente categorizados como técnicas baseadas em imputação única e imputação múltipla. As abordagens baseadas em imputação única são computacionalmente eficientes, mas podem sofrer significativamente de viés, pois não consideram a incerteza dos dados em falta. Pelo contrário, as abordagens baseadas em múltiplas imputações evitam o viés e adicionam incerteza ao custo do alto custo computacional. Nesta era de grandes dados, onde um grande volume de dados é o caso típico dos conjuntos de dados práticos, as abordagens baseadas na imputação múltipla são um desafio a implementar. Considerando as limitações das abordagens baseadas em imputação única e múltipla, estamos a propor uma abordagem que combina a bondade de ambas as abordagens: simplicidade e incerteza. Nossa técnica de imputação proposta é apresentada na próxima seção.

Deixe uma resposta

O seu endereço de email não será publicado.