本節では,欠損データインピュテーションに必要な背景や関連文献を紹介した。 まず,欠損データの種類を簡単に説明した。

典型的な欠損データは3つのタイプがある:

  • Missing Completely at Random (MCAR): 観測データと非観測データの両方が独立して欠落しているデータです。 例えば、学生のアンケートで、ランダムに5%の回答が欠落した場合、MCAR.

  • Missing at Random (MAR)である。 観測されたデータがある場合、観測されないデータとは無関係にデータが欠落する。 例えば、男子学生の調査で10%、女子学生の調査で5%の回答が欠落していれば、MAR.

  • Missing Not at Random (MNAR) となる。 欠測は、観測されないデータの値そのものに関係する。 例えば、学生のCGPAが低いほど、調査回答の欠損率が高い場合、それはMNARです。

Single imputation

単一置換技術はデータセットの欠損実値のために特定の値を生成します。 この技術は、より少ない計算コストを必要とする。 研究者によって提案された多くのタイプの単一置換法がある。 一般的な手順は、他の回答を分析することによって、可能な限り高い回答を選択することである。 その値は,その変数の利用可能な値の平均値,中央値,最頻値によって得られるかもしれない. 機械学習ベースの技術など、他のアプローチも単一置換に使用されるかもしれません。 表1において、シリアル番号2、5の「収入」列に2つの欠損値があり、これはNAで表されていることがわかる。 この欠損値を埋め込むために、平均置換を実行することができます。 ここで、各欠損値について、1つの値のみがアルゴリズムによってインプットされます。 ここで、「収入」列の利用可能な値の平均を計算する。

$$begin{aligned} \hbox {Mean}= (100+100+300+200+200)/5= 180 \end{aligned}$
Table 1 A dataset with missing values

この時点で、シリアル2と5の欠損値はこの列の平均値180に置き換えられます。 表2は、欠損値のインピュテーションを行った後の状況を表しています。 ある列に多くの欠損値があり、これらのデータを同じ値で置き換えると、標準偏差、分散などの統計結果は下がります。 シングルインピュテーションでは、インピュテーションされた値が実際の値とみなされる。 単一置換は、どのような置換方法でも実際の値を確実に予測することができないという事実を無視する。 シングルインピュテーションに基づく方法は、インピュテーションされた値の不確実性を考慮しない。 その代わり、その後の分析において、帰属された値を実際の値として認識する。 しかし、これらの値には標準誤差が含まれることがある。

表2 単一置換法による欠損値の入力

表3では、データセットにいくつかの欠損値があることがわかる。 もし、単一置換法を使用する場合、これらの欠損値を埋めるために、対象列「死亡理由」の「モード」(最頻値)を取ることができる。 この例では、モードは “Cancer “なので、すべての欠損データは “Cancer “で置き換えられることになります。 しかし、年齢列を考慮すると、欠損値はCovid-19で死亡する可能性が高い高齢者の患者であることがわかります。

Table 3 Single imputation methodのバイアス分析

Single imputationに基づく欠損データインピュテーション手法の著名な研究として以下のようなものがあります。 Grzymala-BusseとGrzymala-BusseはハンドブックHandling Missing Attribute Valuesの中で、既存の欠損データ処理法のレビューを発表している。 彼らは既存の方法を逐次的なインピュテーションと並列的なインピュテーションに分類し、一般的な逐次的インピュテーション、例えば、ケース削除、最も一般的な値の割り当て、コンセプト制限された値の割り当てについて議論しました。 また,並列インピュテーションの手法として,ルール誘導,下部・上部近似,属性値のペアリングなどについても議論した. また、データインピュテーションの平均化方法として、グローバル平均、クラスタ平均、クラス平均の3つを比較した。 また、アルゴリズムによるインピュテーションの後に分類技術を使用することの重要性についても述べられている。

Rahmanは、ルールベースの機械学習アプローチに基づく医療データの欠損のためのインピュテーション技術を発表した。 ここで著者は、Fuzzy Unordered Rule Induction Algorithm(FURIA)というアルゴリズムを使用した。 FURIAは、RIPPERと呼ばれる学習アルゴリズムを発展させたものである。 FURIAはデータセットに依存したいくつかのif-thenルールを生成する。 FURIAはデータセットに依存したif-thenルールを生成し、そのルールを用いて欠損値をインプットすることができる。 著者は、FURIAとkNN、J48、SVM、Mean imputationの性能を比較し、FURIAが感度の点で優れていることを明らかにしました。 また、Schmitt P., Mandel J., Guedj M.は、Google検索エンジンから最も人気のある6つの欠損データインピュテーション手法を選択し、いくつかのオープンアクセスデータセット(虹彩、大腸菌、乳がん)を用いて比較検討した。 彼らは、二乗平均誤差(RMSE)、教師なしクラスタリングエラー、教師ありクラスタリングエラーを用いて、これらの手法の有効性を評価した。 その結果、ベイズ主成分分析(bPCA)とファジーK-Means(FKM)が他の手法より優れていることが分かった。

Amiri and Jensenはファジーラフ法を用いた欠損データインピュテーション手法を発表した。 この論文は、ファジー推論の異なるバージョンとその実装とともに、ファジー-ラフ集合の概念を読者が把握するのに役立つ。 この論文では、オープンソースソフトウェアである「KEEL」と、データセットに対して高度なデータマイニング技術を実行するために使用できるライブラリが使用されています。 KEELは、分類アルゴリズムであるFuzzy-Rough Nearest Neighbor(FRNN)のようなアルゴリズムの実装を備えている。 著者らはFRNNを検討し、3つの欠損値帰属法-Fuzzy-Rough Nearest Neighbor Imputation(FRNNI), Vaguely Quantified Rough Sets(VQRS), Ordered Weighted Average Based Rough Sets(OWABRS)を提案している。 その結果、FRNNIが3つの提案アルゴリズムの中で最も性能が良いことが分かった。

In , the authors compared seven imputation methods for numeric data. アルゴリズムは、mean imputation, median imputation, predictive mean matching, kNN, Bayesian Linear Regression (norm), nonBayesian Linear Regression (norm.nob), random sampleである。 彼らはUCIの機械学習リポジトリから5つの数値データセットを使用し、kNN imputationが他のすべての方法を上回ることを発見した。 ラベル付けされた学習サンプルに対して,SVMは超平面から最も近いデータ点までの距離が最大になるような最適な分離超平面を見つけようとする. この距離(つまり,「マージン」)が大きいほど,分類器の汎化誤差は小さくなります. この分類器は,最大マージン分類器と呼ばれます. 超平面に最も近いデータ点は,サポートベクトルと呼ばれます. SVMには線形カーネル、ラプラシアンカーネル、多項式カーネルなど分類の計算量を減らすためのカーネル関数がいくつか導入されている。

Multiple imputation

多重代入法は異なるシミュレーションモデルを用いて一つの欠損値に対して複数の値を代入する方法である。 これらの方法は,もっともらしい回答の範囲を見つけるために,インピュテーションされたデータのばらつきを導入する。 多重代入法はその性質上複雑であるが、単一代入のような偏った値に悩まされることはない。 V. S. BuurenとK. Groothuis-Oudshoornによって提案されたMICEアルゴリズムは、多重代入に広く使用されている。 次にMultiple imputationの動作原理を例として説明する。

Multiple imputationでは、各欠損データをm回(m > 1、mは通常3から10の間)反復して得られたm個の値で置き換える。 ある図書館からの距離とその図書館が課した延滞金の額に関する1000人のデータセット(表4)があるとする。 このデータセットには、罰金額の列に欠損値がある。 我々は、m値を10とした多重代入法を用いて、欠損値を代入したい。 各反復において、100個のランダムな値を取って、”図書館からの距離 “と “罰金額 “の間の回帰を実行します。 1回目のインピュテーションでは、欠損値に対して \(x_{i}^{1}}) が得られます(対象変数xのi番目の欠損値を1回目の回帰で置き換える)。 同様に、2回目のインピュテーションでは、さらに100個のランダムな値を取り、”Distance from library “と “Fine Amount “の間で回帰を実行する。 そして、Ⅰ番目の欠損値に対して \(x_{i}^{2}}) を充填します(2回目の回帰による対象変数xのⅠ番目の欠損値の置換)。 これらのステップを10回実行し、ターゲット変数のすべての欠損値について10回のインピュテーションを得ます。 図1は,2つの回帰線を使用する2つのインピュテーションの説明である. 表5は3回のインピュテーションの結果である。

表4 欠損値のある1000ライブラリファインデータの例
Fig. 1

1000 library fine data

から取った2セットのランダム100データからの回帰線。 5 表4の多重インピュテーション

Multivariate Imputation by Chained Equation (MICE) package in “R” is implemented of popular MICE algorithm. MICEは、データが無作為に欠落している(MAR)と仮定しています。 欠損変数の確率は観測データに依存すると仮定しています。 MICEは、その「方法」パラメータによって、一連の回帰(または他の適切な)モデルを作成することで、1つの欠損値の代わりに複数の値を提供します。 MICEでは、各欠測値が従属変数として扱われ、レコード内の他のデータは独立変数として扱われます。 そのプロセスを図2に示します。

まず、MICEは他の変数の既存のデータを使用して、欠損データを予測します。 そして、予測された値を用いて欠損値を置き換え、インプットされたデータセットと呼ばれるデータセットを作成する。 これを繰り返すことで、複数のインプットされたデータセットが作成されます。 そして、それぞれのデータセットを標準的な統計解析手法で解析し、複数の解析結果を提供する。 一般的なシングルインピュテーションの手法として、例えば, 図2

MICE flowchart

RのMICEパッケージでは、欠損データの代入に設定できる20以上のメソッドが存在する。 バイナリデータにのみ適用できる手法もあれば、数値データにも適用できる手法もあります。 また,すべての属性に適用できるメソッドも少ない.

Predictive Mean Matching

Predictive Mean Matching (PMM) は欠損データ代入のための汎用的な方法である. PMMの利点は、インピュテーションが観測値に限定されることである。 PMMは、移植モデルの構造的な部分が正しくない場合でも、非線形関係を保持することができる。 k は欠損値を持つ変数で,欠損値のない変数 l が k をインピュテーションするために使用されるとする.

  1. 欠損のないデータについて、kのlへの線形回帰が行われ、b(係数のセット)が生成される。

  2. bの事後予測分布からランダムにドローし、新しい係数のセットb*が生成される。

  3. b*を用いると、すべてのケースについてkの予測値が生成される。

  4. kが欠損しているケースについては、その予測値が欠損データによる予測値に近い観測kを含むケース群が同定される。

  5. これらの近いケースから、値が欠損値を置き換えるためにランダムに選択される。

  6. ステップ2から5は、すべての完了したデータセットについて繰り返されます。

Logistic regression

Logistic Regression (LOGREG) , 1つ以上の独立変数がある結果についてデータセットを分析するために使われる一般的な統計ツールです。 ロジスティック回帰では、従属変数がバイナリです。 そのようなデータの例としては、YES または NO があります。 ロジスティック回帰は、出力の特性の存在の確率のロジット変換を予測する係数を生成する:

logit(y)= \(b_0+b_1X_1+b_2X_2+b_3X_3+….+b_kX_kanthus) where y is the probability of the presence of the characteristic of output.ロジスティック回帰は、出力特性の存在の確率を予測するための係数を生成する。

Polytomous logistic regression

Polytomous Logistic Regression (POLYREG) 法は、多項目の対象変数Qが独立変数の集合、 \(P_1, P_2, … P_mathy) にどう依存するかを規定する。 また、これは一般化線形モデルであり、ランダム成分は従属変数の分布がPolynominal \((n,\pi ),\), where \(\pi) is a vector with probabilities of “success” for each category.

Linear discriminant analysis

Linear Discriminant Analysis(LDA) はすべての不完全事例に対して事後確率を求め、その後、事後確率から打刻を選択する。 線形判別分析の手順は以下の通りです。

  1. データセットから異なるクラスのd次元平均ベクトルを計算する

  2. scatter matricesを計算する

  3. eigenvectors (\(e_1,e_2,…))compute eigenvections (e_1,e_2,…….,e_d))とそれに付随する固有値(˶‾᷄ -̫̫ ‾᷅˵ )を計算します。 これは行列の掛け算でまとめることができる。 Y = X \times) W

Classification and regression tree

Classification and Regression Tree (CART) はまずすべての説明変数を調べ、一つの説明変数のどの二項分割が応答変数の偏差を最も小さくするかを判断する。 CARTや他の決定木ベースのアルゴリズムには、次のような重要な要素がある。

  • 1つの変数の値に基づいてノードでデータを分割するルール

  • これ以上分割しない状態で終端分岐を決定するストップルール

    対象変数に対する各リーフノードでの予測値

ベイズ線形回帰

ベイズ線形回帰(BLR)は有名な統計手法である。 これは線形回帰へのアプローチであり、ベイズ推論の文脈の中で統計解析が行われたものである。 ここでは、点推定値ではなく、確率分布の助けを借りて線形回帰が形成される。 応答であるYは単一の値として評価されるのではなく、yは確率分布から描かれると仮定される。 BLRは単一の最適値を見つけるのではなく、モデルパラメータの事後分布を見つけることを目的としている。

Amelia

Amelia は多重代入法で、MICEパッケージには含まれておらず、別のRパッケージが提供されている。 特定のデータセットの欠損値をインプットするために、Ameliaはブートストラップと期待値最大化アルゴリズムを使用します。 これは、複数の反復によって複数のインピュテーションを作成します。 これは、後のインピュテーションを比較して、傾向を発見したり、より良い結果を見つけることができるので便利です。

まとめ

このセクションでは、シングルインピュテーションとマルチインピュテーションベースの技術に大別される多くの研究成果をレビューしました。 シングルインピュテーションに基づく手法は計算効率が良いが,欠損データの不確実性を考慮していないため,著しく偏りに悩まされる可能性がある. 逆に、多重代入に基づくアプローチは、高い計算コストと引き換えに、バイアスを回避し、不確実性を追加する。 大量のデータが実用的なデータセットの典型的なケースであるこのビッグデータの時代において、多重代入に基づくアプローチは実装が困難である。 単一置換と複数置換の両方のアプローチの限界を考慮し、我々は単純さと不確実性という両方の良さを併せ持つアプローチを提唱している。 我々の提案するインピュテーション技術は次のセクションで紹介される

コメントを残す

メールアドレスが公開されることはありません。