Lassen Sie uns sehen, wie die LDA als überwachte Klassifikationsmethode abgeleitet werden kann. Betrachten wir ein allgemeines Klassifizierungsproblem: Eine Zufallsvariable X gehört zu einer von K Klassen, mit einigen klassenspezifischen Wahrscheinlichkeitsdichten f(x). Eine Diskriminanzregel versucht, den Datenraum in K disjunkte Regionen zu unterteilen, die alle Klassen repräsentieren (man stelle sich die Felder auf einem Schachbrett vor). Mit diesen Regionen bedeutet eine Klassifizierung durch Diskriminanzanalyse einfach, dass wir x der Klasse j zuordnen, wenn x in der Region j liegt. Die Frage ist nun, woher wir wissen, in welche Region die Daten x fallen. Natürlich können wir zwei Zuordnungsregeln befolgen:
Maximum-Likelihood-Regel: Wenn wir annehmen, dass jede Klasse mit gleicher Wahrscheinlichkeit auftreten könnte, dann ordnen wir x der Klasse j zu, wenn
Bayes’sche Regel: Wenn wir die Klassenpriorwahrscheinlichkeiten π kennen, dann ordnen wir x der Klasse j zu, wenn
Lineare und quadratische Diskriminanzanalyse
Wenn wir annehmen, dass die Daten aus einer multivariaten Gauß-Verteilung stammen, d.d. h. die Verteilung von X kann durch ihren Mittelwert (μ) und ihre Kovarianz (Σ) charakterisiert werden, lassen sich explizite Formen der oben genannten Zuordnungsregeln erhalten. Nach der Bayes’schen Regel ordnen wir die Daten x der Klasse j zu, wenn sie die höchste Wahrscheinlichkeit unter allen K Klassen für i = 1,…,K: