Lineaarinen diskriminaatioanalyysi, selitetty

Luokittelu diskriminaatioanalyysin avulla
Lineaarinen ja kvadraattinen diskriminanttianalyysi
Kumpi on parempi? LDA vai QDA?
Kahdesta maailmasta paras? Kompromissi LDA:n & QDA:n
Laskenta LDA:lle

Luokittelu diskriminaatioanalyysin avulla

Katsotaan, miten LDA voidaan johtaa valvotuksi luokittelumenetelmäksi. Tarkastellaan yleistä luokitusongelmaa: Satunnaismuuttuja X kuuluu johonkin K:sta luokasta, jolla on joitakin luokkakohtaisia todennäköisyystiheyksiä f(x). Diskriminointisääntö pyrkii jakamaan data-avaruuden K erilliseen alueeseen, jotka edustavat kaikkia luokkia (kuvittele ruutuja shakkilaudalla). Näiden alueiden avulla luokittelu diskriminanttianalyysin avulla tarkoittaa yksinkertaisesti sitä, että luokittelemme x:n luokkaan j, jos x on alueella j. Kysymys kuuluukin, mistä tiedämme, mihin alueeseen data x kuuluu? Voimme luonnollisesti noudattaa kahta allokointisääntöä:

Maximum likelihood -sääntö: Jos oletamme, että kukin luokka voisi esiintyä yhtä suurella todennäköisyydellä, allokoi x luokkaan j, jos

Bayesin sääntö: Jos tiedämme luokkien ennakkotodennäköisyydet π, niin allokoidaan x luokkaan j, jos

Lineaarinen ja kvadraattinen diskriminanttianalyysi

Jos oletetaan datan tulevan monimuuttujaisesta gaussilaisesta jakaumasta, i.ts. X:n jakaumaa voidaan luonnehtia sen keskiarvon (μ) ja kovarianssin (Σ) avulla, saadaan edellä esitetyille jakosäännöille eksplisiittiset muodot. Bayesin säännön mukaisesti luokittelemme datan x luokkaan j, jos sillä on suurin todennäköisyys kaikista K luokasta i = 1,…,K:

Edellä mainittua funktiota kutsutaan nimellä diskriminanssifunktio. Huomaa, että tässä käytetään log-likelihoodia. Toisin sanoen diskriminanssifunktio kertoo, kuinka todennäköisesti data x kuuluu kuhunkin luokkaan. Päätöksentekoraja, joka erottaa mitkä tahansa kaksi luokkaa, k ja l, on siis niiden x:n joukko, joissa kahdella diskriminanttifunktiolla on sama arvo. Näin ollen mikä tahansa aineisto, joka osuu päätösrajalle, on yhtä todennäköisesti kahdesta luokasta (emme voineet päättää).

LDA syntyy tapauksessa, jossa oletamme, että K luokan välillä on yhtäläinen kovarianssi. Toisin sanoen sen sijaan, että jokaisella luokalla olisi yksi kovarianssimatriisi, kaikilla luokilla on sama kovarianssimatriisi. Tällöin saadaan seuraava diskriminanssifunktio:

Huomaa, että tämä on lineaarinen funktio x:ssä. Näin ollen myös minkä tahansa luokkaparin välinen päätöksentekorajapinta-ala on lineaarinen funktio x:ssä, mistä johtuen myös analyysimenetelmän nimitys on: lineaarinen diskriminanttilaskenta. Ilman yhtäläisen kovarianssin oletusta todennäköisyyden kvadraattinen termi ei kumoudu, joten tuloksena saatava diskriminanttifunktio on kvadraattinen funktio x:ssä:

Tässä tapauksessa päätöksentekoraja on kvadraattinen x:ssä. Tätä kutsutaan kvadraattiseksi diskriminanttianalyysiksi (QDA).

Kumpi on parempi? LDA vai QDA?

Todellisissa ongelmissa populaatioparametrit ovat yleensä tuntemattomia ja ne estimoidaan harjoitusaineistosta otoskeskiarvoina ja otoskovarianssimatriiseina. Vaikka QDA:ssa on joustavammat päätösrajat kuin LDA:ssa, estimoitavien parametrien määrä kasvaa myös nopeammin kuin LDA:ssa. LDA:n tapauksessa tarvitaan (p+1) parametria (2) diskriminantifunktion rakentamiseksi. Ongelmassa, jossa on K luokkaa, tarvitaan vain (K-1) tällaista diskriminaattista funktiota valitsemalla mielivaltaisesti yksi luokka perusluokaksi (vähentämällä perusluokan todennäköisyys kaikista muista luokista). Näin ollen LDA:n estimoitavien parametrien kokonaismäärä on (K-1)(p+1).

Toisaalta kullekin QDA:n diskriminanttifunktiolle (3) on estimoitava keskivektori, kovarianssimatriisi ja luokkapriori:
– Keskiarvo: p
– Kovarianssi: p(p+1)/2
– Luokkaprioriteetti: 1
Vastaavasti QDA:lle on estimoitava (K-1){p(p+3)/2+1} parametria.

Siten LDA:ssa estimoitavien parametrien määrä kasvaa lineaarisesti p:n myötä, kun taas QDA:ssa parametrien määrä kasvaa neliöllisesti p:n myötä. Odotamme, että QDA:lla on huonompi suorituskyky kuin LDA:lla, kun ongelman ulottuvuus on suuri.

Kahdesta maailmasta paras? Kompromissi LDA:n & QDA:n

Voidaan löytää kompromissi LDA:n ja QDA:n välille regularisoimalla yksittäisten luokkien kovarianssimatriisit. Regularisointi tarkoittaa, että asetamme estimoiduille parametreille tietyn rajoituksen. Tällöin edellytämme, että yksilöllinen kovarianssimatriisi kutistuu kohti yhteistä yhdistettyä kovarianssimatriisia rangaistusparametrin avulla, esim. α: