Az aktiváló függvények és típusai

A függvény és a deriváltja is monoton
A kimenet nulla “centrikus”
A optimalizálás könnyebb
A Tanh függvény (f'(x)) deriváltja /Differenciálja 0 és 1 között lesz.

Hátrányok:

A Tanh függvény deriváltja szenved a “Vanishing gradient and Exploding gradient problem”-tól.
Lassú konvergencia- mivel számításigényes.(Az exponenciális matematikai függvény használatának oka )

“A Tanh függvényt előnyben részesítjük a szigmoid függvénnyel szemben, mivel nulla központú és a gradiensek nem korlátozódnak egy bizonyos irányba való mozgásra”

3. ReLu aktiválási függvény (ReLu – Rectified Linear Units):

ReLu funkció(kék) , ReLu derivátuma (zöld)

A ReLu a nemlineáris aktiválási függvény, amely népszerűvé vált a mesterséges intelligenciában. A ReLu függvényt úgy is ábrázolják, hogy f(x) = max(0,x).

A függvény és a deriváltja is monoton.
A ReLU függvény használatának fő előnye- Nem aktiválja az összes neuront egyszerre.
Számítási szempontból hatékony
A Tanh függvény (f'(x)) deriváltja /Differenciálja 1 lesz, ha f(x) > 0 egyébként 0.
Konvertálódik nagyon gyorsan

Hátrányok:

A ReLu függvény nem “nulla-centrikus”.emiatt a gradiens frissítések túl messzire mennek különböző irányokba. 0 < kimenet < 1, és ez megnehezíti az optimalizálást.
A halott neuron a legnagyobb probléma.ez annak köszönhető, hogy nem differenciálható nullánál.

“Problem of Dying neuron/Dead neuron : Mivel a ReLu f'(x) deriváltja nem 0 a neuron pozitív értékeire (f'(x)=1 for x ≥ 0), a ReLu nem telítődik (exploid) és nincs halott neuron (Vanishing neuron). Telítődés és eltűnő gradiens csak negatív értékek esetén fordul elő, amelyek a ReLu-nak adva 0-ra változnak- Ezt nevezzük a haldokló neuron problémájának.”

4. Szivárgó ReLu aktivációs függvény:

A szivárgó ReLU-függvény nem más, mint a ReLU-függvény továbbfejlesztett változata az “állandó meredekség” bevezetésével”

Leaky ReLu aktiválás (kék) , Derivatív(organe)

Leaky ReLU a haldokló neuron/halott neuron problémájának kezelésére definiált.
A haldokló neuron/halott neuron problémáját egy kis meredekség bevezetésével kezeljük, amelynek negatív értékei α-val skálázva lehetővé teszik a megfelelő neuronok “életben maradását”.
A függvény és a deriváltja is monoton
Megengedi a negatív értéket a visszaterjedés során
Ez hatékony és könnyen kiszámítható.
A Leaky deriváltja 1, ha f(x) > 0, és 0 és 1 között mozog, ha f(x) < 0.

Hátrányok:

A Leaky ReLU nem ad konzisztens előrejelzést negatív bemeneti értékekre.

5. ELU (Exponenciális lineáris egységek) aktiválási függvény:

ELU is javasolt a haldokló neuron problémájának megoldására.
Nincs Halott ReLU probléma
Nulla központú

Hátrányok:

számításigényes.
A Leaky ReLU-hoz hasonlóan, bár elméletileg jobb, mint a ReLU, a gyakorlatban jelenleg nincs jó bizonyíték arra, hogy az ELU mindig jobb, mint a ReLU.
f(x) csak akkor monoton, ha alfa nagyobb vagy egyenlő 0-val.
f'(x) ELU deriváltja csak akkor monoton, ha alfa 0 és 1 között van.
Lassú konvergencia az exponenciális függvény miatt.

6. P ReLu (Parametrikus ReLU) Aktiválási függvény:

A szivárgó ReLU gondolata még tovább bővíthető.
Ahelyett, hogy x-et megszorozzuk egy konstans kifejezéssel, megszorozhatjuk egy “hiperparaméterrel (a-tanítható paraméter)”, ami úgy tűnik, jobban működik a leaky ReLU. A szivárgó ReLU ezen kiterjesztését Parametrikus ReLU-nak nevezik.
A paraméter α általában egy 0 és 1 közötti szám, és általában viszonylag kicsi.
A betanítható paraméter miatt enyhe előnye van a szivárgó Relu-val szemben.
Kezeli a haldokló neuronok problémáját.

Hátrányok:

Szerint a szivárgó Relu.
f(x) monoton, ha a> vagy =0 és f'(x) monoton, ha a =1

7. Swish (A Self-Gated) Activation Function: (Sigmoid Linear Unit)

A Google Brain Team egy új aktivációs függvényt javasolt, melynek neve Swish, ami egyszerűen f(x) = x – sigmoid(x).
Kísérleteik azt mutatják, hogy a Swish általában jobban működik, mint a ReLU a mélyebb modelleken, számos kihívást jelentő adathalmazon keresztül.
A Swish függvény görbéje sima, és a függvény minden ponton differenciálható. Ez hasznos a modelloptimalizálás során, és ez tekinthető az egyik oknak, amiért a Swish jobban teljesít a ReLU-nál.
A Swish függvény “nem monoton”. Ez azt jelenti, hogy a függvény értéke akkor is csökkenhet, ha a bemeneti értékek növekednek.
A függvény fent korlátlan és lent korlátos.

“A Swish hajlamos arra, hogy folyamatosan megegyezzen a ReLu-val vagy túlformálja azt”

Megjegyezzük, hogy a Swish függvény kimenete akkor is csökkenhet, ha a bemeneti értékek növekednek. Ez egy érdekes és swish-specifikus tulajdonság.(A nem monoton jelleg miatt)

f(x)=2x*sigmoid(béta*x)

Ha úgy gondoljuk, hogy a béta=0 a Swish egyszerű változata, ami egy tanulható paraméter, akkor a sigmoid rész mindig 1/2 és f (x) lineáris. Ha viszont a béta nagyon nagy érték, akkor a szigmoid közel kétszámjegyű függvénnyé válik (0, ha x<0,1, ha x>0). Így f (x) konvergál a ReLU függvényhez. Ezért a standard Swish függvényt választjuk béta = 1 értékkel. Ily módon lágy interpoláció (a változó értékkészleteket a megadott tartományban és a kívánt pontossággal rendelkező függvényhez társítva) biztosított. Kiváló! Megoldást találtunk a gradiensek eltűnésének problémájára.

8.Softplus

Aktivitásfüggvény,elsőrendű derivált,másodrendű derivált

A softplus függvény hasonló a ReLU függvényhez, de viszonylag simább.A Softplus vagy SmoothRelu függvénye f(x) = ln(1+exp x).

A Softplus függvény deriváltja f'(x) logisztikus függvény (1/(1+exp x)).

A függvény értéke (0, + inf) között mozog.mind f(x), mind f'(x) monoton.

9.Softmax vagy normalizált exponenciális függvény:

A “softmax” függvény szintén egyfajta szigmoid függvény, de nagyon hasznos a többosztályos osztályozási problémák kezelésére.

“A softmax több szigmoid függvény kombinációjaként írható le.”

“A Softmax függvény visszaadja annak valószínűségét, hogy egy adatpont minden egyes osztályba tartozik.”

A többosztályos problémához való hálózatépítés során a kimeneti rétegben annyi neuron lenne, ahány osztály van a célban.”

Ha például három osztályunk van, akkor a kimeneti rétegben három neuron lenne. Tegyük fel, hogy a neuronok kimeneti értékei a következők: .A softmax függvényt ezekre az értékekre alkalmazva a következő eredményt kapjuk – . Ezek az egyes osztályokhoz tartozó adatpontok valószínűségét jelentik. Az eredményből megállapíthatjuk, hogy a bemenet az A osztályba tartozik.

“Vegyük észre, hogy az összes érték összege 1.”

Melyik a jobb ? Hogyan válasszuk ki a megfelelőt?

Hogy őszinte legyek, nincs kemény és gyors szabály az aktiválási függvény kiválasztására.Nem tudunk különbséget tenni az aktiválási függvények között.Minden aktiválási függvénynek megvannak a maga előnyei és hátrányai.Minden jó és rossz a nyomvonal alapján fog eldőlni.

De a probléma tulajdonságai alapján talán képesek vagyunk egy jobb választást tenni a hálózat könnyű és gyorsabb konvergenciája érdekében.

A szimmoid függvények és kombinációik általában jobban működnek osztályozási problémák esetén
A szimmoid és a tanh függvényeket néha kerüljük az eltűnő gradiens probléma miatt
A modern korban széles körben használják a ReLU aktiválási függvényt.
Hálózatainkban a ReLu miatt elhalt neuronok esetén a szivárgó ReLU függvény a legjobb választás
A ReLU függvényt csak a rejtett rétegekben szabad használni

“Ökölszabályként kezdhetjük a ReLU függvény használatával, majd áttérhetünk más aktiválási függvényekre, ha a ReLU nem nyújt optimális eredményt”

Melyik a jobb ? Hogyan válasszuk ki a megfelelőt?

Vélemény, hozzászólás? Kilépés a válaszból