- De functie en haar afgeleide zijn beide monotoon
- Output is nul “centric”
- Optimalisatie is eenvoudiger
- Derivaat /Differentiaal van de Tanh functie (f'(x)) zal tussen 0 en 1 liggen.
Cons:
- Afgeleide van Tanh-functie lijdt aan “Vanishing gradient and Exploding gradient problem”.
- Lage convergentie-als zijn computationeel zwaar.(Reden gebruik exponentiële wiskundige functie)
“Tanh heeft de voorkeur boven de sigmoïde functie, omdat het nul gecentreerd is en de gradiënten niet beperkt zijn om in een bepaalde richting te bewegen”
3. ReLu-activeringsfunctie (ReLu – Rectified Linear Units):
ReLU is de niet-lineaire activeringsfunctie die in AI aan populariteit heeft gewonnen. ReLu-functie wordt ook weergegeven als f(x) = max(0,x).
- De functie en de afgeleide ervan zijn beide monotoon.
- Hoofdvoordeel van het gebruik van de ReLU-functie-het activeert niet alle neuronen tegelijk.
- Computationeel efficiënt
- Derivaat /Differentiaal van de Tanh functie (f'(x)) zal 1 zijn als f(x) > 0 anders 0.
- Convergeert zeer snel
Cons:
- ReLu functie in niet “zero-centric”.Dit maakt de gradiënt updates gaan te ver in verschillende richtingen. 0 < output < 1, en het maakt optimalisatie moeilijker.
- Dood neuron is het grootste probleem.Dit is te wijten aan Niet-verschilbaar op nul.
“Probleem van sterven neuron/Dood neuron : Als de ReLu afgeleide f'(x) is niet 0 voor de positieve waarden van de neuron (f'(x)=1 voor x ≥ 0), ReLu niet verzadigen (exploid) en geen dode neuronen (Vanishing neuron)worden gerapporteerd. Verzadiging en verdwijnende gradiënt treden alleen op voor negatieve waarden die, gegeven aan ReLu, worden omgezet in 0- Dit wordt het probleem van het stervende neuron genoemd.”
4. lekkende ReLu-activeringsfunctie:
Leaky ReLU-functie is niets anders dan een verbeterde versie van de ReLU-functie met introductie van “constante helling”