- Funkcja i jej pochodna są monotoniczne
- Wyjście jest zerowe „centryczne”
- Optymalizacja jest łatwiejsza
- Podzielna/pochodna funkcji Tanh (f'(x)) będzie leżeć między 0 a 1.
Konsekwencje:
- Podzielna funkcji Tanh cierpi „znikający gradient i eksplodujący gradient problem”.
- Powolna zbieżność-jak jego obliczeniowo ciężki.(Powód użycia wykładniczej funkcji matematycznej).
„Tanh jest preferowana w stosunku do funkcji sigmoidalnej, ponieważ jest wyśrodkowana względem zera i gradienty nie są ograniczone do poruszania się w określonym kierunku”
3. Funkcja aktywacji ReLu (ReLu – Rectified Linear Units):
ReLU jest nieliniową funkcją aktywacji, która zyskała popularność w AI. Funkcja ReLu jest również reprezentowana jako f(x) = max(0,x).
- Funkcja i jej pochodna zarówno są monotoniczne.
- Główna zaleta użycia funkcji ReLU- Nie aktywuje wszystkich neuronów w tym samym czasie.
- Komputerowo wydajne
- Podzielna / Pochodna funkcji Tanh (f'(x)) będzie 1 jeśli f(x) > 0 else 0.
- Konwertuj bardzo szybko
Konsekwencje:
- Funkcja ReLu w nie „zero-centric”.To sprawia, że aktualizacje gradientu idą zbyt daleko w różnych kierunkach. 0 < wyjście < 1, a to sprawia, że optymalizacja jest trudniejsza.
- Dead neuron is the biggest problem.This is due to Non-differentiable at zero.
„Problem umierającego neuronu/Dead neuron : As the ReLu derivative f'(x) is not 0 for the positive values of the neuron (f'(x)=1 for x ≥ 0), ReLu does not saturate (exploid) and no dead neurons (Vanishing neuron)are reported. Nasycenie i zanikający gradient występują tylko dla wartości ujemnych, które podane do ReLu zamieniają się w 0- To się nazywa problem umierającego neuronu.”
4. nieszczelna funkcja aktywacji ReLu:
Leaky ReLU function to nic innego jak ulepszona wersja funkcji ReLU z wprowadzeniem „stałego nachylenia”