Funzioni di attivazione e i suoi tipi

La funzione e la sua derivata sono entrambe monotone
L’uscita è zero “centrica”
L’ottimizzazione è più facile
Derivata /Differenziale della funzione Tanh (f'(x)) si trova tra 0 e 1.

Cons:

La derivata della funzione Tanh soffre di “Vanishing gradient and Exploding gradient problem”.(Uso ragionevole della funzione matematica esponenziale)

“Tanh è preferito alla funzione sigmoide perché è centrato su zero e i gradienti non sono limitati a muoversi in una certa direzione”

3. Funzione di attivazione ReLu (ReLu – Unità lineari rettificate):

Funzione ReLu(Blu) , Derivata di ReLu (Verde)

ReLU è la funzione di attivazione non lineare che ha guadagnato popolarità nell’IA. La funzione ReLu è anche rappresentata come f(x) = max(0,x).

La funzione e la sua derivata sono entrambe monotone.
Principale vantaggio di usare la funzione ReLU- Non attiva tutti i neuroni allo stesso tempo.
Efficiente dal punto di vista computazionale
Derivata /Differenziale della funzione Tanh (f'(x)) sarà 1 se f(x) > 0 altrimenti 0.
Converte molto velocemente

Cons:

La funzione ReLu non è “zero-centrica”. 0 < uscita < 1, e rende l’ottimizzazione più difficile.
Il neurone morto è il problema più grande.Questo è dovuto alla non-differenziabilità a zero.

“Problema del neurone morente/neurone morto: Poiché la derivata f'(x) di ReLu non è 0 per i valori positivi del neurone (f'(x)=1 per x ≥ 0), ReLu non si satura (exploid) e non vengono riportati neuroni morti (Vanishing neuron). La saturazione e il gradiente evanescente si verificano solo per valori negativi che, dati a ReLu, sono trasformati in 0- Questo è chiamato il problema del neurone morente.”

4. Funzione di attivazione di ReLu che perde:

La funzione leaky ReLU non è altro che una versione migliorata della funzione ReLU con l’introduzione della “pendenza costante”