Funcția ReLu (Albastru) , Derivată a funcției ReLu (Verde)ReLU este funcția de activare neliniară care a câștigat popularitate în IA. Funcția ReLu este, de asemenea, reprezentată ca f(x) = max(0,x).
- Funcția și derivata sa sunt ambele monotone.
- Principalul avantaj al utilizării funcției ReLU- Nu activează toți neuronii în același timp.
- Eficientă din punct de vedere computațional
- Derivata /Diferențiala funcției Tanh (f'(x)) va fi 1 dacă f(x) > 0 altfel 0.
- Converge foarte repede
Cons:
- Funcția ReLu nu este „zero-centrică”.Aceasta face ca actualizările gradientului să meargă prea departe în direcții diferite. 0 < ieșire < 1, și face ca optimizarea să fie mai dificilă.
- Neuronul mort este cea mai mare problemă. aceasta se datorează faptului că nu este diferențiabilă la zero.
„Problema neuronului care moare/neuronului mort : Deoarece derivata ReLu f'(x) nu este 0 pentru valorile pozitive ale neuronului (f'(x)=1 pentru x ≥ 0), ReLu nu se saturează (explodează) și nu se raportează neuroni morți (Vanishing neuron)-ul. Saturarea și gradientul vanishing apar numai pentru valori negative care, date lui ReLu, se transformă în 0- Aceasta se numește problema neuronului muribund.”
4. Funcția de activare ReLu cu scurgeri:
Funcția ReLU cu scurgeri nu este altceva decât o versiune îmbunătățită a funcției ReLU cu introducerea „pantei constante”
- Google Brain Team a propus o nouă funcție de activare, numită Swish, care este pur și simplu f(x) = x – sigmoid(x).
- Experimentele lor arată că Swish tinde să funcționeze mai bine decât ReLU pe modele mai profunde pe o serie de seturi de date dificile.
- Curba funcției Swish este netedă și funcția este diferențiabilă în toate punctele. Acest lucru este util în timpul procesului de optimizare a modelului și este considerat a fi unul dintre motivele pentru care Swish depășește ReLU.
- Funcția Swish nu este „monotonă”. Acest lucru înseamnă că valoarea funcției poate scădea chiar și atunci când valorile de intrare sunt în creștere.
- Funcția este nemărginită în sus și mărginită în jos.
„Swish tinde să egaleze sau să surclaseze continuu ReLu”
Rețineți că valoarea de ieșire a funcției swish poate scădea chiar și atunci când valorile de intrare cresc. Aceasta este o caracteristică interesantă și specifică swish. (Datorită caracterului nemonotonic)
f(x)=2x*sigmoid(beta*x)
Dacă ne gândim că beta=0 este o versiune simplă a lui Swish, care este un parametru care poate fi învățat, atunci partea sigmoidă este întotdeauna 1/2 și f (x) este liniară. Pe de altă parte, dacă beta este o valoare foarte mare, sigmoidul devine o funcție cu aproape două cifre (0 pentru x<0,1 pentru x>0). Astfel, f (x) converge la funcția ReLU. Prin urmare, funcția Swish standard este selectată ca fiind beta = 1. În acest fel, se asigură o interpolare soft (asocierea seturilor de valori variabile cu o funcție în intervalul dat și cu precizia dorită). Excelent! A fost găsită o soluție la problema dispariției gradienților.
8.Softplus
Funcție de activare, derivată de ordinul întâi, derivată de ordinul doi
Funcția softplus este similară funcției ReLU, dar este relativ mai lină.Funcția Softplus sau SmoothRelu f(x) = ln(1+exp x).
Derivata funcției Softplus este f'(x) este funcția logistică (1/(1+exp x)).
Valoarea funcției variază între (0, + inf).Atât f(x) cât și f'(x) sunt monotone.
9.Softmax sau funcția exponențială normalizată:
Funcția „softmax” este, de asemenea, un tip de funcție sigmoidală, dar este foarte utilă pentru a gestiona probleme de clasificare multiclasă.
„Softmax poate fi descrisă ca fiind combinația mai multor funcții sigmoidale.”
„Funcția Softmax returnează probabilitatea ca un punct de date să aparțină fiecărei clase individuale.”
În timp ce se construiește o rețea pentru o problemă cu mai multe clase, stratul de ieșire va avea atâția neuroni cât numărul de clase din țintă.
De exemplu, dacă aveți trei clase, vor fi trei neuroni în stratul de ieșire. Să presupunem că ați obținut ieșirea de la neuroni ca .Aplicând funcția softmax peste aceste valori, veți obține următorul rezultat – . Acestea reprezintă probabilitatea ca punctul de date să aparțină fiecărei clase. Din rezultat reiese că intrarea aparține clasei A.
„Observați că suma tuturor valorilor este 1.”
Ce este mai bine să folosim? Cum să o alegem pe cea corectă?
Pentru a fi sincer, nu există o regulă dură și rapidă pentru a alege funcția de activare.Nu putem face diferențe între funcțiile de activare.Fiecare funcție de activare are avantajele și dezavantajele sale.Toate bunele și relele vor fi decise pe baza traseului.
Dar pe baza proprietăților problemei am putea face o alegere mai bună pentru o convergență ușoară și mai rapidă a rețelei.
- Funcțiile sigmoide și combinațiile lor funcționează în general mai bine în cazul problemelor de clasificare
- Funcțiile sigmoide și tanh sunt uneori evitate din cauza problemei gradientului de dispariție
- Funcția de activare ReLU este utilizată pe scară largă în epoca modernă.
- În cazul neuronilor morți în rețelele noastre din cauza funcției ReLU, atunci funcția ReLU cu scurgeri este cea mai bună alegere
- Funcția ReLU ar trebui să fie utilizată numai în straturile ascunse
„Ca regulă generală, se poate începe cu utilizarea funcției ReLU și apoi se poate trece la alte funcții de activare în cazul în care ReLU nu oferă rezultate optime”
.