• La fonction et sa dérivée sont toutes deux monotones
  • La sortie est nulle « centrée »
  • L’optimisation est plus facile
  • Dérivée /Différentielle de la fonction Tanh (f'(x)) sera comprise entre 0 et 1.

Avantages:

  • La dérivée de la fonction Tanh souffre du « Vanishing gradient and Exploding gradient problem ».
  • La convergence est lente- car son calcul est lourd.(Raison de l’utilisation de la fonction mathématique exponentielle )

« Tanh est préférée à la fonction sigmoïde car elle est centrée sur zéro et les gradients ne sont pas restreints à se déplacer dans une certaine direction »

3. Fonction d’activation ReLu(ReLu – unités linéaires rectifiées) :

Fonction ReLu (Bleu) , Dérivée de ReLu (Vert)

ReLU est la fonction d’activation non linéaire qui a gagné en popularité dans l’IA. La fonction ReLu est également représentée par f(x) = max(0,x).

  • La fonction et sa dérivée sont toutes deux monotones.
  • Principal avantage de l’utilisation de la fonction ReLU- Elle n’active pas tous les neurones en même temps.
  • Efficacité informatique
  • Dérivée /Différentielle de la fonction Tanh (f'(x)) sera 1 si f(x) > 0 sinon 0.
  • Convergence très rapide

Cons:

  • La fonction ReLu n’est pas « zéro-centrique ».Cela fait que les mises à jour du gradient vont trop loin dans des directions différentes. 0 < sortie < 1, et cela rend l’optimisation plus difficile.
  • Le neurone mort est le plus gros problème.Ceci est dû au Non-différentiable à zéro.

« Problème de neurone mourant/neurone mort : Comme la dérivée ReLu f'(x) n’est pas 0 pour les valeurs positives du neurone (f'(x)=1 pour x ≥ 0), ReLu ne sature pas (exploid) et aucun neurone mort (Vanishing neuron)n’est signalé. La saturation et la disparition du gradient ne se produisent que pour des valeurs négatives qui, données à ReLu, sont transformées en 0- C’est ce qu’on appelle le problème du neurone mourant. »

4. Fonction d’activation de ReLu fuyante :

La fonction ReLU fuyante n’est rien d’autre qu’une version améliorée de la fonction ReLU avec introduction de la « pente constante »

.

Fuite de l’activation de ReLu (bleu) , Dérivé(organe)
  • Leaky ReLU est défini pour répondre au problème du neurone mourant/neuron mort.
  • Le problème du neurone mourant/du neurone mort est abordé en introduisant une petite pente ayant les valeurs négatives mises à l’échelle par α permet à leurs neurones correspondants de « rester en vie ».
  • La fonction et sa dérivée sont toutes deux monotones
  • Elle permet une valeur négative pendant la rétro propagation
  • Elle est efficace et facile pour le calcul.
  • La dérivée de Leaky est égale à 1 lorsque f(x) > 0 et se situe entre 0 et 1 lorsque f(x) < 0.

Cons:

  • Leaky ReLU ne fournit pas de prédictions cohérentes pour des valeurs d’entrée négatives.

5. Fonction d’activation ELU (unités linéaires exponentielles) :

ELU et son dérivé
  • ELU est également proposé pour résoudre le problème du neurone mourant.
  • Aucun problème de ReLU mort
  • Zéro-centrique

Avantages:

  • Intensif en calcul.
  • Similaire à la ReLU fuyante, bien que théoriquement meilleure que la ReLU, il n’y a actuellement aucune bonne preuve en pratique que la ELU est toujours meilleure que la ReLU.
  • f(x) est monotone seulement si alpha est supérieur ou égal à 0.
  • f'(x) dérivée de ELU n’est monotone que si alpha est compris entre 0 et 1.
  • Lente convergence due à la fonction exponentielle.

6. Fonction d’activation P ReLu (Parametric ReLU) :

Leaky ReLU vs P Relu
  • L’idée de leaky ReLU peut être étendue encore plus loin.
  • Au lieu de multiplier x avec un terme constant, nous pouvons le multiplier avec un « hyperparamètre (paramètre a-entraînable) » qui semble mieux fonctionner le leaky ReLU. Cette extension de la ReLU fuyante est connue sous le nom de ReLU paramétrique.
  • Le paramètre α est généralement un nombre entre 0 et 1, et il est généralement relativement petit.
  • Avoir un léger avantage sur la Relu fuyante en raison du paramètre entraînable.
  • Gérer le problème du neurone mourant.

Cons :

  • Même chose que le Relu fuyant.
  • f(x) est monotone quand a> ou =0 et f'(x) est monotone quand a =1

7. Fonction d’activation Swish (une fonction d’activation autonome) :(unité linéaire sigmoïde)

  • L’équipe de Google Brain a proposé une nouvelle fonction d’activation, nommée Swish, qui est simplement f(x) = x – sigmoïde(x).
  • Leurs expériences montrent que Swish a tendance à mieux fonctionner que ReLU sur des modèles plus profonds sur un certain nombre d’ensembles de données difficiles.
  • La courbe de la fonction Swish est lisse et la fonction est différentiable en tous points. Cela est utile pendant le processus d’optimisation du modèle et est considéré comme l’une des raisons pour lesquelles swish surpasse ReLU.
  • La fonction Swish est « non monotone ». Cela signifie que la valeur de la fonction peut diminuer même lorsque les valeurs d’entrée augmentent.
  • La fonction est non bornée au-dessus et bornée en dessous.

« Swish tend à égaler ou à surpasser continuellement le ReLu »

Notez que la sortie de la fonction swish peut diminuer même lorsque l’entrée augmente. C’est une caractéristique intéressante et spécifique à swish.(En raison du caractère non monotone)

f(x)=2x*sigmoïde(bêta*x)

Si nous pensons que bêta=0 est une version simple de Swish, qui est un paramètre apprenable, alors la partie sigmoïde est toujours 1/2 et f (x) est linéaire. En revanche, si le bêta est une très grande valeur, la sigmoïde devient une fonction presque à deux chiffres (0 pour x<0,1 pour x>0). Ainsi, f (x) converge vers la fonction ReLU. Par conséquent, la fonction standard de Swish est choisie avec beta = 1. De cette façon, une interpolation douce (associant les ensembles de valeurs variables à une fonction dans la plage donnée et la précision souhaitée) est fournie. Excellent ! Une solution au problème de la disparition des gradients a été trouvée.

8.Softplus

Fonction d’activation,dérivée de premier ordre,dérivée de second ordre

La fonction softplus est similaire à la fonction ReLU, mais elle est relativement plus lisse.Fonction de Softplus ou SmoothRelu f(x) = ln(1+exp x).

La dérivée de la fonction Softplus est f'(x) est une fonction logistique (1/(1+exp x)).

La valeur de la fonction varie entre (0, + inf).f(x) et f'(x) sont monotones.

9.Softmax ou fonction exponentielle normalisée:

La fonction « softmax » est également un type de fonction sigmoïde mais elle est très utile pour traiter les problèmes de classification multi-classes.

« Softmax peut être décrite comme la combinaison de plusieurs fonctions sigmoïdes. »

« La fonction Softmax renvoie la probabilité pour un point de données appartenant à chaque classe individuelle. »

Lors de la construction d’un réseau pour un problème multiclasse, la couche de sortie aurait autant de neurones que le nombre de classes dans la cible.

Par exemple, si vous avez trois classes, il y aurait trois neurones dans la couche de sortie. Supposons que vous obteniez la sortie des neurones comme .En appliquant la fonction softmax sur ces valeurs, vous obtiendrez le résultat suivant – . Ces valeurs représentent la probabilité d’appartenance du point de données à chaque classe. A partir du résultat, nous pouvons que l’entrée appartient à la classe A.

« Notez que la somme de toutes les valeurs est 1. »

Quel est le meilleur à utiliser ? Comment choisir la bonne ?

Pour être honnête, il n’y a pas de règle stricte et rapide pour choisir la fonction d’activation.Nous ne pouvons pas différencier les fonctions d’activation.Chaque fonction d’activation a ses propres avantages et inconvénients.Tous les bons et les mauvais seront décidés en fonction de la piste.

Mais en fonction des propriétés du problème, nous pourrions être en mesure de faire un meilleur choix pour une convergence facile et plus rapide du réseau.

  • Les fonctions sigmoïdes et leurs combinaisons fonctionnent généralement mieux dans le cas de problèmes de classification
  • Les sigmoïdes et les fonctions tanh sont parfois évitées en raison du problème de gradient de fuite
  • La fonction d’activation ReLU est largement utilisée dans l’ère moderne.
  • En cas de neurones morts dans nos réseaux en raison de ReLU alors la fonction ReLU fuyante est le meilleur choix
  • La fonction ReLU ne doit être utilisée que dans les couches cachées

« En règle générale, on peut commencer par utiliser la fonction ReLU et ensuite passer à d’autres fonctions d’activation au cas où ReLU ne fournirait pas de résultats optimaux »

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.