- La fonction et sa dérivée sont toutes deux monotones
- La sortie est nulle « centrée »
- L’optimisation est plus facile
- Dérivée /Différentielle de la fonction Tanh (f'(x)) sera comprise entre 0 et 1.
Avantages:
- La dérivée de la fonction Tanh souffre du « Vanishing gradient and Exploding gradient problem ».
- La convergence est lente- car son calcul est lourd.(Raison de l’utilisation de la fonction mathématique exponentielle )
« Tanh est préférée à la fonction sigmoïde car elle est centrée sur zéro et les gradients ne sont pas restreints à se déplacer dans une certaine direction »
3. Fonction d’activation ReLu(ReLu – unités linéaires rectifiées) :
ReLU est la fonction d’activation non linéaire qui a gagné en popularité dans l’IA. La fonction ReLu est également représentée par f(x) = max(0,x).
- La fonction et sa dérivée sont toutes deux monotones.
- Principal avantage de l’utilisation de la fonction ReLU- Elle n’active pas tous les neurones en même temps.
- Efficacité informatique
- Dérivée /Différentielle de la fonction Tanh (f'(x)) sera 1 si f(x) > 0 sinon 0.
- Convergence très rapide
Cons:
- La fonction ReLu n’est pas « zéro-centrique ».Cela fait que les mises à jour du gradient vont trop loin dans des directions différentes. 0 < sortie < 1, et cela rend l’optimisation plus difficile.
- Le neurone mort est le plus gros problème.Ceci est dû au Non-différentiable à zéro.
« Problème de neurone mourant/neurone mort : Comme la dérivée ReLu f'(x) n’est pas 0 pour les valeurs positives du neurone (f'(x)=1 pour x ≥ 0), ReLu ne sature pas (exploid) et aucun neurone mort (Vanishing neuron)n’est signalé. La saturation et la disparition du gradient ne se produisent que pour des valeurs négatives qui, données à ReLu, sont transformées en 0- C’est ce qu’on appelle le problème du neurone mourant. »
4. Fonction d’activation de ReLu fuyante :
La fonction ReLU fuyante n’est rien d’autre qu’une version améliorée de la fonction ReLU avec introduction de la « pente constante »
- Leaky ReLU est défini pour répondre au problème du neurone mourant/neuron mort.
- Le problème du neurone mourant/du neurone mort est abordé en introduisant une petite pente ayant les valeurs négatives mises à l’échelle par α permet à leurs neurones correspondants de « rester en vie ».
- La fonction et sa dérivée sont toutes deux monotones
- Elle permet une valeur négative pendant la rétro propagation
- Elle est efficace et facile pour le calcul.
- La dérivée de Leaky est égale à 1 lorsque f(x) > 0 et se situe entre 0 et 1 lorsque f(x) < 0.
Cons:
- Leaky ReLU ne fournit pas de prédictions cohérentes pour des valeurs d’entrée négatives.
5. Fonction d’activation ELU (unités linéaires exponentielles) :
- ELU est également proposé pour résoudre le problème du neurone mourant.
- Aucun problème de ReLU mort
- Zéro-centrique
Avantages:
- Intensif en calcul.
- Similaire à la ReLU fuyante, bien que théoriquement meilleure que la ReLU, il n’y a actuellement aucune bonne preuve en pratique que la ELU est toujours meilleure que la ReLU.
- f(x) est monotone seulement si alpha est supérieur ou égal à 0.
- f'(x) dérivée de ELU n’est monotone que si alpha est compris entre 0 et 1.
- Lente convergence due à la fonction exponentielle.
6. Fonction d’activation P ReLu (Parametric ReLU) :
- L’idée de leaky ReLU peut être étendue encore plus loin.
- Au lieu de multiplier x avec un terme constant, nous pouvons le multiplier avec un « hyperparamètre (paramètre a-entraînable) » qui semble mieux fonctionner le leaky ReLU. Cette extension de la ReLU fuyante est connue sous le nom de ReLU paramétrique.
- Le paramètre α est généralement un nombre entre 0 et 1, et il est généralement relativement petit.
- Avoir un léger avantage sur la Relu fuyante en raison du paramètre entraînable.
- Gérer le problème du neurone mourant.
Cons :
- Même chose que le Relu fuyant.
- f(x) est monotone quand a> ou =0 et f'(x) est monotone quand a =1
7. Fonction d’activation Swish (une fonction d’activation autonome) :(unité linéaire sigmoïde)
La fonction softplus est similaire à la fonction ReLU, mais elle est relativement plus lisse.Fonction de Softplus ou SmoothRelu f(x) = ln(1+exp x).
La dérivée de la fonction Softplus est f'(x) est une fonction logistique (1/(1+exp x)).
La valeur de la fonction varie entre (0, + inf).f(x) et f'(x) sont monotones.
9.Softmax ou fonction exponentielle normalisée:
La fonction « softmax » est également un type de fonction sigmoïde mais elle est très utile pour traiter les problèmes de classification multi-classes.
« Softmax peut être décrite comme la combinaison de plusieurs fonctions sigmoïdes. »
« La fonction Softmax renvoie la probabilité pour un point de données appartenant à chaque classe individuelle. »
Lors de la construction d’un réseau pour un problème multiclasse, la couche de sortie aurait autant de neurones que le nombre de classes dans la cible.
Par exemple, si vous avez trois classes, il y aurait trois neurones dans la couche de sortie. Supposons que vous obteniez la sortie des neurones comme .En appliquant la fonction softmax sur ces valeurs, vous obtiendrez le résultat suivant – . Ces valeurs représentent la probabilité d’appartenance du point de données à chaque classe. A partir du résultat, nous pouvons que l’entrée appartient à la classe A.
« Notez que la somme de toutes les valeurs est 1. »
Quel est le meilleur à utiliser ? Comment choisir la bonne ?
Pour être honnête, il n’y a pas de règle stricte et rapide pour choisir la fonction d’activation.Nous ne pouvons pas différencier les fonctions d’activation.Chaque fonction d’activation a ses propres avantages et inconvénients.Tous les bons et les mauvais seront décidés en fonction de la piste.
Mais en fonction des propriétés du problème, nous pourrions être en mesure de faire un meilleur choix pour une convergence facile et plus rapide du réseau.
- Les fonctions sigmoïdes et leurs combinaisons fonctionnent généralement mieux dans le cas de problèmes de classification
- Les sigmoïdes et les fonctions tanh sont parfois évitées en raison du problème de gradient de fuite
- La fonction d’activation ReLU est largement utilisée dans l’ère moderne.
- En cas de neurones morts dans nos réseaux en raison de ReLU alors la fonction ReLU fuyante est le meilleur choix
- La fonction ReLU ne doit être utilisée que dans les couches cachées
« En règle générale, on peut commencer par utiliser la fonction ReLU et ensuite passer à d’autres fonctions d’activation au cas où ReLU ne fournirait pas de résultats optimaux »
.