Activación de ReLu (azul) , Derivado(organe)
Se define ReLU Leaky para abordar el problema de la neurona moribunda/neurona muerta.
El problema de la neurona moribunda/neurona muerta se aborda mediante la introducción de una pequeña pendiente que tiene los valores negativos escalados por α permite que sus neuronas correspondientes «permanezcan vivas».
La función y su derivada son ambas monotónicas
Permite el valor negativo durante la propagación hacia atrás
Es eficiente y fácil para el cálculo.
La derivada de Leaky es 1 cuando f(x) > 0 y oscila entre 0 y 1 cuando f(x) < 0.
Cons:
Leaky ReLU no proporciona predicciones consistentes para valores de entrada negativos.
5. Función de activación ELU (unidades lineales exponenciales):
ELU y su derivado
ELU también se propone para resolver el problema de la neurona moribunda.
Sin problemas de ReLU moribundo
Centrado en cero
Cons:
Computacionalmente intensivo.
Similar a Leaky ReLU, aunque teóricamente mejor que ReLU, actualmente no hay buena evidencia en la práctica de que ELU sea siempre mejor que ReLU.
f(x) es monótona sólo si alfa es mayor o igual a 0.
f'(x) derivada de ELU es monótona sólo si alfa está entre 0 y 1.
Lenta convergencia debido a la función exponencial.
6. P ReLu (ReLU paramétrico) Función de activación:
ReLU con fugas vs P Relu
La idea de ReLU con fugas puede ampliarse aún más.
En lugar de multiplicar x con un término constante podemos multiplicarlo con un «hiperparámetro (parámetro a-entrenable)» que parece funcionar mejor el ReLU con fugas. Esta extensión de ReLU con fugas se conoce como ReLU paramétrico.
El parámetro α es generalmente un número entre 0 y 1, y generalmente es relativamente pequeño.
Tiene una ligera ventaja sobre Leaky Relu debido al parámetro entrenable.
Maneja el problema de la neurona moribunda.
Cons:
Igual que el Relu con fugas.
f(x) es monótona cuando a> o =0 y f'(x) es monótona cuando a =1
7. Función de activación Swish (A Self-Gated):(Unidad lineal sigmoide)
El equipo de Google Brain ha propuesto una nueva función de activación, denominada Swish, que es simplemente f(x) = x – sigmoide(x).
Sus experimentos muestran que Swish tiende a funcionar mejor que ReLU en modelos más profundos a través de una serie de conjuntos de datos difíciles.
La curva de la función Swish es suave y la función es diferenciable en todos los puntos. Esto es útil durante el proceso de optimización del modelo y se considera una de las razones por las que Swish supera a ReLU.
La función Swish es «no monótona». Esto significa que el valor de la función puede disminuir incluso cuando los valores de entrada son crecientes.
La función es no acotada por arriba y acotada por abajo.
«Swish tiende a igualar o superar continuamente la ReLu»
Nótese que la salida de la función swish puede disminuir incluso cuando la entrada aumenta. Esta es una característica interesante y específica de swish.(Debido al carácter no monotónico)
f(x)=2x*sigmoide(beta*x)
Si pensamos que beta=0 es una versión simple de Swish, que es un parámetro aprendible, entonces la parte sigmoide es siempre 1/2 y f (x) es lineal. En cambio, si la beta es un valor muy grande, la sigmoide se convierte en una función casi de dos dígitos (0 para x<0,1 para x>0). Así, f (x) converge a la función ReLU. Por lo tanto, la función Swish estándar se selecciona como beta = 1. De esta manera, se proporciona una interpolación suave (asociando los conjuntos de valores variables con una función en el rango dado y la precisión deseada). ¡Excelente! Se ha encontrado una solución al problema de la desaparición de los gradientes.
8.Softplus
Función de activación,derivada de primer orden,derivada de segundo orden
La función softplus es similar a la función ReLU, pero es relativamente más suave.Función de Softplus o SmoothRelu f(x) = ln(1+exp x).
La derivada de la función Softplus es f'(x) es una función logística (1/(1+exp x)).
El valor de la función oscila entre (0, + inf).Tanto f(x) como f'(x) son monotónicas.
9.Softmax o función exponencial normalizada:
La función «softmax» es también un tipo de función sigmoidea pero es muy útil para manejar problemas de clasificación multiclase.
«Softmax puede describirse como la combinación de múltiples funciones sigmoidales.»
«La función Softmax devuelve la probabilidad de que un punto de datos pertenezca a cada clase individual.»
Al construir una red para un problema multiclase, la capa de salida tendría tantas neuronas como el número de clases en el objetivo.
Por ejemplo, si tiene tres clases, habría tres neuronas en la capa de salida. Supongamos que obtuvimos la salida de las neuronas como .Aplicando la función softmax sobre estos valores, obtendremos el siguiente resultado – . Estos representan la probabilidad de que el punto de datos pertenezca a cada clase. A partir del resultado podemos que la entrada pertenece a la clase A.
«Observe que la suma de todos los valores es 1.»
¿Cuál es mejor usar? ¿Cómo elegir la correcta?
Para ser honestos, no hay una regla dura y rápida para elegir la función de activación.No podemos diferenciar entre la función de activación.Cada función de activación como sus propios pros y contras.Todo lo bueno y lo malo se decidirá sobre la base de la pista.
Pero sobre la base de las propiedades del problema que podría ser capaz de hacer una mejor elección para la convergencia fácil y más rápido de la red.
Las funciones sigmoides y sus combinaciones suelen funcionar mejor en el caso de los problemas de clasificación
Los sigmoides y las funciones tanh se evitan a veces debido al problema del gradiente de fuga
La función de activación ReLU es muy utilizada en la era moderna.
En caso de que haya neuronas muertas en nuestras redes debido a ReLu, la función ReLU con fugas es la mejor opción
La función ReLU sólo debe utilizarse en las capas ocultas
«Como regla general, se puede empezar utilizando la función ReLU y luego pasar a otras funciones de activación en caso de que ReLU no proporcione resultados óptimos»
.