VMware vSphere HA (High Availability) es una utilidad incluida en el software vSphere de VMware que puede reiniciar las máquinas virtuales (VM) que fallan en servidores anfitriones alternativos para reducir el tiempo de inactividad de las aplicaciones.
VSphere HA permite a un administrador de servidores agrupar los servidores físicos en la misma red en un grupo lógico llamado clúster de alta disponibilidad. Durante un fallo del servidor, como una caída del sistema, una interrupción del suministro eléctrico o un fallo de la red, vSphere HA detecta qué máquinas virtuales están caídas y las reinicia en otro sistema estable dentro del clúster. Este proceso de reinicio de las cargas de trabajo fallidas en sistemas secundarios se denomina failover.
VMware introdujo por primera vez vSphere HA en Virtual Infrastructure 3 en 2006 y ha seguido desarrollando y dando soporte a la función.
Usado de forma general, alta disponibilidad es un término utilizado para describir sistemas o aplicaciones que están disponibles -funcionando como se espera- un alto porcentaje del tiempo. En los centros de datos empresariales, la disponibilidad del sistema a menudo supera el 99% y suele medirse en nueves.
Características de VMware vSphere HA
VMware vSphere HA permite a las organizaciones mejorar la disponibilidad detectando automáticamente las máquinas virtuales que fallan y reiniciándolas en diferentes servidores físicos sin necesidad de intervención humana manual. La capacidad de reiniciar estas VM en hardware físico diferente es posible porque los archivos de disco de máquina virtual (VMDK) se mantienen en el almacenamiento compartido, accesible a todos los servidores físicos conectados a través del clúster de HA.
VMware Distributed Resource Scheduler (DRS) se utiliza a menudo junto con vSphere HA para reequilibrar las cargas de trabajo que deben reiniciarse en hosts alternativos. Una organización que utiliza vSphere HA y DRS juntos puede garantizar que las máquinas virtuales reiniciadas no afecten al rendimiento de otras máquinas virtuales en el host de conmutación por error.
La función VMware Fault Tolerance también puede garantizar niveles muy altos de disponibilidad. Mientras que vSphere HA reinicia las VM fallidas tras un breve tiempo de detección y arranque, Fault Tolerance mantiene una copia redundante de la VM protegida que puede asumir sin problemas las operaciones de la copia fallida.
Cómo funciona vSphere HA
VMware vSphere HA utiliza una utilidad denominada agente Fault Domain Manager para supervisar la disponibilidad del host ESXi y reiniciar las VM fallidas. Al configurar vSphere HA, un administrador define un grupo de servidores para que sirvan como clúster de alta disponibilidad. El Fault Domain Manager se ejecuta en cada host del cluster. Un host en el clúster sirve como el host maestro – todos los demás hosts se denominan esclavos – para supervisar las señales de otros hosts en el clúster y comunicarse con el vCenter Server.
Los servidores de host dentro de un clúster de HA se comunican a través de un heartbeat, que es un mensaje periódico que indica que un host está funcionando como se espera. Si el host maestro no detecta una señal de heartbeat de otro host o VM dentro del clúster, le indica a vSphere HA que tome acciones correctivas. El tipo de acción depende del tipo de fallo detectado, así como de las preferencias del usuario. En el caso de un fallo de la VM en el que el servidor del host sigue funcionando, vSphere HA reinicia la VM en el host original. Si un host completo falla, la utilidad reinicia todas las VMs afectadas en otros hosts del cluster.
La utilidad HA también puede reiniciar las VMs si un host sigue funcionando, pero pierde la conexión de red con el resto del cluster. El host maestro puede supervisar si ese host sigue comunicándose con los almacenes de datos conectados a la red para detectar si un host separado de la red sigue funcionando. El almacenamiento compartido, como una red de área de almacenamiento, permite a los hosts del clúster acceder a los archivos de disco de la VM y reiniciar la VM, incluso si se estaba ejecutando en otro servidor del clúster.
Cómo configurar y utilizar vSphere HA
El primer paso para configurar vSphere HA es crear un clúster desde vSphere Web Client en Create a Cluster y, a continuación, seleccionar los hosts ESXi y el almacenamiento compartido para que participen en el clúster. Los clústeres de HA deben contener al menos dos hosts, pero muchas organizaciones mantienen clústeres más grandes que reúnen más recursos y pueden acomodar múltiples fallos.
Un administrador puede entonces activar la función vSphere HA desde el Cliente Web en Manage > Settings > vSphere HA. Por último, un usuario puede ajustar los parámetros de configuración y las preferencias de vSphere HA desde vSphere Web Client.
Requisitos y mejores prácticas de vSphere HA de VMware
Los administradores pueden ajustar muchas configuraciones de HA, incluido el tiempo que una VM o un host no están disponibles antes de que vSphere HA intente reiniciarlos; el valor predeterminado es de 120 segundos. Un administrador puede establecer las preferencias de reinicio de las máquinas virtuales, seleccionando el orden en el que las máquinas virtuales se reinician en el clúster. Esta configuración es útil si, por ejemplo, no hay espacio suficiente en el clúster para reiniciar todas las máquinas virtuales que han fallado. En muchos casos, un administrador asigna una mayor prioridad de reinicio a las máquinas virtuales que ejecutan aplicaciones de misión crítica.
Una organización también puede definir reglas de afinidad y antiafinidad para restringir dónde se colocan ciertas máquinas virtuales. Las reglas de afinidad y antiafinidad impiden que las VM especificadas se reinicien en servidores seleccionados o en servidores que ya albergan otras VM especificadas. Estas reglas son útiles para garantizar que las máquinas virtuales que hacen un uso intensivo de la CPU no se reinicien en el mismo host después de un desastre o para garantizar que dos copias de una aplicación de alta prioridad no acaben en el mismo host y creen un potencial punto único de fallo.