VMware vSphere HA (High Availability) est un utilitaire inclus dans le logiciel vSphere de VMware qui peut redémarrer les machines virtuelles (VM) défaillantes sur des serveurs hôtes alternatifs afin de réduire les temps d’arrêt des applications.
VSphere HA permet à un administrateur de serveur de regrouper des serveurs physiques sur le même réseau dans un groupe logique appelé cluster haute disponibilité. Lors d’une défaillance du serveur, telle qu’une panne du système, une interruption de l’alimentation ou une défaillance du réseau, vSphere HA détecte les VM qui sont hors service et les redémarre sur un autre système stable au sein du cluster. Ce processus de redémarrage des charges de travail défaillantes sur des systèmes secondaires est appelé basculement.
VMware a d’abord introduit vSphere HA dans Virtual Infrastructure 3 en 2006 et a continué à développer et à prendre en charge la fonctionnalité.
Utilisée de manière générale, la haute disponibilité est un terme utilisé pour décrire des systèmes ou des applications qui sont disponibles — fonctionnant comme prévu — un pourcentage élevé du temps. Dans les centres de données d’entreprise, la disponibilité des systèmes dépasse souvent 99 % et est souvent mesurée en neuf.
Fonctionnalités deVMware vSphere HA
VMware vSphere HA permet aux organisations d’améliorer la disponibilité en détectant automatiquement les VM défaillantes et en les redémarrant sur différents serveurs physiques sans intervention humaine manuelle. La possibilité de redémarrer ces VM sur différents matériels physiques est possible car les fichiers de disque de machine virtuelle (VMDK) sont conservés sur un stockage partagé, accessible à tous les serveurs physiques connectés via le cluster HA.
Le planificateur de ressources distribuées (DRS) de VMware est souvent utilisé conjointement avec vSphere HA pour rééquilibrer les charges de travail qui doivent être redémarrées sur des hôtes alternatifs. Une organisation qui utilise vSphere HA et DRS ensemble peut s’assurer que les VM redémarrées n’affectent pas les performances des autres VM sur l’hôte de basculement.
La fonction de tolérance aux pannes de VMware peut également garantir des niveaux de disponibilité très élevés. Alors que vSphere HA redémarre les VM défaillantes après un court temps de détection et de démarrage, Fault Tolerance maintient une copie redondante de la VM protégée qui peut prendre en charge de manière transparente les opérations de la copie défaillante.
Comment fonctionne vSphere HA
VMware vSphere HA utilise un utilitaire appelé agent Fault Domain Manager pour surveiller la disponibilité de l’hôte ESXi et pour redémarrer les VM défaillantes. Lors de la configuration de vSphere HA, un administrateur définit un groupe de serveurs pour servir de cluster de haute disponibilité. L’agent Fault Domain Manager s’exécute sur chaque hôte du cluster. Un hôte du cluster sert d’hôte maître — tous les autres hôtes sont appelés esclaves — pour surveiller les signaux des autres hôtes du cluster et communiquer avec le vCenter Server.
Les serveurs hôtes au sein d’un cluster HA communiquent via un heartbeat, qui est un message périodique indiquant qu’un hôte fonctionne comme prévu. Si l’hôte maître ne parvient pas à détecter un signal heartbeat provenant d’un autre hôte ou d’une VM au sein du cluster, il demande à vSphere HA de prendre des mesures correctives. Le type d’action dépend du type de défaillance détectée, ainsi que des préférences de l’utilisateur. En cas de défaillance d’une VM dans laquelle le serveur hôte continue de fonctionner, vSphere HA redémarre la VM sur l’hôte d’origine. Si un hôte entier échoue, l’utilitaire redémarre toutes les VM affectées sur les autres hôtes du cluster.
L’utilitaire HA peut également redémarrer les VM si un hôte continue de fonctionner, mais perd une connexion réseau avec le reste du cluster. L’hôte maître peut surveiller si cet hôte communique toujours avec les magasins de données connectés au réseau pour détecter si un hôte isolé du réseau continue de fonctionner. Le stockage partagé, tel qu’un réseau de stockage, permet aux hôtes du cluster d’accéder aux fichiers de disque de la VM et de redémarrer la VM, même si elle s’exécutait sur un autre serveur du cluster.
Comment configurer et utiliser vSphere HA
La première étape pour configurer vSphere HA consiste à créer un cluster à partir du client Web vSphere sous Créer un cluster, puis à sélectionner les hôtes ESXi et le stockage partagé pour participer au cluster. Les clusters HA doivent contenir au moins deux hôtes, mais de nombreuses organisations maintiennent des clusters plus importants qui mettent en commun davantage de ressources et peuvent prendre en charge plusieurs pannes.
Un administrateur peut ensuite activer la fonctionnalité vSphere HA à partir du client Web sous Gérer > Paramètres > vSphere HA. Enfin, un utilisateur peut ajuster les paramètres de configuration et les préférences de vSphere HA à partir du client Web vSphere.
MVMware vSphere HA requirements and best practices
Les administrateurs peuvent ajuster de nombreux paramètres HA, notamment la durée d’indisponibilité d’une VM ou d’un hôte avant que vSphere HA ne tente de la redémarrer ; la valeur par défaut est de 120 secondes. Un administrateur peut définir les préférences de redémarrage des VM, en sélectionnant l’ordre dans lequel les VM redémarrent dans le cluster. Ce paramètre est utile si, par exemple, l’espace est insuffisant sur le cluster pour redémarrer toutes les VM défaillantes. Dans de nombreux cas, un administrateur attribue une priorité de redémarrage plus élevée aux VM exécutant des applications critiques.
Une organisation peut également définir des règles d’affinité et d’anti-affinité pour restreindre l’emplacement de certaines VM. Les règles d’affinité et d’anti-affinité empêchent les VM spécifiées de redémarrer sur des serveurs sélectionnés ou sur des serveurs qui hébergent déjà d’autres VM spécifiées. Ces règles sont utiles pour s’assurer que les VM à forte intensité de CPU ne redémarrent pas sur le même hôte après un sinistre ou pour s’assurer que deux copies d’une application à haute priorité ne se retrouvent pas sur le même hôte et créent un point de défaillance unique potentiel.