VMware vSphere HA (High Availability) ist ein Dienstprogramm, das in der vSphere-Software von VMware enthalten ist und ausgefallene virtuelle Maschinen (VMs) auf alternativen Host-Servern neu starten kann, um die Ausfallzeiten von Anwendungen zu reduzieren.
VSphere HA ermöglicht es einem Server-Administrator, physische Server im selben Netzwerk zu einer logischen Gruppe zusammenzufassen, die als Hochverfügbarkeits-Cluster bezeichnet wird. Bei einem Serverausfall, wie z.B. einem Systemabsturz, einer Stromunterbrechung oder einem Netzwerkausfall, erkennt vSphere HA, welche VMs ausgefallen sind und startet sie auf einem anderen stabilen System innerhalb des Clusters neu. Dieser Prozess des Neustarts ausgefallener Workloads auf sekundären Systemen wird als Failover bezeichnet.
VMware führte vSphere HA erstmals 2006 in Virtual Infrastructure 3 ein und hat die Funktion kontinuierlich weiterentwickelt und unterstützt.
Im allgemeinen Sprachgebrauch wird der Begriff Hochverfügbarkeit verwendet, um Systeme oder Anwendungen zu beschreiben, die zu einem hohen Prozentsatz der Zeit verfügbar sind und wie erwartet funktionieren. In Unternehmensrechenzentren übersteigt die Systemverfügbarkeit häufig 99 % und wird oft in Neunern gemessen.
VMware vSphere HA-Funktionen
VMware vSphere HA ermöglicht es Unternehmen, die Verfügbarkeit zu verbessern, indem ausgefallene VMs automatisch erkannt und auf anderen physischen Servern neu gestartet werden, ohne dass ein Mensch eingreifen muss. Die Fähigkeit, diese VMs auf unterschiedlicher physischer Hardware neu zu starten, ist möglich, weil die VMDK-Dateien (Virtual Machine Disk) auf gemeinsamem Speicher gehalten werden, auf den alle physischen Server, die über den HA-Cluster verbunden sind, zugreifen können.
VMware Distributed Resource Scheduler (DRS) wird häufig in Verbindung mit vSphere HA verwendet, um Workloads, die auf alternativen Hosts neu gestartet werden müssen, auszugleichen. Ein Unternehmen, das vSphere HA und DRS zusammen einsetzt, kann sicherstellen, dass neu gestartete VMs die Performance anderer VMs auf dem Failover-Host nicht beeinträchtigen.
Die Funktion VMware Fault Tolerance kann ebenfalls ein sehr hohes Maß an Verfügbarkeit gewährleisten. Während vSphere HA ausgefallene VMs nach einer kurzen Erkennungs- und Startzeit neu startet, unterhält Fault Tolerance eine redundante Kopie der geschützten VM, die den Betrieb der ausgefallenen Kopie nahtlos übernehmen kann.
Wie vSphere HA funktioniert
VMware vSphere HA verwendet ein Dienstprogramm namens Fault Domain Manager-Agent zur Überwachung der Verfügbarkeit von ESXi-Hosts und zum Neustart ausgefallener VMs. Beim Einrichten von vSphere HA definiert ein Administrator eine Gruppe von Servern, die als Hochverfügbarkeitscluster dienen sollen. Der Fault Domain Manager wird auf jedem Host innerhalb des Clusters ausgeführt. Ein Host im Cluster dient als Master-Host – alle anderen Hosts werden als Slaves bezeichnet – um Signale von anderen Hosts im Cluster zu überwachen und mit dem vCenter Server zu kommunizieren.
Host-Server innerhalb eines HA-Clusters kommunizieren über einen Heartbeat, eine periodische Nachricht, die anzeigt, dass ein Host wie erwartet läuft. Wenn der Master-Host ein Heartbeat-Signal von einem anderen Host oder einer VM innerhalb des Clusters nicht erkennt, weist er vSphere HA an, Korrekturmaßnahmen zu ergreifen. Die Art der Maßnahme hängt von der Art des erkannten Fehlers sowie von den Benutzereinstellungen ab. Im Falle eines VM-Ausfalls, bei dem der Host-Server weiterläuft, startet vSphere HA die VM auf dem ursprünglichen Host neu. Wenn ein ganzer Host ausfällt, startet das Dienstprogramm alle betroffenen VMs auf anderen Hosts im Cluster neu.
Das HA-Dienstprogramm kann VMs auch neu starten, wenn ein Host weiterläuft, aber die Netzwerkverbindung zum Rest des Clusters verliert. Der Master-Host kann überwachen, ob dieser Host noch mit netzwerkverbundenen Datenspeichern kommuniziert, um zu erkennen, ob ein netzwerkgetrennter Host noch läuft. Gemeinsam genutzter Speicher, z. B. ein Storage Area Network, ermöglicht es den Hosts im Cluster, auf VM-Festplattendateien zuzugreifen und die VM neu zu starten, selbst wenn sie auf einem anderen Server im Cluster ausgeführt wurde.
Einrichten und Verwenden von vSphere HA
Der erste Schritt zum Einrichten von vSphere HA besteht darin, im vSphere Web Client unter „Cluster erstellen“ einen Cluster zu erstellen und dann ESXi-Hosts und gemeinsam genutzten Speicher für die Teilnahme am Cluster auszuwählen. HA-Cluster müssen mindestens zwei Hosts enthalten, aber viele Unternehmen unterhalten größere Cluster, die mehr Ressourcen bündeln und mehrere Ausfälle verkraften können.
Ein Administrator kann dann die vSphere HA-Funktion im Web Client unter Verwalten > Einstellungen > vSphere HA aktivieren. Schließlich kann ein Benutzer die vSphere HA-Konfigurationseinstellungen und -Vorgaben über den vSphere Web Client anpassen.
VMware vSphere HA-Anforderungen und bewährte Verfahren
Administratoren können viele HA-Einstellungen anpassen, einschließlich der Zeitspanne, die eine VM oder ein Host nicht verfügbar ist, bevor vSphere HA versucht, sie neu zu starten; der Standardwert beträgt 120 Sekunden. Ein Administrator kann Präferenzen für den VM-Neustart festlegen und so die Reihenfolge bestimmen, in der VMs im Cluster neu gestartet werden. Diese Einstellung ist nützlich, wenn z. B. nicht genügend Platz im Cluster vorhanden ist, um alle ausgefallenen VMs neu zu starten. In vielen Fällen weist ein Administrator VMs, auf denen unternehmenskritische Anwendungen laufen, eine höhere Neustartpriorität zu.
Eine Organisation kann auch Affinitäts- und Anti-Affinitätsregeln definieren, um einzuschränken, wo bestimmte VMs platziert werden. Affinitäts- und Anti-Affinitätsregeln verhindern, dass bestimmte VMs auf ausgewählten Servern oder auf Servern, die bereits andere bestimmte VMs hosten, neu gestartet werden. Diese Regeln sind nützlich, um sicherzustellen, dass CPU-intensive VMs nach einer Katastrophe nicht auf demselben Host neu gestartet werden oder um sicherzustellen, dass nicht zwei Kopien einer Anwendung mit hoher Priorität auf demselben Host landen und einen potenziellen Single Point of Failure bilden.