Firmenbrief

18.07.2006

Verfügbarkeit von Rechnersystemen


Verfügbarkeit von Rechnersystemen

Failover: Übernahme von Systemfunktionen durch "Cold Standby Server" (Aktiv/Passiv Cluster)

Nachdem wir uns in den vorangegangenen Artikeln mit organisatorischen bzw. eher konventionellen Ansätzen zur Verbesserung der Verfügbarkeit beschäftigten, wollen wir nun die "höhere Liga" der Cluster untersuchen. Wie so häufig in der IT, gibt es auch wieder keinen einfachen, allgemeingültigen Ansatz mit einem eindeutigen Namen. Häufig wird die heute behandelte Technologie zur Erhöhung der Verfügbarkeit von Systemen als "Failover"-Konfiguration bezeichnet. Wir nennen ihn "Aktiv/Passiv"-Cluster, weil einer der Server ("Primärserver", "Master-Server") den operativen Betrieb stemmt, somit aktiv ist, während ein zweiter Server ("Sekundärserver", "Slave-Server") im Hot-Standby-Modus wartet, bis der Masterserver ausfällt, um dann den Betrieb zu übernehmen.

Auf diese Weise stehen Funktionen, die für den IT-Betrieb unabdingbar sind (zum Beispiel Benutzer­an­mel­dung/Verwaltung, Mail, Groupware oder unternehmenskritische Fach­anwen­dungen) auch bei Ausfall eines Rechners weiter zur Verfügung, da der Sekundärserver im Falle eines Falles die Funktionen des Primärservers übernimmt.

Die zunächst banal erscheinende Frage, wie der Sekundärserver vom Ableben des Primärservers erfährt, ist nicht immer einfach zu beantworten. Im Linux-Bereich gibt es hierzu eine Lösung, mit dem Namen "Heartbeat". Hierbei wird zwischen den Servern zyklisch ein Signal ausgetauscht (der Herzschlag), das bei Ausbleiben auf Probleme beim jeweils anderen Server schließen lässt. Um sicher(er) sein zu können, dass das Ausbleiben des Heartbeats nicht von einem durch die Putzkolonne herausgerissenen Netzwerkkabel verursacht wurde, werden für die Übertragung des Signals mehrere alternative physikalische Wege definiert, die im Zweifelsfalle alle genutzt werden können. Typischerweise ist das neben der LAN-Verbindung ein Null-Modem-Kabel und/oder - falls vorhanden - eine Fibre-Channel-Verbindung.

In der Praxis ist das Kriterium "Erreichbarkeit" per Ping nicht gut genug: gelegentlich ist der Rechner netzwerktechnisch zwar noch erreichbar, die Dienste hängen aber trotzdem. Im Zweifelsfall muss man konkretere Tests ausführen wie das Schreiben und Lesen einer Datei, um über die Ursachen wirklich sicher sein zu können.

Ebenso wichtig ist es, sicherzustellen, dass das vermeintlich tote System nicht plötzlich wieder lebt und alles durcheinander bringt. In diesem Zusammenhang sollte man das Akronym STONITH kennen, was ausgespochen etwas martialisch "shoot the other node in the head" (schieß dem anderen Knoten in den Kopf) bedeutet. Dieses Vorgehen ist zwar etwas rabiat, jedoch kann man sich darauf verlassen, dass dem anderen Knoten wirklich der Stecker gezogen wird.

Soweit zu den - zugegebenermaßen nur oberflächlich behandelten - Grundlagen für Aktiv/Passiv-Cluster. Das CoreBiz-Produktportfolio erlaubt die Aufrüstung aller darin enthaltenen Serverprodukte zu Aktiv/Passiv-Konfigurationen. Diese Konstallation erfährt zunehmendes Interesse bei unserem Kundenkreis. Wir sehen in mittelständischen Unternehmen nicht selten die Situation, dass ein vorhandener Server, (meist mit SCSI Festplatten im Raidverbund) ersetzt werden soll, weil die Leistung, vor allem aber der verfügbare Platz auf den Festplatten nicht mehr ausreicht.

Hier bietet sich ein "Aktiv/Passiv-Cluster" aus folgenden Gründen an:

- durch Einsatz eines neuen leistungsfähigen Servers (mit kleinem internen Raid für das System) läßt sich die gewünschte Leistungssteigerung erzielen
- durch Einsatz eines externen Raids mit zwei SCSI Anschlüssen (dual ported DAS - direct attached Storage) lässt sich das Platzproblem lösen
- durch Einsatz des vorhandenen Servers erhält man ohne zusätzliche Investition die gewünschte erhöhte Ausfallsicherheit

Beide Server haben über je ein SCSI-Kabel Zugriff auf das externe Raid (typischerweise bestückt mit kostengünstigen SATA-Festplatten). Im Normalbetrieb beschreibt der Sekundärserver das Raid nicht. Fällt der Primärserver aus, übernimmt der Sekundärserver (der "Alte") die Kontrolle über das Raid. Damit steht zwar auch nur die reduzierte Leistung zur Verfügung, aber: der Betrieb geht weiter und das verschafft Luft für die Reparatur des ausgefallenen Geräts.

Diese Konfiguration bietet den Vorteil, dass die Daten bei Übernahme durch den Sekundärserver aktuell sind, da sie auf dem externen Raid liegen. Ist man nicht auf maximal erreichbare Performance angewiesen, kann man die Systeme der beiden Server auch auf dem externen Raid platzieren. Man bedenke jedoch, dass damit das Raid-System ein "single point of failure" wird. Das heißt, sollte beispielsweise der Controller der Raid-Box streiken, kann man die Server nicht mal mehr booten.

Informationen zu unseren Dienstleistungen finden Sie auch auf unserer Homepage unter http://www.linux-ag.com