Firmenbrief

16.08.2012

Hochverfügbarkeit aus betriebswirtschaftlicher Sicht


In den letzten Jahren stieg die Zuverlässigkeit von Standard-Servern deutlich, dank höherer Verfügbarkeit der einzelnen Komponenten sowie striktere Qualitätskriterien bei Entwicklung und Montage der Gesamtsysteme. So erreichen Server mit Windows- oder Linux-Betriebssystemen heute eine Verfügbarkeit zwischen 99% und 99,9% was der Verfügbarkeitsklasse 2 („Stabil“) bzw. 3 („Verfügbar“) entspricht. Das klingt im ersten Moment gut. Dieser Eindruck relativiert sich jedoch, wenn man bedenkt, dass damit die wahrscheinliche Dauer eines Ausfalls immer noch zwischen 3,7 Tagen und 8,8 Stunden pro Jahr beträgt. Für einige mittelständische Unternehmen würde dies durchaus eine Bedrohung in ihrem Geschäftsablauf darstellen.
Auch kleine und mittelständische Unternehmen sind von der Technik stark abhängig und können sich einen längeren Ausfall ihrer IT nicht mehr leisten, ohne dass die Existenz des Unternehmens bedroht ist. So sind für unternehmenskritische Anwendungen mindestens 99,99 Prozent, bisweilen sogar 99,999 (Klasse 4 „Hochverfügbar“ bzw. 5 „Fehlerunempfindlich“) gefordert.

Die Stärke der Bedrohung hängt maßgeblich mit den Geschäftsinhalten zusammen. So wird der Ausfall eines Börsenbuchungs-Systems sicherlich höhere Verluste generieren als der eines mittelmäßig genutzten Online-Bestellsystems oder einer „normalen“ Unternehmens-Website. Je länger ein Ausfall dauert, umso stärker wächst der Schaden aber in praktisch allen Fällen.

Daher geht der Trend in vielen Unternehmen dahin, die Verfügbarkeit ihrer IT-Infrastruktur zu verbessern. Dieser Artikel betrachtet einige Aspekte, die aus betriebswirtschaftlicher Sicht bei der Auslegung und Beschaffung von höher verfügbaren Systemen zu berücksichtigen sind.

Generell gilt, der Einsatz von Systemen mit höherer Verfügbarkeit macht betriebswirtschaftlich dann Sinn, wenn die Kosten für die Schaffung einer höheren Verfügbarkeit geringer sind als der zu erwartende Schaden bei einem Ausfall.

 

Das Szenario

Unterhalb der Verfügbarkeitsklasse 5 gibt es eine Vielzahl von Ansätzen zur Verbesserung der Verfügbarkeit, angefangen von schnellen Restore-Möglichkeiten bei Datenverlusten bis hin zu fehlerunempfindlichen Lösungen auf Hardware-Basis. Im Zuge der starken Zunahme von virtualisierten IT-Systemen soll ein typisches Szenario in diesem Zusammenhang beleuchtet werden, nämlich die Ausfallsicherheit auf Basis eines virtualisierten Zwei-Knoten-Systems folgender Auslegung:

  • Zwei identische Hardware-Server

  • Active-active-Ansatz, was heißt, dass alle virtualisierten Gastsysteme auf beiden Servern betrieben bzw. dorthin migriert werden können

  • Einsatz von RAID-Systemen zur Bündelung von Festplatten

  • Redundanter Storage (Direct Attached Storage oder Network Attached Storage) mit Synchronisation zwischen zwei Storage-Einheiten

  • Automatische Umschaltung bei Fehlerfällen (Failover)

  • System-Überwachung durch ein automatisches Meldesystem

Bei guter Konzeption erreicht man damit eine Verfügbarkeitsklasse 3 oder besser, was Ausfallzeiten von höchstens neun Stunden pro Jahr entspricht. Cluster - auch virtualisierte – arbeiten im Falle einer Störung nicht wirklich unterbrechungsfrei. Der Neustart von virtualisierten Systemen und Anwendungen sowie die Initialisierung von Datenbanken dauert einige Minuten, allerdings werden alle erforderlichen Prozesse automatisch durchgeführt und haben daher eine hohe Robustheit.

Die hierfür anzusetzenden Systemkosten (Hardware, virtualisierte Ausfallsicherheit) starten – in Abhängigkeit von Leistungsbedarf und Datenvolumen – in der Größenordnung von 14.000 bis 18.000 Euro. Eine Erhöhung der Verfügbarkeit über Klasse 3 oder 4 hinaus ist mit progressiv steigenden Kosten verbunden, so dass sich der damit mögliche Zuwachs an Verfügbarkeit bei den meisten Geschäftsmodellen nicht mehr rechnet.

 

Risikowahrscheinlichkeit und Schadenshöhe:

Die Berechnung der Risikowahrscheinlichkeit beruht auf statistischen Methoden, bei denen die Ausfallwahrscheinlichkeiten der relevanten Systemkomponenten auf das Ausfallrisiko des Gesamtsystems (einschließlich der „weichen Faktoren“ wie menschliche Fehler) hoch gerechnet wird. Dies ist offensichtlich eine schwierige Aufgabe und sollte von Spezialisten durchgeführt werden. Ein wichtiger Faktor in diesem Prozess ist die Evaluierung eines jeden Systems in Hinblick auf die Reichweite und Konsequenzen eines Ausfalls.

Auch die Analyse der entstehenden Kosten/Verluste durch Ausfall von IT-Systemen ist im Detail nicht einfach. Während man die Verluste durch verlorene Einnahmen (beispielsweise von Web-Shops oder Webmarketing-Businessmodellen) auf Basis von Durchschnittswerten noch einfach berechnen kann, gestalten sich die Überlegungen für Produktionsausfälle, verlorene Personalkosten oder der Schaden durch Datenverluste schon schwieriger und hängen stark vom Geschäft des Unternehmens ab.

Um belastbare Zahlen zu erhalten, sollte man qualifizierte Spezialisten hinzuziehen, auch wenn es im Internet Kalkulationsmodelle für die Berechnung der Downtime-Kosten gibt.

Noch abstrakter wird es, will man den Image-Verlust für das Unternehmen oder potentielle Kundenverluste durch Nicht-Verfügbarkeit quantifizieren.

 

Fazit:

Selbst wenn wir – insbesondere in der hier gebotenen Kürze und wegen der hohen Abhängigkeit vom Unternehmenszweck und anderen Faktoren – keine konkreten Zahlen berechnen können, ist jedenfalls klar, dass die Schäden selbst bei konservativen Annahmen sofort Höhen von 20.000 bis 30.000 Euro erreichen.

Vor der Prämisse, dass Ausfallsicherheit nach o. g. Definition ab ca. 14.000 EUR darstellbar ist, spricht alles dafür, diesen Schritt zu tun. Neben der höheren Verfügbarkeit bieten sich darüber hinaus weitere Vorteile wie höhere Leistung und mehr Flexibilität beim Betrieb der IT.