M 6.98 Notfallvorsorge für Speichersysteme
Verantwortlich für Initiierung: IT-Sicherheitsbeauftragter, Leiter IT
Verantwortlich für Umsetzung: Administrator, Leiter IT
Fehlerbehandlung bei Speichersystemen
In jedem IT-Betrieb treten Störungen auf, die vom sporadischen Fehlverhalten von Komponenten bis zum klar abzugrenzenden Ausfall eines Geräts reichen können. Grundlage eines sicheren Betriebs ist die Vorbereitung auf Störungssituationen. Hierzu gehören Ausfälle oder Beeinträchtigungen von Hardware und Software beispielsweise auf Grund von Defekten oder Kompromittierungen.
Um in derartigen Situationen effektiv und schnell reagieren zu können, müssen Diagnose und Fehlerbehebung bereits im Vorfeld geplant und vorbereitet werden. Für typische und für bereits aufgetretene Ausfallszenarien sollten Handlungsanweisungen erstellt werden. Eine kochbuchartige Dokumentationen von Maßnahmen und Kommandos, die die Fehleranalyse und Fehlerkorrektur unterstützen, ist besonders hilfreich.
Gerade bei komplexen Systemen wie einem Speichersystem ist die Darstellung von Verknüpfungen und Abhängigkeiten, die individuell für die Institution sind, entscheidend für die Beurteilung von Störungen und schnelles und sicheres Eingreifen.
Zu den Voraussetzungen für den Erfolg der Diagnosearbeiten gehört eine geeignete Protokollierung während des Betriebs (siehe auch M 2.359 Überwachung und Verwaltung von Speichersystemen). Weiterhin sollten für die Fehlerbehandlung geeignete Werkzeuge genutzt werden. Dazu existieren sowohl frei verfügbare als auch kommerzielle Programme, oft auch vom Hersteller der Geräte. Die Verwendung geeigneter Werkzeuge ist umso wichtiger, da bei komplexen Systemen nicht die Kontrolle und Steuerung der einzelnen Komponente, sondern die Übersicht über das Zusammenwirken von Hard- und Software des oftmals sehr heterogenen Gesamtsystems gefordert ist.
Es muss klar sein, dass gerade bei Speichersystemen nach Störungen und Notfällen eine Rückführung in den Normalbetrieb nur dann möglich ist, wenn eine brauchbare Datensicherung bereit steht. Eine Prüfung der Wiederherstellbarkeit von Datensicherungen (siehe M 6.22 Sporadische Überprüfung auf Wiederherstellbarkeit von Datensicherungen) muss regelmäßig durchgeführt werden.
Die Vorgehensweise bei der Fehlerbehandlung von Speichersystemen lässt sich in die Bereiche Administration, Performancemessung und Diagnose unterteilen. Nachfolgend werden die jeweils zu berücksichtigenden Aspekte dargestellt:
Administration
In einem Betriebshandbuch sollten alle notwendigen Kommandos zu Administration und Konfiguration dokumentiert werden.
Folgende Bereiche sind zu berücksichtigen:
- Einrichten von (administrativen) Nutzern, Vergabe von Berechtigungen
- Update von Firmware und Betriebssystem
- Konfiguration
- der Speicherressourcen
- der administrativen Zugänge
- der angeschlossenen Server und Sicherungsgeräte
- Protokollierung
Performance
Folgende Aspekte sollten für Beobachtungen und Aussagen über die Performance berücksichtigt werden:
- Belegung der Medien (pro logischem oder physischem Gerät)
- Durchsatz pro Interface
- Statistikinformationen zur Benutzung
Diagnose
Alle für die Fehlerdiagnose notwendigen Kommandos sowie die zu erwarteten Aussagen und ihre Bedeutung sollten dokumentiert sein. Dazu zählen beispielsweise Aussagen über die Zustände der verschiedenen Systemkomponenten, Schnittstellen sowie Aussagen über die aktuellen Konfigurationen.
Unter anderem sind folgende Informationen für die Fehlerdiagnose relevant:
- Status der Netz-Interfaces und der sonstigen Anschlüsse
- Status der Netzdienste (TCP/IP bei NAS-Systemen, spezifische Informationen beim SAN, z. B. Status der SAN-Switches)
- Gesamtkonfiguration als Überblick
- Prozesse
- Zuordnung
- Angemeldete Benutzer
- Protokollierung (Nutzung der Log-Level, Interpretation der Log-Informationen)
Notfallvorsorge zur Steigerung der Verfügbarkeit
Durch eine Planung des Vorgehens bei Störungen kann die Zeit zur Wiederherstellung minimiert und unter Umständen eine Lösung überhaupt erst ermöglicht werden. Die Planungen sind mit der übergreifenden Störungs- und Notfallvorsorge abzustimmen und sollten sich am allgemeinen Notfallvorsorgekonzept orientieren (siehe Baustein B 1.3 Notfallmanagement). Hier werden generelle Vorgaben für Notfalldokumente im gesamten IT-Betrieb formuliert. Diese legen idealerweise einheitliche und verbindliche Anforderungen beziehungsweise Aufbau, Inhalt und Form fest.
Die genauen Verfügbarkeitsanforderungen an die Speichersysteme müssen klar definiert sein.
Folgende Fragestellungen sind für die Notfallvorsorge relevant:
- Was sind Gründe für mögliche Störungen?
- Hardware-Defekte
- Zu geringe Dimensionierung (Störung oder Ausfall bei Steigerung der Nutzung)
- Welche Anforderungen bestehen an das Monitoring?
- Wie kann eine frühzeitige Störungserkennung sicher gestellt werden?
- Zusammenstellung der Informationen, die von den für den Betrieb der Speichersysteme verantwortlichen Stellen immer ausgewertet werden
- Welche Vorsorgemaßnahmen können getroffen werden?
- Ersatzgeräte
- Ersatzteile
- Implementierung von Failover-Lösungen, die im laufenden Betrieb ein Umschalten auf ein Alternativgerät ermöglichen
- Wartungsverträge
- Ausbildung der Mitarbeiter
- Welche Service Level Agreements (SLAs) sollten getroffen werden?
- Hardware-Lieferanten (beispielsweise Vor-Ort-Austausch mit Zeitgarantie für bestimmte Komponenten)
- Verwaltung der Service Level Agreements: Es muss sichergestellt werden, dass SLAs rechtzeitig verlängert werden beziehungsweise rechtzeitig an die aktuellen Anforderungen angepasst werden.
Verwaltung von Service Level Agreements:
SLAs werden in der Regel für einen begrenzten Zeitraum abgeschlossen und nicht immer automatisch verlängert. Darüber hinaus passiert es häufig, dass die Preise für die Verlängerung von SLAs für längere Zeiträume deutlich steigen oder dass diese für veraltete Systeme gar nicht mehr angeboten werden, so dass möglicherweise eine Investition in neuen Speichersystemen günstiger ist. Dies muss rechtzeitig bedacht und geplant werden.
Dokumentation zur Notfallvorsorge
Das genaue Vorgehen in bestimmten Notfallsituationen muss in einem Notfallplan beschrieben werden. Dies beinhaltet folgende Punkte:
- Wie ist eine Diagnose durchzuführen? Folgende Informationen können dabei behilflich sein:
- Statusabfragen
- Anzeige der Konfiguration
- Anzeige der laufenden Prozesse
- Angemeldete Nutzer
- Protokollierung
- Welche Entstörungsprozeduren müssen durchgeführt werden?
- Vorgehen bei Ausfall des Komplettsystems (Wiederherstellen von Betriebssystem und Konfiguration)
- Vorgehen bei Ausfall von Teilkomponenten, beispielsweise Speicher
- Wer ist im Schadensfall zu benachrichtigen?
- Server- und Anwendungsadministration
- Hardware-Lieferant/Ansprechpartner für den Wartungsvertrag
- Alle notwendigen Informationen zu den Wartungsverträgen und Service Level Agreements, Hotline-Nummern, Kunden- oder Geräteidentifikationsnummern
- Welche Dokumente müssen im Schadensfall verfügbar sein?
- Grundkonfiguration zur (Wieder-)Inbetriebnahme
- Änderungen der Grundkonfiguration um die aktuelle Betriebskonfiguration einzurichten
- Regelwerk für die Zugriffskontrolle (Access Control Lists)
- Eingerichtete Benutzer und Berechtigungen
- Passwörter für Notfall-Zugriffe
- Wie verläuft der Wiederanlauf?
- Abhängigkeiten zu anderen Systemen des IT-Verbunds
- Neuinstallation des Betriebssystems und Konfiguration
- Zurückspielen einer gesicherten Konfiguration
- Möglichkeiten eines eingeschränkten Betriebs
- Remote-Betrieb an einem anderen Standort
Die für die Notfallvorsorge notwendigen Vorgehensbeschreibungen sind möglichst sorgfältig zu erstellen und regelmäßig zu erproben. Eventuell müssen variierende Vorgehensweisen bei unterschiedlichen Gerätetypen und Betriebssystemen berücksichtigt werden.
Die Dokumentation sollte keinesfalls ausschließlich elektronisch vorliegen. Handlungsanweisungen sollten mindestens auch in Papierform existieren. Gegebenenfalls können Konfigurationsdateien auch auf CD-ROM gesondert hinterlegt werden.
Die wahrscheinlich wichtigste Maßnahme zur Steigerung der Verfügbarkeit ist die Vorhaltung von Ersatzteilen, um bei Hardware-Defekten die Ausfallzeiten zu minimieren. Alternativ oder auch als Ergänzung hierzu können Wartungsverträge mit dem Hersteller abgeschlossen werden, die durch garantierte Reaktions- oder sogar Reparaturzeiten die Verfügbarkeit sicherstellen. Hierdurch lassen sich Kosten für die Lagerhaltung reduzieren oder eine noch höhere Hardwareverfügbarkeit erreichen. Im Rahmen eines solchen Vertrages kann auch die Versorgung mit Software-Updates geregelt werden.
Ergänzende Kontrollfragen:
- Gibt es einen schriftlichen Notfallplan für die Speichersysteme?
- Ist dieser zugänglich aufbewahrt, besonders auch im Falle eines Katastrophe, welcher den Zugang zum Rechenzentrum erschwert oder behindert?
- Ist der Notfallplan aktuell? Wie wird die Aktualität sichergestellt?
- Wurden Verantwortlichkeiten im Notfall definiert?
- Werden Störungs- und Notfallprozeduren regelmäßig getestet?
- Kann der Notfallplan auch von einem anderen Mitarbeiter (der den Plan nicht selbst geschrieben hat oder der kein entsprechender Systemspezialist ist) ausgeführt werden?