M 6.98 Notfallvorsorge für Speichersysteme

Verantwortlich für Initiierung: IT-Sicherheitsbeauftragter, Leiter IT

Verantwortlich für Umsetzung: Administrator, Leiter IT

Fehlerbehandlung bei Speichersystemen

In jedem IT-Betrieb treten Störungen auf, die vom sporadischen Fehlverhalten von Komponenten bis zum klar abzugrenzenden Ausfall eines Geräts reichen können. Grundlage eines sicheren Betriebs ist die Vorbereitung auf Störungssituationen. Hierzu gehören Ausfälle oder Beeinträchtigungen von Hardware und Software beispielsweise auf Grund von Defekten oder Kompromittierungen.

Um in derartigen Situationen effektiv und schnell reagieren zu können, müssen Diagnose und Fehlerbehebung bereits im Vorfeld geplant und vorbereitet werden. Für typische und für bereits aufgetretene Ausfallszenarien sollten Handlungsanweisungen erstellt werden. Eine kochbuchartige Dokumentationen von Maßnahmen und Kommandos, die die Fehleranalyse und Fehlerkorrektur unterstützen, ist besonders hilfreich.

Gerade bei komplexen Systemen wie einem Speichersystem ist die Darstellung von Verknüpfungen und Abhängigkeiten, die individuell für die Institution sind, entscheidend für die Beurteilung von Störungen und schnelles und sicheres Eingreifen.

Zu den Voraussetzungen für den Erfolg der Diagnosearbeiten gehört eine geeignete Protokollierung während des Betriebs (siehe auch M 2.359 Überwachung und Verwaltung von Speichersystemen ). Weiterhin sollten für die Fehlerbehandlung geeignete Werkzeuge genutzt werden. Dazu existieren sowohl frei verfügbare als auch kommerzielle Programme, oft auch vom Hersteller der Geräte. Die Verwendung geeigneter Werkzeuge ist umso wichtiger, da bei komplexen Systemen nicht die Kontrolle und Steuerung der einzelnen Komponente, sondern die Übersicht über das Zusammenwirken von Hard- und Software des oftmals sehr heterogenen Gesamtsystems gefordert ist.

Es muss klar sein, dass gerade bei Speichersystemen nach Störungen und Notfällen eine Rückführung in den Normalbetrieb nur dann möglich ist, wenn eine brauchbare Datensicherung bereit steht. Eine Prüfung der Wiederherstellbarkeit von Datensicherungen (siehe M 6.22 Sporadische Überprüfung auf Wiederherstellbarkeit von Datensicherungen ) muss regelmäßig durchgeführt werden.

Die Vorgehensweise bei der Fehlerbehandlung von Speichersystemen lässt sich in die Bereiche Administration, Performancemessung und Diagnose unterteilen. Nachfolgend werden die jeweils zu berücksichtigenden Aspekte dargestellt:

Administration

In einem Betriebshandbuch sollten alle notwendigen Kommandos zu Administration und Konfiguration dokumentiert werden.

Folgende Bereiche sind zu berücksichtigen:

Performance

Folgende Aspekte sollten für Beobachtungen und Aussagen über die Performance berücksichtigt werden:

Diagnose

Alle für die Fehlerdiagnose notwendigen Kommandos sowie die zu erwarteten Aussagen und ihre Bedeutung sollten dokumentiert sein. Dazu zählen beispielsweise Aussagen über die Zustände der verschiedenen Systemkomponenten, Schnittstellen sowie Aussagen über die aktuellen Konfigurationen.

Unter anderem sind folgende Informationen für die Fehlerdiagnose relevant:

Notfallvorsorge zur Steigerung der Verfügbarkeit

Durch eine Planung des Vorgehens bei Störungen kann die Zeit zur Wiederherstellung minimiert und unter Umständen eine Lösung überhaupt erst ermöglicht werden. Die Planungen sind mit der übergreifenden Störungs- und Notfallvorsorge abzustimmen und sollten sich am allgemeinen Notfallvorsorgekonzept orientieren (siehe Baustein B 1.3 Notfallmanagement ). Hier werden generelle Vorgaben für Notfalldokumente im gesamten IT-Betrieb formuliert. Diese legen idealerweise einheitliche und verbindliche Anforderungen beziehungsweise Aufbau, Inhalt und Form fest.

Die genauen Verfügbarkeitsanforderungen an die Speichersysteme müssen klar definiert sein.

Folgende Fragestellungen sind für die Notfallvorsorge relevant:

Verwaltung von Service Level Agreements:

SLAs werden in der Regel für einen begrenzten Zeitraum abgeschlossen und nicht immer automatisch verlängert. Darüber hinaus passiert es häufig, dass die Preise für die Verlängerung von SLAs für längere Zeiträume deutlich steigen oder dass diese für veraltete Systeme gar nicht mehr angeboten werden, so dass möglicherweise eine Investition in neuen Speichersystemen günstiger ist. Dies muss rechtzeitig bedacht und geplant werden.

Dokumentation zur Notfallvorsorge

Das genaue Vorgehen in bestimmten Notfallsituationen muss in einem Notfallplan beschrieben werden. Dies beinhaltet folgende Punkte:

Die für die Notfallvorsorge notwendigen Vorgehensbeschreibungen sind möglichst sorgfältig zu erstellen und regelmäßig zu erproben. Eventuell müssen variierende Vorgehensweisen bei unterschiedlichen Gerätetypen und Betriebssystemen berücksichtigt werden.

Die Dokumentation sollte keinesfalls ausschließlich elektronisch vorliegen. Handlungsanweisungen sollten mindestens auch in Papierform existieren. Gegebenenfalls können Konfigurationsdateien auch auf CD-ROM gesondert hinterlegt werden.

Die wahrscheinlich wichtigste Maßnahme zur Steigerung der Verfügbarkeit ist die Vorhaltung von Ersatzteilen, um bei Hardware-Defekten die Ausfallzeiten zu minimieren. Alternativ oder auch als Ergänzung hierzu können Wartungsverträge mit dem Hersteller abgeschlossen werden, die durch garantierte Reaktions- oder sogar Reparaturzeiten die Verfügbarkeit sicherstellen. Hierdurch lassen sich Kosten für die Lagerhaltung reduzieren oder eine noch höhere Hardwareverfügbarkeit erreichen. Im Rahmen eines solchen Vertrages kann auch die Versorgung mit Software-Updates geregelt werden.

Prüffragen: