M 6.98 Notfallvorsorge und Notfallreaktion für Speicherlösungen

Verantwortlich für Initiierung: IT-Sicherheitsbeauftragter, Leiter IT

Verantwortlich für Umsetzung: Administrator, Leiter IT

Um die Verfügbarkeit und Integrität der Speicherlösung sicherzustellen, sind umfassende Maßnahmen zur Notfallvorsorge erforderlich. Diese können zum einen darin bestehen, rechtzeitig Fehler zu erkennen und zu behandeln und zum anderen aus den Anforderungen an den ordnungsgemäßen Betrieb resultieren. Darüber hinaus ist eine Dokumentation der Maßnahmen zur Notfallvorsorge erforderlich, um im Notfall die angemessene Behandlung sicherstellen zu können.

Fehlerbehandlung bei Speicherlösungen

In jedem IT-Betrieb treten Störungen auf, die vom sporadischen Fehlverhalten von Komponenten bis zum klar abzugrenzenden Ausfall eines Geräts reichen können. Grundlage eines sicheren Betriebs ist die Vorbereitung auf solche Störungssituationen. Hierzu gehören Ausfälle oder Beeinträchtigungen von Hardware und Software beispielsweise aufgrund von Defekten oder Kompromittierungen.

Um in derartigen Situationen effektiv und schnell reagieren zu können, müssen Diagnose und Fehlerbehebung bereits im Vorfeld geplant und vorbereitet werden. Für typische und für bereits aufgetretene Ausfallszenarien sollten Handlungsanweisungen erstellt werden. Eine kochbuchartige Dokumentation von Maßnahmen und Kommandos, die die Fehleranalyse und Fehlerkorrektur unterstützen, ist besonders hilfreich. Besteht in der Institution ein umfassendes Notfallmanagement (siehe Baustein B 1.3 Notfallmanagement), sollte es Vorlagen für solche Wiederherstellungspläne geben, die hier genutzt werden sollten. So kann sichergestellt werden, dass das Notfallteam alle Informationen in geeigneter Form vorliegen hat.

Gerade bei komplexen Systemen wie einer Speicherlösung ist die Darstellung von Verknüpfungen und Abhängigkeiten, die sich in jeder Institution individuell gestalten, entscheidend für die Beurteilung von Störungen und schnelles und zielgerichtetes Eingreifen.

Zu den Voraussetzungen für den Erfolg der Diagnosearbeiten gehört eine geeignete Protokollierung während des Betriebs (siehe auch M 2.359 Überwachung und Verwaltung von Speicherlösungen). Weiterhin sollten für die Fehlerbehandlung geeignete Werkzeuge genutzt werden. Dazu existieren sowohl frei verfügbare als auch kommerzielle Programme, oft auch vom Hersteller der Speicherlösung und seiner Komponenten. Die Verwendung geeigneter Werkzeuge ist umso wichtiger, da bei komplexen Lösungen nicht die Kontrolle und Steuerung der einzelnen Komponente, sondern die Übersicht über das Zusammenwirken von Hard- und Software der oftmals sehr heterogenen Gesamtlösung gefordert ist.

Die Pläne, um Störungen zu behandeln, und auch das automatisierte Vorgehen in einem Notfall (Umschwenken auf andere SANs, Replikationstests etc.) müssen getestet werden und sollten auch im Rahmen von Notfallübungen mitgeübt werden. Bei Notfalltests und Notfallübungen mit Speicherlösungen weist die Nachbereitung eine Besonderheit auf, da durch Tests und Übungen große Datenmengen erzeugt werden. Diese Daten können besonderen Schutzbedarf bezüglich Vertraulichkeit aufweisen oder personenbezogene Daten enthalten. Insbesondere in einem solchen Fall, aber auch bei normalem Schutzbedarf müssen die Daten gemäß den Anforderungen nach Abschluss der Übung sicher gelöscht werden (siehe Maßnahme M 2.527 Sicheres Löschen in SAN-Umgebungen). Der hierdurch notwendige zusätzliche Aufwand muss in der Planung dieser Tests und Übungen berücksichtigt werden. Auch die Wiederanlauf- und Wiederherstellungspläne müssen die Löschung überflüssiger Daten, die im Rahmen der Bewältigung des Notfalls erzeugt wurden, mit berücksichtigen.

Es muss klar sein, dass gerade bei Speicherlösungen nach Störungen und Notfällen in Verbindung mit Datenverlust eine Rückführung in den Normalbetrieb nur dann möglich ist, wenn eine brauchbare Datensicherung bereitsteht. Eine Prüfung der Wiederherstellbarkeit von Datensicherungen (siehe M 6.22 Sporadische Überprüfung auf Wiederherstellbarkeit von Datensicherungen) muss regelmäßig durchgeführt werden.

Die Vorgehensweise bei der Fehlerbehandlung von Speicherlösungen lässt sich in die Bereiche Administration, Performancemessung und Diagnose unterteilen. Nachfolgend werden die jeweils zu berücksichtigenden Aspekte dargestellt:

Administration

In einem Betriebshandbuch sollten alle notwendigen Kommandos zur Administration und Konfiguration dokumentiert werden.

Folgende Bereiche sind zu berücksichtigen:

Performance

Folgende Aspekte sollten für Beobachtungen und Aussagen über die Performance berücksichtigt werden:

Diagnose

Alle für die Fehlerdiagnose ("Debugging") notwendigen Kommandos sowie die zu erwarteten Aussagen und ihre jeweilige Bedeutung sollten dokumentiert sein. Dazu zählen beispielsweise Aussagen über die Zustände der verschiedenen Systemkomponenten und Schnittstellen sowie über die aktuellen Konfigurationen.

Unter anderem sind folgende Informationen für die Fehlerdiagnose relevant:

Notfallvorsorge zur Steigerung der Verfügbarkeit

Durch die Planung des Vorgehens bei Störungen kann die Zeit zur Wiederherstellung minimiert und unter Umständen eine Lösung überhaupt erst ermöglicht werden. Die Planungen sind mit dem übergreifenden Notfallmanagement abzustimmen und sollten sich am allgemeinen Notfallkonzept orientieren (siehe Baustein B 1.3 Notfallmanagement). In dem allgemeinen Notfallkonzept werden generelle Vorgaben für Notfalldokumente im gesamten IT-Betrieb formuliert. Diese legen idealerweise einheitliche und verbindliche Anforderungen beziehungsweise Aufbau, Inhalt und Form fest. Allerdings sollten bei dieser Eingliederung in das allgemeine Notfallmanagement die Besonderheiten bei der Notfallvorsorge und Notfallbehandlung von Speichersystemen nicht unbeachtet bleiben. Die genauen Verfügbarkeitsanforderungen an die Speicherlösungen müssen klar definiert sein.

Folgende Fragestellungen sind für die Notfallvorsorge relevant:

Weitere Hinweise zur Notfallvorsorge und Notfallreaktion, gerade wenn an das SAN höherer Schutzbedarf bezüglich Verfügbarkeit besteht, sind im Hochverfügbarkeitskompendium auf den Internetseiten des BSI zu finden.

Verwaltung von Service Level Agreements:

SLAs werden in der Regel für einen begrenzten Zeitraum abgeschlossen und nicht immer automatisch verlängert. Darüber hinaus passiert es häufig, dass die Preise für die Verlängerung von SLAs für längere Zeiträume deutlich steigen oder dass diese für veraltete Systeme gar nicht mehr angeboten werden. In diesem Fall sollte geprüft werden, ob möglicherweise eine Investition in neue Speichersysteme langfristig kostengünstiger ist. Dies muss rechtzeitig berücksichtigt und geplant werden.

Notfallvorsorge bei Cloud-Speicherlösungen

Bei der Nutzung von Cloud-Speicherlösungen sollte sich eine Institution bereits bei der Auswahl eines Dienstleisters und der entsprechenden Vertragsgestaltung (M 2.356 Vertragsgestaltung mit Dienstleistern für Speicherlösungen und M 2.541 Vertragsgestaltung mit dem Cloud-Diensteanbieter) über Notfallvorsorgemaßnahmen des Anbieters erkundigen. Bedingt durch das starke Abhängigkeitsverhältnis von Cloud-Serviceprovidern ist die Notfallvorsorge allein aufseiten der nutzenden Institution nicht ausreichend. Weitere Hinweise zur Notfallvorsorge bei Cloud-Speicherlösungen finden sich unter anderem in M 6.155 Erstellung eines Notfallkonzeptes für einen Cloud Service.

Dokumentation zur Notfallvorsorge

Das genaue Vorgehen in bestimmten Notfallsituationen muss in einem Notfallplan beschrieben werden. Das Vorgehen sollte folgende Punkte beinhalten:

Die für die Notfallvorsorge notwendigen Vorgehensbeschreibungen sind möglichst sorgfältig zu erstellen und regelmäßig zu erproben. Eventuell müssen variierende Vorgehensweisen bei unterschiedlichen Gerätetypen und Betriebssystemen berücksichtigt werden.

Die Dokumentation sollte keinesfalls ausschließlich elektronisch vorliegen. Handlungsanweisungen sollten mindestens auch in Papierform existieren. Gegebenenfalls können Konfigurationsdateien auch auf einen externen Datenträger wie CD-ROM oder USB-Stick gesondert hinterlegt werden.

Die wahrscheinlich wichtigste Maßnahme zur Steigerung der Verfügbarkeit ist die Vorhaltung von Ersatzteilen, um bei Hardwaredefekten die Ausfallzeiten zu minimieren. Alternativ oder auch als Ergänzung hierzu können Wartungsverträge mit dem Hersteller abgeschlossen werden, die durch garantierte Reaktions- oder sogar Reparaturzeiten die Verfügbarkeit sicherstellen. Hierdurch lassen sich Kosten für die Lagerhaltung reduzieren oder eine noch höhere Hardwareverfügbarkeit erreichen. Im Rahmen eines solchen Vertrages kann auch die Versorgung mit Software-Updates geregelt werden (Softwarewartung). Gegebenenfalls ist im Rahmen des allgemeinen Notfallmanagements ein gestaffelter Wiederanlauf für die Speicherlösung vorgesehen. In diesem Fall wird erst ein Teil der Speicherlösung wieder in Betrieb genommen, sodass die zeitkritischsten Geschäftsprozesse im nötigen Umfang eines Notbetriebs laufen können. In diesem Fall existieren neben den Wiederherstellungsplänen auch Wiederanlaufpläne, die den gleichen Anforderungen unterworfen sind, wie die Wiederherstellungspläne.

Durch den Einsatz von Speichervirtualisierung ergeben sich neue Möglichkeiten zur Notfallvorsorge. So kann beispielsweise eine redundante Speicherung auf verschiedenen Speichersystemen durch die Speichervirtualisierung (Distributed LUN) gewährleistet werden. Auf diesem Weg wird ein Hot-Standby der Speicherlösung realisiert, durch das Ausfallzeiten fast gänzlich vermieden werden können.

Prüffragen: