Der weit verbreitete Ausfall von Google Workspace ist eine rechtzeitige Warnung vor E-Mail-Kontinuität
Berichtetes Authentifizierungsproblem führt zu mehreren Serviceausfällen beim Cloud-Giganten und verursacht weltweite Produktivitätsunterbrechungen.
Haben Sie am Montag in Ihrem Schlafanzug geschwitzt, als Sie feststellten, dass nicht nur Ihr Google Nest-Thermostat ausgefallen war, sondern fast alle von Google angebotenen Dienste? Sie waren nicht allein, denn IT-Administratoren und Nutzer auf der ganzen Welt wurden an die Gefahr erinnert, sich zu sehr auf einen einzigen IT-Dienstleister zu verlassen.
Während des Vorfalls zeigte das Google Workspace Status Dashboard, dass Gmail, Google Calendar, Docs und eine Reihe anderer Dienste Probleme hatten, die eine Authentifizierung der Nutzer verhinderten. DownDetector zeigte 49.681 Spitzenberichte während des Ausfalls an. Ein Google-Sprecher teilte später mit, dass das Authentifizierungssystem aufgrund eines internen Speicherkontingentproblems für etwa 45 Minuten ausgefallen sei.
Selbst bei einer relativ kurzen Ausfallzeit können die daraus resultierenden Störungen erheblich sein - vor allem, wenn Millionen von Nutzern auf der ganzen Welt mehr als je zuvor auf diese Tools angewiesen sind. Das Wall Street Journal berichtete , wie die Wayne-Westland Community Schools in Westland, Michigan, ihren rund 9.800 Schülern nach einer morgendlichen Störung den Tag frei gaben. "Das ist der neue Schneetag", sagte die Sprecherin der Schule zu dem Reporter, der seine Story auch per Telefon einreichen musste, während Google nicht funktionierte.
Glücklicherweise sind solche groß angelegten Ausfälle in den Systemen von Google selten, aber sicherlich nicht folgenlos. Google Workspace wurde im Oktober eingeführt, ersetzte die Marke G Suite und wurde als angepriesen: "Alles, was Sie brauchen, um alles zu erledigen, jetzt an einem Ort." Google Workspace umfasst jetzt Gmail, Kalender, Drive, Docs, Sheets, Slides, Meet, Chat - alles enger integriert als je zuvor.
Einzelner Fehlerpunkt
Leider birgt diese enge Kopplung und gemeinsame Plattform auch ein erhöhtes Risiko eines kaskadenartigen Ausfalls.
Authentifizierungsdienste sollten für Business-Continuity-Experten ein bekannter potenzieller Fehlerpunkt sein, und es ist nicht das erste Mal, dass diese Art von Dienstausfall zu weitreichenden Störungen führt. Bereits im September wurde Microsoft von langwierigen Serviceproblemen geplagt, die mit einem Teil seines Authentifizierungssystems, Azure Active Directory, zusammenhingen und dazu führten, dass ein Teil der Nutzer von mehreren Cloud-basierten Microsoft-Diensten ausgeschlossen wurde. Weitere Ausfälle von Microsoft im Oktober, November und Dezember zeigten erneut das wachsende Produktivitätsproblem, das sich aus der versteckten Komplexität der Cloud-Kontinuitätsplanung ergibt.
Diese Ausfälle können eine erhebliche Herausforderung für die Produktivität der Endnutzer, die Sicherheit und in einigen Fällen auch für die Einhaltung von Vorschriften darstellen. Am Beispiel von E-Mail haben sich einige Unternehmen an Google gewandt, um eine kostengünstige Alternative zu Microsoft Exchange Online zu finden, das im Rahmen des Microsoft 365-Dienstes verfügbar ist. Anstatt einen eigenen Exchange-Server in einer physischen oder virtuellen Umgebung zu unterhalten, vertrauen sie ihrem Cloud-Anbieter - in diesem Fall Google - die Verwaltung ihres E-Mail-Dienstes an.
Wunschdenken
Das Problem ist, dass immer mehr Unternehmen, Verbraucher und sogar Regierungen im Zuge des Wettlaufs zur Cloud jahrzehntelange bewährte IT-Praktiken über Bord werfen und die Bereitstellung von Redundanzdiensten vernachlässigen. Jahrzehntelang beinhaltete die übliche Praxis für kritische Geschäftssysteme immer einen Plan B. Zwei Telefonleitungen, zwei unabhängige Internetdienstanbieter, zwei Datenarchive, ein Notstromaggregat - das "Zwei-Fallschirme-Denken", um das Leben kritischer Geschäftsfunktionen zu erhalten.
Aber es sind natürlich schwierige Zeiten. Projekte zur digitalen Transformation wurden aufgrund der COVID-19-Pandemie beschleunigt, und fast alle Unternehmen mussten die Art und Weise der Zusammenarbeit intern und mit Kunden, Partnern - oder sogar Studenten, wie im obigen Beispiel - neu überdenken. Daher stehen IT-Teams unter erheblichem zeitlichem und finanziellem Druck, um neue Tools zum Laufen zu bringen, wobei sie - zumindest im Vorfeld - oft nur wenig Rücksicht auf traditionelle Disaster-Recovery- und sogar Sicherheitsüberlegungen nehmen.
Resilienz-Ziele
Die Anbieter von Cloud-Diensten bauen zwar einige ihrer eigenen internen Redundanzen ein, konzentrieren sich aber oft auf die Datenintegrität mit einem Recovery Point Objective (RPO) von Null (d. h. kein Datenverlust bei Ausfallzeiten). Bei der Aufrechterhaltung der Verfügbarkeit eines Dienstes klaffen jedoch große Lücken, die noch kein einziger Anbieter gelöst hat. Die Homogenität der Dienste bietet zwar große wirtschaftliche Vorteile, birgt aber auch das Risiko weitreichender Ausfallzeiten, wenn Systeme oder gemeinsam genutzte Dienste beeinträchtigt werden oder ausfallen.
Hier kommt die andere kritische Größe, die Wiederherstellungszeit (Recovery Time Objective, RTO), ins Spiel. Jede Organisation muss dies für jeden von ihr genutzten Cloud-Dienst berechnen. Die RTO ist die Zeit und das Serviceniveau, innerhalb derer ein Geschäftsprozess nach einer Katastrophe wiederhergestellt werden muss, um unannehmbare Auswirkungen durch eine Unterbrechung der Verfügbarkeit zu vermeiden.
Google selbst bietet eine beeindruckende Abhandlung über die Disaster-Recovery-Architektur an, ist jedoch nicht in der Lage, Ihrem Unternehmen einen stets verfügbaren Dienst zu bieten. Und genau das Gleiche gilt für Microsoft, AWS und sogar Mimecast. Letzteres bietet einen E-Mail-Kontinuitätsdienst an, der eingesetzt werden kann, wenn Ihr primärer E-Mail-Dienst ausfällt. Sie können zwar kein eigenes YouTube erstellen, aber Sie können sicherstellen, dass Sie eine Sicherungskopie Ihrer Schulungsvideos dort gehostet haben. Ebenso sind Sie in der Lage, die Redundanz für Ihre kritischen Geschäftsfunktionen zu besitzen, z. B. die Möglichkeit, virtuelle Meetings und Anrufe durchzuführen und E-Mails zu versenden.
Nur Ihr Unternehmen kann das erforderliche Maß an Ausfallsicherheit für jeden Geschäftsdienst oder jede IT-Anwendung, auf die Sie angewiesen sind, bestimmen. Aber jeder IT- und Risikomanagementexperte hat die Aufgabe, diese Risiken zu bewerten und im Vorfeld des nächsten großen Ausfalls entsprechende Pläne zu erstellen.
Kein Unternehmen ist vor Fehlschlägen gefeit, und deshalb verwenden wir zwei Fallschirme - und gegebenenfalls zwei Wolken.
Abonnieren Sie Cyber Resilience Insights für weitere Artikel wie diesen
Erhalten Sie die neuesten Nachrichten und Analysen aus der Cybersicherheitsbranche direkt in Ihren Posteingang
Anmeldung erfolgreich
Vielen Dank, dass Sie sich für den Erhalt von Updates aus unserem Blog angemeldet haben
Wir bleiben in Kontakt!