Microsoft hat seine ersten Schlussfolgerungen darüber veröffentlicht, was seiner Meinung nach zu einem größeren aktuellen Ausfall geführt hat, der einige seiner beliebtesten Softwareangebote betraf.
Durch den Ausfall konnten sich Mitarbeiter in ganz Europa und Asien mehrere Stunden lang nicht bei Microsoft 365-Diensten anmelden, darunter Microsoft Teams, Outlook, OneDrive for Business, Exchange Online und SharePoint.
Nachdem Microsoft zunächst „eine Änderung des WAN-Routings (Wide Area Networking)“ als Schuldigen identifiziert hatte, hat Microsoft dies nun veröffentlicht die Ergebnisse (öffnet in neuem Tab) seiner anfänglichen Untersuchung des Ausfalls und enthüllte, dass die Dinge tatsächlich ein wenig komplizierter waren.
Microsoft Teams-Ausfall erklärt
„Zwischen 07:05 UTC und 12:43 UTC am 25. Januar 2023 traten bei Kunden Probleme mit der Netzwerkkonnektivität auf, die sich in langen Netzwerklatenzen und/oder Zeitüberschreitungen äußerten, wenn sie versuchten, eine Verbindung zu Ressourcen herzustellen, die in Azure-Regionen gehostet werden, sowie zu anderen Microsoft-Diensten, einschließlich Microsoft 365 und Power Platform“, heißt es in dem Bericht des Unternehmens.
„Wir haben festgestellt, dass eine am Microsoft Wide Area Network (WAN) vorgenommene Änderung die Konnektivität zwischen Clients im Internet zu Azure, die Konnektivität zwischen Regionen sowie die standortübergreifende Konnektivität über ExpressRoute beeinträchtigt hat.“
„Als Teil einer geplanten Änderung zur Aktualisierung der IP-Adresse auf einem WAN-Router veranlasste ein an den Router gegebener Befehl, Nachrichten an alle anderen Router im WAN zu senden, was dazu führte, dass alle ihre Nachbarschafts- und Weiterleitungstabellen neu berechneten Bei diesem Neuberechnungsprozess waren die Router nicht in der Lage, Pakete, die sie durchquerten, korrekt weiterzuleiten.Der Befehl, der das Problem verursachte, verhält sich auf verschiedenen Netzwerkgeräten unterschiedlich, und der Befehl wurde nicht mithilfe unseres vollständigen Qualifizierungsprozesses auf dem Router überprüft, auf dem er sich befand hingerichtet.”
Microsoft sagte, dass es insgesamt in der Lage war, das Problem innerhalb einer Stunde zu identifizieren, und alle internen Netzwerkgeräte waren innerhalb von zweieinhalb Stunden wieder normal.
Um zu verhindern, dass das gleiche Problem in Zukunft erneut auftritt, hat Microsoft nach eigenen Angaben „blockiert, dass äußerst wirkungsvolle Befehle auf den Geräten ausgeführt werden“. Das Unternehmen arbeitet auch daran, eine neue Anforderung für die gesamte Befehlsausführung auf seinen Geräten hinzuzufügen, um Richtlinien für sichere Änderungen zu befolgen.