Freitag, 17. Mai 2019

[LL Blog] - Der Weg zur Downtime war mit guten Absichten gepflastert

Quelle: SL Brand Center
Linden Lab am 17.05.2019 um 11:11 AM PDT (20:11 Uhr MESZ)
- Blogübersetzung -

Hallo Einwohner!

Wir hatten in dieser Woche eine der längsten Ausfallzeiten in jüngster Zeit (etwa vier Stunden!) und ich möchte erklären, was passiert ist.

Diese Woche haben wir eine dringend benötigte Wartung des Netzwerks durchgeführt, das Second Life antreibt. Die Kernrouter, die unser Rechenzentrum mit dem Internet verbinden, haben das Ende ihrer Lebensdauer erreicht und mussten aktualisiert werden, um unsere Cloud-Migration stabiler zu machen.

Das Ersetzen der Kernrouter in einem laufenden System, das sehr aktiv genutzt wird, ist wirklich schwierig. Wir waren fest entschlossen es richtig zu machen und haben über einen Monat damit verbracht, alle Aktivitäten und deren Reihenfolge zu planen, einschließlich vollständiger Rollback-Pläne für jeden Schritt. Wir haben sogar einen sehr erfahrenen Netzwerkberater beauftragt, mit uns zusammenzuarbeiten, um sicherzustellen, dass wir einen wirklich guten Plan haben. Mit dem Ziel, Second Life so wenig wie möglich zu unterbrechen und gleichzeitig zu verbessern.

Der vergangene Montag war der große Tag. Einige unserer Ingenieure (einschließlich unseres Netzwerkberaters) und ich (der Teammanager) kamen im Rechenzentrum an, um zu loszulegen. Wir wollten die Augen, Ohren und Hände einer anderen Gruppe von Ingenieuren sein, die an einem anderen Ort arbeiteten, um den von uns aufgestellten Plan sorgfältig zu befolgen. Es war meine Aufgabe, meinen Linden-Kollegen im Lab und den Bewohnern über den Status-Blog mitzuteilen, was bei jedem Schritt unserer Arbeit vor sich ging. Ich habe dies getan, damit sich das Engineering-Team auf die anstehende Aufgabe konzentrieren kann.

Alles begann großartig. Wir hatten den ersten neuen Kernrouter installiert und der Datenverkehr ist ohne Auswirkungen auf das Grid weitergelaufen. Als wir mit der Arbeit am zweiten Kernrouter begannen, lief alles schief.

Im Rahmen der Übertragung des Datenverkehrs auf den zweiten Router hat einer unserer Ingenieure ein Kabel an seinem neuen Platz eingesteckt. Wir wussten, dass es ein paar Sekunden Ausfall geben würde und wir erwarteten das auch. Aber es war schnell klar, dass etwas irgendwo nicht richtig funktionierte. Es gab einen Moment des Entsetzens im Rechenzentrum, als wir feststellten, dass der gesamte Datenverkehr aus Second Life aufgehört hatte zu fließen und wir wussten nicht warum.

Nachdem der Schock nachgelassen hatte, beschlossen wir schnell, den gescheiterten Schritt zurückzunehmen, aber es war zu spät. Jeder, der zu diesem Zeitpunkt in Second Life eingeloggt war, wurde auf einmal abgemeldet. Die gleichzeitig eingeloggten Nutzer im gesamten Grid fielen fast sofort auf Null. Wir haben uns entschieden, die Anmeldung im gesamten Grid zu deaktivieren und die Netzwerkverbindung zu Second Life so schnell wie möglich wiederherzustellen.

An dieser Stelle hatten wir ein kurzes Treffen mit den verschiedenen Akteuren und waren uns einig, dass es das Richtige wäre, da wir bereits offline waren, weiterzumachen und herauszufinden, was passiert ist, damit wir vermeiden konnten, dass es wieder passiert. Wir haben ein paar andere Leute gefunden, die mit den Bewohnern über den Status Blog, Social Media und in den Foren kommunizierten und ich habe mich um die interne Kommunikation im Lab gekümmert, während die Ingenieure das Problem untersuchten.

Ein Bild aus alten Tagen - Die Mittwochs-Downtime
Aus diesem Grund wurden die Anmeldungen für mehrere Stunden deaktiviert. Wir waren entschlossen, herauszufinden, was passiert war, um das Problem zu beheben. Denn wir wollten auf keinen Fall, dass es wieder passiert. Wir haben unser Netzwerk so konzipiert, dass jedes Teil ohne Verbindungsverlust ausfallen kann, also mussten wir uns mit diesem Fehler befassen, um genau zu verstehen, was passiert ist.

Nach fast vier sehr intensiven Stunden des Testens fand das Team heraus, was schief gelaufen war, arbeitete daran und beendete die Migration auf die neuen Netzwerkgeräte. Wir öffneten wieder die Logins, überwachten das Grid, während die Bewohner zurückkehrten, und gingen mitten in der Nacht fix und fertig nach Hause.

Wir haben den Rest dieser Woche dann damit verbracht, mit dem Hersteller unserer Netzwerkgeräte zusammenzuarbeiten, um das Problem zu beheben und viele Tests durchzuführen. Wir konnten die Bedingungen, die zu dem Netzwerkausfall geführt haben, reproduzieren und unsere Geräte testen, um sicherzustellen, dass es nicht wieder passiert. (Selbst der Hersteller war anfangs verwirrt! Es war ein sehr kniffliges Thema.) Ab Mitte der Woche konnten wir eine ganze Reihe von Tests durchführen, einschließlich des absichtlichen Trennens und Herunterfahrens eines Routers, ohne Auswirkungen auf das Grid.

Second Life ist ein wirklich komplex aufgeteiltes System und es überrascht mich immer wieder aufs Neue. Diese Woche war sicherlich keine Ausnahme.

Ich möchte auch eine Frage beantworten, die diese Woche mehrmals in den Foren und an anderen Orten gestellt wurde. Diese Frage lautet: "Warum hat LL uns nicht genau mitgeteilt, wann diese Wartung stattfinden würde?"

Wie ich in der Vergangenheit schon mehrmals gebloggt habe, ist es traurige Realität, dass es Leute gibt, die diese Informationen mit böser Absicht nutzen würden. Zum Beispiel sind wir normalerweise sehr gut im Umgang mit DDoS-Angriffen, aber es erfordert unsere volle Kapazität, um dies zu tun. Ein DDoS-Angriff, der gleichzeitig mit der laufenden Netzwerkwartung eintreten würde, hätte die Ausfallzeit noch viel länger gemacht als sie es bereits war.

Wir wollen immer das Beste für Second Life. Wir lieben SL ebenfalls. Wir müssen vorsichtige Entscheidungen treffen, auch wenn sie zuweilen auf Kosten der Unklarheit gehen.

Wir entschuldigen uns wirklich für die Ausfallzeiten dieser Woche. Wir taten alles, was wir konnten, um diesen Fehler zu vermeiden und dennoch geschah es. Ich fühle mich furchtbar deswegen.

Die Woche war ziemlich schrecklich, aber sie hat auch eine gute Seite. Second Life ist nun mit neuen Kernroutern ausgestattet, die viel leistungsfähiger sind als alles, was wir bisher hatten. Und wir hatten die Möglichkeit, viele Fehlerprüfungen durchzuführen. Es war eine harte Woche, aber das Grid ist dadurch in besserer Verfassung.

Vielen Dank für eure Geduld, während wir uns von diesem unerwarteten Ereignis erholen. Es war wirklich ermutigend zu sehen, wie viele Leute uns seit dem Ausfall unterstützten. Danke, ihr habt wirklich geholfen, viele von uns aufzumuntern. ❤️

Bis zum nächsten Mal,
April Linden
Second Life Operation Manager

Quelle: The Road to Downtime Was Paved with Good Intentions
..............................................................................

Anm.:
Etwas lang geschrieben, aber unterm Strich eine positive Reaktion. Ich persönlich habe die Aktion gar nicht so kritisch gesehen wie Linden Lab. Sie hatten schon eine Woche vor der Wartung angekündigt, dass es so kommen könnte. Das ist etwas, was bei jeder Online-Plattform irgendwann mal auftreten kann.

Keine Kommentare:

Kommentar veröffentlichen