Registerkarten

SimtippViewerServerKunstLL-BlogVideosVehikelAnleitungARC

Montag, 9. Mai 2016

[LL Blog] - Die Geschichte hinter dem unerwarteten Ausfall in der letzten Woche

von Linden Lab am 09.05.2016 um 10:22am PDT (19:22 Uhr MESZ)
- Blogübersetzung -


Quelle: SL Brand Center
Hallo! Ich bin ein Mitarbeiter aus dem Second Life Bereitschaftsteam. Am Freitagnachmittag hatten große Teile von Second Life einige ungeplante Ausfallzeiten und ich möchte mir ein paar Minuten Zeit nehmen, zu erklären, was passiert ist.

Am vergangenen Freitag, den 6. Mai 2016, kurz vor 4:15pm PDT/SLT (1:15 Uhr nachts MESZ), stürzte der primäre Netzknoten für eine der zentralen Datenbanken ab, die Second Life am Laufen halten. Der Datenbankknoten, der abgestürtzt war, enthält einige der Kerndaten für Second Life und eine ganze Menge Dinge hören auf zu arbeiten, wenn diese Daten nicht zugänglich sind, was viele Einwohner auch gemerkt haben.

Wenn der primäre Knoten in dieser Datenbank offline ist, schalten wir eine Reihe von Diensten ab, so dass wir das Grid auf eine kontrollierte Art und Weise wieder hochfahren können, indem wir einen nach dem anderen reaktivieren.

Mein Team hat schnell reagiert und wir waren in der Lage, einen baugleichen Knoten in die Hardware-Kette zu integrieren, um den Primärknoten zu ersetzen, der abgestürzt war. Alle Dienste wurden innerhalb einer knappen Stunde vollständig wiederhergestellt und eingeschaltet.

Ein zusätzliches (und völlig unerwartetes) Problem, das dann aufgetreten ist, war dass während dem ersten Teil des Ausfalls unser Status Blog unzugänglich war. Unser Support-Team nutzt diesen Status Blog, um Bewohner darüber zu informieren, was los ist, wenn es ein Problem gibt. Und die Anzahl von Zugriffen während eines Ausfalls ist ziemlich beeindruckend!

Vor ein paar Wochen haben wir unseren Status Blog auf neue Server umgezogen (Anm.: ich habe darüber hier berichtet). Es kann eine schwierige Aufgabe sein, ein System für etwas wie einen Status Blog richtig einzustellen, weil die Zugriffsrate von ihrer normalen Belastung ganz plötzlich auf ein Vielfaches ansteigen kann. Wir sehen nun, dass wir ein paar zusätzliche Abstimmungen am Status Blog vornehmen müssen, nachdem er in seinem neuen Zuhause angekommen ist. (Vergesst nicht, dass ihr uns auch auf Twitter unter @SLGridStatus folgen könnt. Das ist wirklich praktisch, wenn der Status-Blog einmal nicht erreichbar ist!)

Wie Landon Linden schon vor einem Jahr schrieb: Wenn man bei einem Ausfall mit seinem Team zusammenarbeitet, ist das so, als beobachte man "ein Ballett in einem Kriegsgebiet". Wir geben alles, um die Second Life Dienste wiederherzustellen, sobald sie ausfallen. Und dieser Ausfall war keine Ausnahme. Es kann aber manchmal ziemlich verrückt sein!

Die unerwartete Ausfallzeit am Ende der vergangenen Woche tut uns wirklich leid. Es gibt eine Menge lustiger Dinge, die am Freitagabend in Second Life passieren und das Letzte was wir wollen, ist wegen technischen Problemen dem in die Quere zu kommen.

April Linden

Quelle: The Story Behind Last Week's Unexpected Downtime

1 Kommentar:

  1. Nikira Naimarc11. Mai 2016 um 09:03

    Diesen Kommentar wollte ich eigentlich gestern schon schreiben :-)

    Scheinbar zieht das Linden Lab jetzt durch. Background-Infos zu besonderen Vorfällen (meist technische Probleme) in SL. Das finde ich wie schon mal geschrieben, eine sehr gute Sache.

    Das fördert die Transparenz zwischen Anbieter und Nutzer. Und ein Nutzer der den Grund eines Ausfalls kennt, ist eher bereit diese Unannehmlichkeit hinzunehmen.

    Ich finde, auch gute Sachen sollen mal kommentiert werden :-)

    Die Niki

    AntwortenLöschen