Dienstag, 12. Januar 2016

[LL Blog] - Warum die Dinge am vergangenen Wochenende nicht optimal liefen

von Linden Lab am 11.01.2016 um 3:07pm PDT (12.01.2016, 00:07 Uhr MEZ)
- Blogübersetzung -


Quelle: SL Brand Center
Hallo! Ich bin ein Mitarbeiter des Second Life Einsatzteams und ich war der direkte Bereitschaftstechniker am vergangenen Wochenende. Wir hatten ein sehr schwieriges Wochenende, also will ich mir ein paar Minuten Zeit nehmen, um euch mitzuteilen, was passiert ist.

Wir hatten eine Reihe von unabhängigen Fehlern, die für die rauen Gewässer verantwortlich waren, die Einwohner inworld erlebten.

Am Samstag, den 9. Januar, kurz nach Mitternacht Pazifischer Zeit, hatten wir einen Crash eines Hauptknotens von einem der zentralen Datenbanken. Die zentrale Datenbank, die es da erwischt hatte, ist eine der am häufigsten verwendeten Datenbanken in Second Life. Ohne sie sind die Bewohner nicht in der Lage, sich anzumelden oder eine Menge wichtiger Dinge zu tun.

Diese Art von Versagen ist etwas, mit dem mein Team gut zurechtkommt, aber wir brauchten Zeit, um eine Kopie in der Serverkette bereitzustellen, damit diese schließlich zum neuen Hauptknoten gemacht werden konnte. Während wir das getan haben, blockierten wir die Logins und schlossen andere inworld Dienste, um die Auslastung für den neu bereitgestellten Hauptknoten zu mindern, während er damit begann, Abfragen zu starten. (Wir öffneten dann langsam das Grid und schalteten einen Dienst nach dem anderen wieder ein, so dass die Datenbank in der Lage war, damit umzugehen.) Dieser Bereitstellungsprozess dauerte etwa anderthalb Stunden und das Grid lief um 1:30am (10:30 Uhr MEZ) wieder normal.

Nachdem diese Aktion abgeschlossen war, lief das Grid wieder stabil für den Rest des Tages und Abends am Samstag.

Das bringt uns zum Sonntagmorgen.

Am Sonntag, den 10. Januar um etwa 8:00am Pazifischer Zeit (17 Uhr MEZ), sind bei einem unserer Provider Probleme aufgetreten, die inworld zu einer sehr schlechten Performance beim Laden von Datenbankinhalten geführt haben. Ich bekam den Provider sehr schnell ans Telefon, während sie bereits die Quelle des Problems ermittelten. Mit meinem Team, das zusammen mit dem Remote-Team arbeitete, konnten wir das Problem erkennen und es am frühen Nachmittag beheben. Alle unsere Metriken sahen gut aus und sowohl ich als auch meine Kollegen, konnten inworld wieder gut Objekte rezzen. Das war der Zeitpunkt, an dem wir das erste "Alles läuft wieder" in den Blog geschrieben haben, weil es so schien, dass die Dinge wieder normal liefen.

Wie auch immer, es dauerte nicht lange, um zu realisieren, dass sich die Dinge erneut verschlechterten.

Kurz nachdem wir alles für behoben erklärt haben, drängten die Einwohner in das Grid zurück. (Sonntagnachmittag gibt es inworld eine sehr hohe Auslastung, auch unter normalen Umständen!) Der Ansturm der Bewohner, die nach Second Life zurückkehrten (viele von ihnen hatten jetzt einen leeren Cache, der wieder gefüllt werden musste), zu einer Zeit, in der unsere Auslastung eh schon am höchsten ist, beanspruchte viele andere Subsysteme um das Mehrfache ihrer normalen Last.

Rezzen von Datenbankinhalten funktionierte zwar wieder, aber wir hatten andere Probleme zu lösen. Es dauerte ein paar Stunden nach unserer ersten Entwarnung, bis wir unsere anderen Dienste stabilisieren konnten. Wie einigen Leuten aufgefallen ist, war das System mit der höchsten Last dasjenige, welches wir "Baking" nennen - es erzeugt die Texturen, die ihr an eurem Avatar sehen könnt - und damit hatten wir eine große Anzahl von Bewohnern, die entweder grau oder als Wolken erschienen. (Das Baking versuchte immer noch, sich von dem vorherigen Ausfall des Asset-Systems zu erholen!) Gegen Sonntagabend konnten wir das Grid wieder stabilisieren und Second Life kehrte diemal tatsächlich zum normalen Betrieb zurück.

Eines der Dinge, die ich an meiner Arbeit mag ist, dass Second Life eine völlig einzigartige und lustige Umgebung ist! (Die Infrastruktur einer virtuellen Welt ist erstaunlich für mich!) Das ist sowohl gut als auch schlecht. Es ist gut, weil wir oft die Herausforderung haben, eine Lösung für ein Problem zu finden, das neu und einzigartig ist, aber die Kehrseite davon ist, dass manchmal Dinge auf unerwartete Weise versagen können, weil wir Sachen machen, die sonst niemand tut.

Es tut mir wirklich leid, wie rau die Dinge an diesem Wochenende inworld gewesen sind. Mein Team nimmt die Stabilität des Grids sehr ernst und niemand kann Ausfallzeiten weniger leiden als wir. Schon einer dieser Ausfälle, die unabhängig voneinander geschehen, ist schlimm genug, aber wenn sie in einer Reihe auftreten, so wie hier, ist es ziemlich miserabel.

Ich sehe euch inworld (nachdem ich etwas Schlaf bekommen habe!),

April Linden

Quelle: Why Things Were Less Than Optimal This Past Weekend

2 Kommentare:

  1. Finde ich sehr gut solche Erklärungen, denn wenn man die Hintergründe weiß, dann wächst auch das Verständnis für das was passiert ist.

    Und eines muss man ja feststellen. Die Stabilität des Netzes ist in den letzten Jahren deutlich besser geworden. Längere unvorhergesehene Ausfallzeiten sind jetzt eher die Seltenheit. Sicher nimmt man diese Ausfallzeiten dadurch auch subjektiv jetzt deutlicher wahr, weil sie eben aus dem normalen Betrieb als Solitär besonders herausragen.

    Die Niki

    AntwortenLöschen
  2. Anidusa Carolina17. Januar 2016 um 19:04

    ich find das auch gut.
    Erstens weil es für Transparenz sorgt, zweitens weil man was lernt und drittens weil es zeigt das die Techniker bei LL sich durchaus Gedanken um das Wohlbefinden ihrer User machen.

    AntwortenLöschen