Mittwoch, 20. September 2017

[LL Blog] - Die Rückkehr der lebenden Objekte: Eine Pre-Halloween Horror Story

Quelle: SL Brand Center
Linden Lab am 19.09.2017 um 12:20 PM PDT
(21:20 Uhr MESZ)
- Blogübersetzung -

Hallo allerseits! Hier ist Mazidox. Ich möchte euch einen Überblick geben, was an dem Mittwoch (6. September) passiert ist, der damit endete, dass die Objekte einiger Bewohner massenhaft zurückgeschickt wurden.

Vor zwei Wochen hatten wir mehrere Probleme, die alle auf einmal aufgetaucht sind - beginnend mit einem Ausfall der DNS-Server (ein Server, der Anfragen zwischen verschiedenen Teilen von Second Life weiterleitet). Nachdem sich die Wogen wieder geglättet hatten, begannen wir leider einen beunruhigenden Trend festzustellen: Massenhaftes Zurückschicken von Objekten.

Wir haben dann ein Problem festgestellt, bei dem eine Region mit falschen Land Impact Berechnungen für Mesh startet, was dazu führen konnte, dass viele Objekte gleichzeitig zurückgeschickt wurden, was wir vor einigen Monaten schon einmal hatten. Zu diesem Zeitpunkt hatten wir etwas angewendet, was wir einen spekulativen Fix nennen. Ein spekulativer Fix bedeutet, dass wir zwar die Ursachen nicht nachvollziehen können, die zu einem Problem geführt haben, aber dass wir dennoch ziemlich zuversichtlich sind, dass wir es wieder beheben können. Leider haben wir uns in diesem Fall geirrt. Weil das Update, das wir angewandt haben, spekulativ war, wurde das Problem nicht so vollständig behoben, wie es hätte sein sollen und wir fanden in der besagten Mittwoch Nacht auf dramatische Weise heraus, wie unvollständig der Fix gewesen ist.

Wenn ein Problem wie dieses in Second Life auftritt, haben wir drei Prioritäten:
  1. Verhindern, dass das Problem schlimmer wird.
  2. Den Schaden beheben, der entstanden ist.
  3. Dafür sorgen, dass das Problem nicht wieder auftritt.

Wir hatten uns um die erste Priorität bis zum Ende des ursprünglichen Ausfalls gekümmert. Wir konnten zu diesem Zeitpunkt sicher sein, dass unsere Server wieder miteinander kommunizierten und es gab an diesem Tag kein massenhaftes Zurückschicken von Objekten mehr. Zu diesem Zeitpunkt begannen wir, den Schaden zu beurteilen und herauszufinden, wie wir so viel wie möglich reparieren konnten. In diesem Zusammenhang stellte sich heraus, dass ein Neustart von betroffenen Regionen, in denen keine Objekte zurückgeschickt wurden, das Problem behoben hat, dass einige Meshes einen falschen Land Impact anzeigten.

Für Regionen, in denen ein massenhaftes Zurückschicken (von Objekten) stattgefunden hatte, gab es keine schnelle Lösung. Unserem Operator-Team gelang es, eine unvollständige Liste von Regionen zu erstellen, die durch eine massenhafte Objekt-Rückgabe betroffen waren und die unser Support-Team sehr mit Aufräumarbeiten beschäftigte. Nachdem wir allen geholfen hatten, wussten wir, wer alles eine massenhafte Objekt-Rückgabe erlebt hatte und unser Fokus verschob sich noch einmal, diesmal, um dafür zu sorgen, dass das Problem nicht wieder auftreten kann.

Um all die verschiedenen Faktoren nachzuvollziehen, die diese Objektrückgabe verursacht hatten, mussten wir zunächst jeden einzelnen Faktor identifizieren und diese Stücke dann in einer Testumgebung zusammenfügen. Das Durchführen von Tests und das Finden von merkwürdigen Problemen, ist die Spezialität des Server QA-Teams, und so beschäftigen wir uns seit dem Morgen nach diesem Ereignis damit. Ich habe persönlich daran gearbeitet, dies zu reproduzieren, zusammen mit der Hilfe von unseren Techniker- und Ops-Teams. Wir sind alle darauf konzentriert, jedes Stück zusammenzusetzen, um sicherzustellen, dass niemand mehr eine Massenrückgabe erleben muss.

Eure lokale Bug-jagende Sprühdose,

Mazidox Linden

Quelle: The Return of the Living Objects: A Pre-Halloween Horror Story
..................................................................................

Anm.:
Besser spät als nie. Die Störung in SL liegt jetzt schon genau zwei Wochen zurück. Viele hätten sich eine schnellere Erklärung der Ursache gewünscht. Vor allem, was zu tun ist, wenn man selbst von den Objektrücksendungen betroffen war. Die Erklärung von Mazidox klingt für mich auch so, als ob LL immer noch nicht weiß, was jetzt genau der Grund für den zu hohen Land Impact war.

2 Kommentare:

  1. ...ja das kann gut sein. Und genau deshalb finde ich es in dem Fall auch okay dass sie mit der Erklärung ein wenig spät an sind.
    Es ist sicher nicht einfach zugeben zu müssen das man nicht so wirklich einen Plan hat.
    Wobei jeder User das "im Kleinen" vom eigenen Rechner kennt, der macht auch manchaml Dinge die sich weder mit Logik noch mit den Kenntnissen die man hat erklären lassen.
    Ich denke SL ist inzwischen so komplex, dass ich Verständnis dafür habe das die Fehlersuche auch mal ne Weile dauern kann bei sowas.
    Jedenfalls freu ich mich, dass sie überhaupt den Usern was schrieben.

    AntwortenLöschen
  2. ... genau, Transparenz schaffen, auch bei Problemen, ist immer gut.

    Die Niki

    AntwortenLöschen