Samstag, 20. Februar 2016

[LL-Blog] - Warum gab es am Freitag Neustarts im Grid?

Quelle: SL Brand Center
Es gibt aktuell eine richtige Flut an technischen Infos im Blog von Linden Lab. Gestern hatte ich bereits eine sehr technische Erklärung von Chris Linden übersetzt. Während ich das geschrieben hatte, veröffentlichte Steven Linden bereits den nächsten Beitrag, der die Ursache für die Probleme mit den Bezahldiensten in den letzten Wochen erklärte. Diesen Artikel habe ich heute übersetzt und direkt vor diesem hier gepostet.

Und während ich den zweiten Blogpost von LL geschrieben habe, wurde auch noch ein dritter veröffentlicht, in dem April Linden erzählt, warum es am heutigen Freitag Neustarts für die Hauptkanal-Regionen von SL gegeben hat. Da ich keine Lust habe, das auch noch zu übersetzen, fasse ich es nur kurz zusammen.

April erklärt, dass das Second Life Grid auf tausenden von Linux-Servern läuft. Und in dieser Woche gab es eine kritische Sicherheitswarnung für eine Systembibliothek im Linux-Betriebssystems, das von Linden Lab benutzt wird. Bei der Bibliothek handelt es sich um die glibc. Und die Sicherheitslücke wird im Google Blog unter CVE-2015-7547 beschrieben.

Nachdem LL von der Sicherheitslücke erfahren hatte, haben sie rund um die Uhr an einem Fix dafür gearbeitet. Dienstag wurde das Problem bekanntgegeben und bis Mittwoch hatte LL bereits einen fertigen Patch für die Grid-Server von SL. Der wurde dann im Laufe des Mittwochs in den bestehenden Code der Simulatoren aufgenommen und getestet. Nachdem klar war, dass der Fix funktioniert, hat das operative Server-Team den neuen Code an das QA-Team übergeben, die das Ganze dann noch mal in Bezug auf Kompatibilität mit den bestehenden SL-Funktionen überprüfte. Das machten sie in der Nacht von Mittwoch auf Donnerstag.

Donnerstagmorgen traf dann das technische Management für das SL-Grid die Entscheidung, den neuen Code zuerst auf den RC-Kanälen von Second Life aufzuspielen (ca. 30% des gesamten Grids). Diese Rolling Restarts liefen dann unmittelbar nach der Entscheidung am Donnerstagmorgen. Danach beobachte LL die RC-Regionen im Grid, ob es irgendwelche Inkompatibilitäten gibt. Da das nicht der Fall war, wurde dann gleich am Freitagmorgen der Rest des Grid (die Hauptkanal-Regionen) mit dem neuen Code ausgestattet.

April Linden schreibt, dass vor der Schließung dieser Sicherheitslücke keine Anzeichen zu sehen waren, dass jemand die Lücke ausgenutzt hat. Sie haben lediglich so schnell gehandelt, damit das auch so bleibt. Dass die Informationen zu dieser Aktion relativ spät von LL im Grid Status bekanntgegeben wurden, wäre bei einem Vorgang, wie der Behebung einer Sicherheitslücke ganz normal, weil man niemanden durch irgendwelche Aussagen auf das vorhandene Problem aufmerksam machen wollte.

Am Schluss entschuldigt sich April dafür, dass diese Neustarts ausgerechnet am Freitag gelaufen sind, wo im Allgemeinen der Betrieb in SL geschäftiger ist als unter der Woche. Aber zumindest ist die Sicherheitslücke nun geschlossen.

Quelle: Why the Friday Grid Roll?

5 Kommentare:

  1. Fleissig, fleissig unsere Lindens.
    Ich muss sagen, ich freue mich über diese Transparenz. Natürlich hab ich mich gewundert als ich erst am Donnerstag bei jemandem zu Besuch war und dessen Sim einen RR hatte - und erst weit nach einer Stunde wieder erschien.
    Und als ich am Freitag einloggen wollte, konnte ich das erst mal nicht tun weil mein Zuhause down war, gottlob fiel mir aber ein dass ich es woanders versuchen könnte, was dann auch klappte. (Man hat ja dummerweise nicht von jeder LM die man besitzt im Hinterkopf, auf welchem Server die dazugehörige Region liegt).
    Und natürlich fragte ich mich "na was basteln die denn da schon wieder ausser der Reihe herum?"
    Und wupps, geben sie Antwort.
    Das gefällt mir!

    AntwortenLöschen
    Antworten
    1. "Man hat ja dummerweise nicht von jeder LM die man besitzt im Hinterkopf, auf welchem Server die dazugehörige Region liegt"

      Da gibt es von Tyche Shepherd eine nette Seite. (http://www.gridsurvey.com/index.php). Wenn du da runterscrollst, findest du ein Eingabefeld mit der Bezeichnung "Region Search :". Tippst du dort einen Regionsnamen ein, erscheint unter dem Feld das Suchergebnis als Link. Klickst du den Link an, öffnet sich eine neue Seite, die viele Informationen zur Region enthält. Unter anderem auch, mit welchen anderen Regionen sie sich einen Server teilt und auf welchem Kanal die Region läuft.

      Hier als Beispiel die Seite zum allseits beliebten Hahne:
      http://www.gridsurvey.com/display.php?id=2081

      Löschen
    2. Tyches Seite ist auch ideal eine Region zu checken, bevor man sie mietet :-)

      Die Niki

      Löschen
  2. na DAS ist ja mal eine sinnvolle und hilfreiche Seite!
    Man lernt doch nie aus :), danke Maddy.
    So hab ich jetzt auch erfahren, dass mein neues Zuhause (ich habe mir ja vor einem Monat mal wieder eine Viertel Low gegönnt, man gönnt sich ja sonst nix...hihi. Ich war den Platzmangel auf meiner alten Parzelle satt) dem Drittgrößten Anbieter von Rentals gehört. Na dann muss ich mich auch nicht mehr wundern wieso die so gut organisiert sind und einen absolut hinreissenden Kundenservice haben. Man hat noch nicht fertig nach einem Mitarbeiter gerufen, da geht die IM schon auf *zwinker*, und bis jetzt läuft mein Daheim absolut ruhig und stabil.
    Was Hahne angeht - ich meide das. Hahne ist so bekannt zwischenzeitlich, dass man von einer "leeren Region" nicht mehr sprechen kann wenn da dutzende von Avis mit viel Mesh am Leib herumdümpeln *lacht leise*. Von daher habe ich mir angewöhnt in den Fällen in denen ich es brauche, eher nach Leipzig zu düsen.

    AntwortenLöschen
    Antworten
    1. Ich nutze weder Hahne noch Leipzig. Die beste Methode nach einem geleerten Cache irgendwo auf das Neuladen zu warten, ist eine kleine 10 x 10 Meter Plattform oberhalb von 1000 Meter Höhe. Landmarke setzen und nach dem Löschen des Cache dort einloggen. Vorher vielleicht noch prüfen, ob der Nachbar nicht eine riesige Skybox in Sichtweite hat.

      Löschen