Samstag, 24. Mai 2014

[LL Blog] - Die kürzlichen Unannehmlichkeiten

von Linden Lab am 23.05.2014 um 12:04pm PDT (21:04 Uhr MESZ)
- Blogübersetzung -


Quelle: SL Brand Center
Als ich vor mehr als fünf Jahren zu Linden Lab kam, hatte Second Life gerade seine Phase des exponentiellen Wachstums hinter sich gebracht (Anm.: wird im Posting als "Hockeyschläger-Wachstum" bezeichnet) und wir hatten es einfach nicht geschafft, mit den technischen Anforderungen die ein solches Wachstum mit sich brachte, Schritt zu halten. Eine oder mehrere große Ausfälle pro Woche waren dann üblich.

In meinen ersten Monaten beim Lab haben wir mehr als einhundert große Single Points of Failure in unseren Diensten beseitigt. Aber es gab immer noch einige große Probleme, die den Ablauf bedrohten und der Großvater von allem war der MySQL-Hauptdatenbank-Server. Am Ende des Jahres 2009 wurden wir mehrmals pro Woche von einem Ausfall der Kern-Datenbank heimgesucht.

Mit viel harter Arbeit und unzähligen langen Nächten haben wir den Service stabilisiert und fingen an, bedeutende Verbesserungen für die allgemeine Stabilität und Leistung von Second Life vorzunehmen. Doch trotz unseren kontinuierlichen Verbesserungen und der relativen Ruhe die sie uns einbrachten, hingen die Gespenster der technischen Schulden und der Single Points of Failure noch immer über unseren Aktivitäten. In den letzten Wochen haben einige von ihnen Second Life getroffen und zu Unterbrechungen geführt. Und zwar so stark, dass ich nun erklären möchte, welche Ausfälle aufgetreten sind, wie wir sie behoben haben und was wir in Zukunft diesbezüglich machen wollen.

Zuerst einmal: Diesen MySQL-Hauptdatenbank-Cluster gibt es immer noch. Es ist immer noch das Herzstück vieler unserer Zentralfunktionen. Wenn der Schreibserver ausfällt, dauert es mindestens 30 Minuten, um einen neuen Server für diese Funktion einzurichten. Die Einrichtung selbst ist eigentlich relativ schnell gemacht, aber die zahlreichen abhängigen Dienste [der Datenbank] müssen alle heruntergefahren und vorsichtig zurück gebracht werden, um sicherzustellen, dass sie alle richtig funktionieren.

In den letzten zwei Monaten wurde die Haupt-MySQL Schreibdatenbank von zwei verschiedenen Hardwarefehlern sehr schwer getroffen, was uns veranlasst hat, vorübergehend die meisten Second Life Operationen zu stoppen. In gewissem Sinne sind zwei große Fehler an der Schreibdatenbank innerhalb so kurzer Zeit einfach Pech, aber wir können nicht auf Glück setzen, um die Zuverlässigkeit von Second Life zu gewährleisten. In sehr naher Zukunft werden wir den Haupt-MySQL Schreibserver auf eine neue Hardwareklasse verlagern, auf der bereits produktive Leseserver laufen. Das Verschieben des Schreibservers wird die Gesamtdatenbankleistung weiter verbessern und es werden nicht mehr so häufig Fehler auftreten. Das wird zwar nicht den Ursprung des Single Point of Failure-Problems lösen, aber in den kommenden Tagen, Wochen und Monaten werden wir die Auswirkungen von Datenbankfehlern noch weiter reduzieren. Dazu gehört auch die kontinuierliche Verbesserung im Prozesskreislauf, bei dem wir mehr Funktionen aus dem Kern-Datenbank-Cluster herausnehmen und die Anzahl der Funktionen weiter reduzieren, die von einem einzigen Schreibserver abhängig sind.

Die MySQL-Hauptdatenbank war jedoch nicht unser einziges Problem in letzter Zeit. Vor ein paar Wochen gab es einen massiven Distributed Denial of Service-Angriff (DDoS) gegen einen unserer Upstream-Service-Anbieter, bei dem die meisten seiner Kunden betroffen waren, einschließlich uns. Und dies verhinderte bei einigen Anwendern die Nutzung unserer Dienste. Wir haben seit diesem Vorfall die möglichen Auswirkungen eines solchen Angriff reduziert, indem wir einen zusätzlichen Anbieter eingebunden haben. Es gab auch Hardware-Ausfälle in der Infrastruktur der Suche für den Marketplace, was Auswirkungen auf diesen Bereich hatte. Ein Problem, an dessen Behebung wir immer noch arbeiten. Am schwerwiegendsten war allerdings in dieser Woche der Login-Ausfall von viereinhalb Stunden.

Am Dienstagmorgen waren Benutzer nicht mehr in der Lage, in Second Life einzuloggen. Die Hauptursache wurde vor über zehn Jahren in einem System geschaffen, das dafür ausgelegt war, eine eindeutige Kennung für die übergabe der Login-Sitzung des Nutzers zur ersten Region zuzuweisen. Um 7:40 Uhr Pacific Time (16:40 Uhr MESZ) hatte das System unbemerkt die Anzahl möglicher Nummern für eine Zuweisung überschritten. Es dauerte vier Stunden, um das Problem zu isolieren, ein Update zu testen und die Änderung einzuspielen. Die Nutzer konnten ab diesem Punkt sofort wieder einloggen, aber es dauerte weitere zwei Stunden, bis die Systeme wieder rund liefen. Wenn Zehntausende von Benutzern nach einem Ausfall wieder nach Second Life zurück wollen, müssen wir bewusst einige Dienste einschränken, um weitere Schäden zu vermeiden.

Einen solchen versteckten Fehler in einem Kerndienst zu haben, ist nicht akzeptabel. Also führen wir nun eine gründliche Überprüfung des Login-Prozesses durch, um festzustellen, ob es noch mehr Probleme dieser Art irgendwo gibt. Bei diesem Vorgang wollen wir auch gleich den Zuweisungsdienst für eine Login-Kennung vollständig entfernen. Er war nicht nur die ultimative Quelle für diesen Ausfall, sondern das ist auch ein weiterer Single Point of Failure, der schon vor langer Zeit hätte beseitigt werden sollen.

Wir wollen uns entschuldigen für die ganzen Probleme der letzten Zeit und für die Frustration die sie verursacht haben. Auch wir sind frustriert und wir wollen unseren Service nun verbessern. Es gibt nur wenige Dinge, die mir mehr Freude machen, als jeden Tag dabei zu helfen, Second Life zu einem fröhlichen und vergnüglichen Ort zu machen. Vielen Dank für eure Geduld und Unterstützung. Es gibt einfach keine hingebungsvollere Nutzerbasis und dafür danken wir euch sehr.

Herzlichst,
Landon ( Linden )

Quelle: The Recent Unpleasantness
....................................................................................................................

Anm.:
Ich bin kein Datenbank-Experte, deshalb hoffe ich, dass ich den ziemlich technischen Beitrag von Landon einigermaßen verständlich hinbekommen habe. Insgesamt finde ich es gut, dass LL sowas auch mal erklärt. Die Downtime am Dienstag war eine der wenigen heftigen in den letzten ein bis zwei Jahren. Unterm Strich ist Second Life inzwischen aber wesentlich stabiler als ich es in meinen Anfangstagen noch kennengelernt habe.

1 Kommentar:

  1. Nikira Naimarc25. Mai 2014 um 12:16

    Ja, solche heftigen Ausfälle gibt es in letzter Zeit wirklich selten. Aber es gab sie nur mit dem Unterschied, dass es nach meinem Wissen keine solch umfangreiche Erklärung seitens Linden Lab gab. Es ist erfreulich, dass doch wohl ein Umdenken in Richtung Kundenservice eingetreten ist, seit Ebbe als CEO angetreten ist.

    Wollen wir hoffen, dass dieses eine nachhaltige Entwicklung sein wird zum Wohle von SL.

    Die Niki

    AntwortenLöschen