Quelle: SL Brand Center |
(23.08.2017, 1:07 Uhr MESZ)
- Blogübersetzung -
Heya! Hier ist April Linden.
Wir hatten einen ziemlich harten Morgen hier im Lab und ich möchte euch erzählen, was passiert ist.
Am frühen Morgen (während die Rolling Restarts liefen, was aber nur Zufall war) ist ein Hardware-Bauteil in unserem internen Netzwerk ausgefallen. Als dieses Hardware-Bauteil starb, wurde es sehr schwierig für die Grid-Server herauszufinden, wie man einen für Menschen lesbaren Domain-Namen, wie z.B. www.secondlife.com, in IP-Adressen umwandelt, wie z.B. 216.82.8.56.
Alles war immer noch in Betrieb, aber keiner von den Computern konnte die anderen Computer in unserem Netzwerk finden. Also kamen die Aktivitäten im Grid zum Stillstand. Das Second Life Grid ist eine große Ansammlung von Computern und wenn sie sich nicht gegenseitig finden können, funktionieren Dinge nicht mehr, wie der Wechsel von Regionen, Teleports, Zugriff auf euer Inventar, das Wechseln von Outfits und sogar Chatten. Dies hat viele Bewohner zu dem Versuch veranlasst, sich erneut einzuloggen.
Wir haben uns sehr beeilt, um die defekte Hardware auszutauschen, aber Hardwaretausch braucht Zeit und in diesem Fall waren es ein paar Stunden. Es war sehr unheimlich, unsere Grid-Monitore zu beobachten. An einem Punkt lag die "Logins pro Minute"-Metrik bei "1" und der "Prozentsatz der erfolgreichen Teleports" lag bei "2%". Ich hoffe, nie wieder solche Zahlen zu sehen.
Sobald die ausgefallene Hardware ersetzt war, begann das Grid wieder zum Leben zu erwachen.
Nach dem Hardwarefehler begannen die Anmeldeserver in einen wirklich ungewöhnlichen Zustand zu fallen. Ein Anmeldeserver sagt normalerweise dem Resident-Viewer, dass eine Anmeldung nicht erfolgreich war, aber gleichzeitig gab er dem Grid die Information, dass der Bewohner sich angemeldet hatte. Diese Fehlinformation in der Kommunikation machte er sehr schwierig, herauszufinden was los war, weil es so aussah als ob die Bewohner eingeloggt sind, obwohl sie es nicht waren. Wir haben schließlich den Grund auf den Anmeldeservern gefunden, die nach dem Hardwarefehler nicht richtig funktionierten, und korrigierten das Problem. An diesem Punkt kehrte das Grid wieder zum normalen Betrieb zurück.
Es gibt eine gute Nachricht für alle! Wir sind derzeit in der Mitte der Prüfungen für unsere nächste Generation von Anmeldeservern, die speziell entwickelt wurden, um diese Art von Ausfall besser zu verkraften. Wir hatten ein paar der zukünftigen Anmeldeserver in den letzten Tagen im Einsatz, nur um zu sehen, wie sie mit dem derzeitigen Loginverhalten der Bewohner zurechtkommen. Und sie hielten sich wirklich gut! Tatsächlich sind wir der Meinung, der einzige Grund, warum einige Bewohner in der Lage waren, sich während dieses Ausfalls einzuloggen, lag daran, weil sie Glück hatten und zufällig einem der zukünftigen Anmeldeserver zugeordnet wurden, die wir gerade testen.
Der nächste Schritt ist für uns der Abschluss der Tests für die zukünftigen Anmeldeserver und die Aufnahme aller Login-Anfragen durch diese Server. (Hoffentlich bald!)
Es tut uns sehr leid wegen der Ausfallzeit heute. Dieser Vorfall hatte es in sich und die Wiederherstellung war interessant, um es gelinde auszudrücken. Mein Team nimmt das Befinden und die Stabilität von Second Life wirklich ernst und wir sind heute Nachmittag alle ein wenig erschöpft.
Euer freundliches, langohriges Grid-Häschen,
April Linden
Quelle: Missed Connections
............................................................................................................................................................
Anm.:
Okay, die Rolling Restarts waren diesmal nicht Schuld. Da habe ich falsch gelegen. Ich habe auch den Server-Update Beitrag von gestern aktualisiert, denn sowohl die Rolling Restarts von gestern als auch von heute, wurden dann noch durchgeführt.
Wenn einer meiner Server ausfällt Brauch ich 10 Minuten bis ein Ersatz Server läuft und Online ist, nen Switch Tausch dauert nicht Länger als 10 Min, Sollte der Router (ist auch nen PC) ausfallen wird auf einen anderen umgestöpselt das dauert keine 30 Sekunden und niemand merkt was davon. Ich bin nur eine Person und LL sollte bei deren mange an Servern genug Leute angestellt haben und genug ersatz Hardware auf lager haben, damit sowas inerhalb von 30 Min. behoben ist. oder noch besser bei der Größe die SL hat das gaze Redundant haben und zwar so, dann wenn was ausfält das System ne melding ausgibt und selbstständig auf andere Hardware umschaltet..... Irgendjemand sollte denen mal Docker vorstellen :) Und LL sollte auf Moderne Hardware setzten ..... gibt ja nu neue server CPU's .... "zu AMD schiel= :D
AntwortenLöschenHm. erklärt das, meine Probs mit meinen selbst erstellten FP-Meshteilen? Gerezzt zusammengebaut ins Inventar gepackt. zack (kein transferieren)
AntwortenLöschenIch habe meinen PC und das Netzwerk neu gestartet und dann ging es mit neuer IP Adresse ...
AntwortenLöschen