Donnerstag, 20. November 2014

[LL Blog] - Die Hardware-Probleme hinter den jüngsten Neustarts von Regionen

von Linden Lab am 20.11.2014 um 11:37am SLT (20:37 Uhr MEZ)
- Blogübersetzung -


Quelle: SL Brand Center
Es ist keine Kleinigkeit, einen reibungslosen Betrieb der Systeme zu gewährleisten, auf denen die Second Life Infrastruktur läuft. Unsere kontrollierende Infrastruktur überwacht unsere Hardware in jeder Sekunde und ein Team von Leuten arbeitet rund um die Uhr, um sicherzustellen, dass Second Life problemlos läuft. Wir geben unser Bestes, um versagende Systeme proaktiv und unsichtbar für die Bewohner zu ersetzen. Leider ergeben sich manchmal unerwartete Probleme.

Ende Juli hat ein Hardwarefehler vier unserer Simulator-Hosts der neuesten Generation lahmgelegt. Zunächst wurde dies auf einen zufälligen Fehler zurückgeführt und die Rechner wurden zur Reparatur an unseren Lieferanten geschickt. Anfang Oktober legte dann ein zweiter Fehler weitere vier Maschinen lahm. Und wieder zwei Wochen später gab es ein weiteres Versagen auf vier weiteren Hosts.

Jeder Host ist in einem Gehäuse zusammen mit drei anderen Hosts untergebracht. Diese vier Hosts teilen sich alle eine gemeinsame Anschlussplatine, die sie mit Strom, Netzzugang und Speicheranbindung versorgen. Die Fehler wurden auf eine Überhitzung und anschließendem Ausfall einer Komponente auf diesen Anschlussplatinen zurückgeführt.

Nach umfangreichen Untersuchungen zusammen mit unserem Zulieferer, entpuppte sich die Ursache für das Versagen als ein Hardware-Defekt in einer Komponente der Anschlussplatine. Wir vereinbarten einen Vor-Ort-Besuch mit unserem Zulieferer, um die betroffenen Anschlussplatinen zu suchen, zu identifizieren und zu ersetzen. Mitglieder unseres operativen Teams haben in dieser Woche mit unserem Zulieferer in unserem Rechenzentrum zusammengearbeitet, um jedes potenziell betroffene System zu überprüfen und die defekten Komponenten zu ersetzen und weitere Ausfälle zu verhindern.

Die Neustarts der Regionen, die einige von euch in dieser Woche erlebt haben, waren ein unglücklicher Nebeneffekt dieser kritischen Wartungsarbeiten. Wir haben unser Bestes getan, um diese Neustarts auf ein Minimum zu reduzieren, da wir verstehen, wie störend der Neustart einer Region sein kann. Die betroffenen Systeme wurden repariert und wieder in Betrieb genommen und wir sind zuversichtlich, dass in Zukunft keine weiteren Ausfälle dieser Art mehr auftreten werden. Ich danke euch allen für eure Geduld und euer Verständnis, während wir in dieser Woche durch das verlängerte Wartungsfenster gegangen sind.

Quelle: [LL Blog] - The Hardware Issues Behind Recent Region Restarts
...............................................................................................................................................................

Anm.:
Damit sollte die einwöchige Wartung bereits einen Tag früher beendet sein. Es gibt zwar weitere Wartungen, aber die waren (sind) für ein anderes Problem im Zusammenhang mit den Chat-Servern.

Keine Kommentare:

Kommentar veröffentlichen