Serverausfall 15.9.

Fragen zum Forum, Feedback, Kritik, Vorschläge...

Moderatoren: Spotterlempio, Berlinspotter, Co-Moderator

Benutzeravatar
Berlinspotter
Beiträge: 8992
Registriert: Donnerstag 11. März 2004, 22:22
Wohnort: Berlin-Weißensee
Kontaktdaten:

Serverausfall 15.9.

Beitragvon Berlinspotter » Dienstag 16. September 2014, 17:51

Gestern (15.9.) war Berlinspotter.de stundenlang nicht zu erreichen. Ich hatte via Facebook und Twitter kurz informiert. Soeben kam die Erklärung von meinem Webhoster:

Die von Ihnen genutzten Serversysteme werden über zentral verwaltete Storagesysteme betrieben – im aktuellen Störungsfall auf Dell-Maschinen der „EqualLogic PS6000-Serie“. Die Storages sind für sich bereits mit z. B. zwei Netzteilen und zwei Controllern komplett redundant aufgebaut.

Am gestrigen Abend, 15.09.2014, ca. 16:30 Uhr meldete unser Monitoring die Nichterreichbarkeit einer Storage. Diese Nichterreichbarkeit trat vollkommen ohne Vorwarnung auf. Das System war online nicht zu erreichen, weshalb die Störungsursache am System selbst gesucht wurde. Die Stromversorgung der Storage war nicht gegeben. Nach einigen Tests wurde festgestellt, dass beide eingebauten Netzteile eine Defekt aufwiesen. Ein lagerndes Ersatznetzteil wurde eingebaut, so dass die Storage (mit einem Netzteil) wieder startete, während der zwischenzeitlich beauftragte Dell-Service die beiden Netzteile anschließend tauschte und somit die Redundanz wieder herstellte.

Ein Großteil der betroffenen Serversysteme waren somit kurzfristig wieder erreichbar. Leider hatte der abrupte Verlust der Stromversorgung korrupte Daten und damit die fortwährende Nichterreichbarkeit einiger Server zur Folge. In Enger Kommunikation mit Dell wurden sodann die Serversysteme sukzessive von dem betroffenen Storage-System auf Ersatzsysteme migriert, damit die betroffene Storage näher untersucht werden kann. Der teilweise korrupte Datenbestand verhinderte bei einigen Systemen den reibungslosen Übergang auf die Ersatzsysteme, so dass die Migration sich über die ganze Nach hinzog und wiederkehrend Unregelmäßigkeiten auftraten.

Während der weiteren Untersuchungen konnte festgestellt werden, dass die Storage offenbar einen Defekt an einer so genannten Backplane hat. Nach aktuellem Stand gehen wir davon aus, dass dieser Defekt die eigentliche Ursache ist, da das auch den höchstseltenen gleichzeitigen Ausfall zweier Netzteile erklärt.

In den heutigen (16.09.2014) Morgenstunden waren dann die Systeme weitestgehend wieder erreichbar. An die Arbeiten in direktem Bezug auf die Störungen, knüpfen sich nun umgehend Planungen an, die die Wahrscheinlichkeit eines neuerlichen Auftretens dieses Problems reduziere sollen.

Wir bitten noch einmal die entstandenen Probleme zu entschuldigen. Für Rückfragen stehen wir sehr gerne zur Verfügung und wünschen weiter viel Erfolg und einen angenehmen Abend!

Disable adblock

This site is supported by ads and donations.
If you see this text you are blocking our ads.
Please consider a Donation to support the site.


Zurück zu „Feedback“

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast