590487

Facebook entschuldigt sich für stundenlangen Ausfall

24.09.2010 | 11:42 Uhr |

Facebook hatte am Donnerstag den schwersten und längsten Ausfall seit über vier Jahren zu verkraften. Mittlerweile wurde der Grund gefunden und behoben.

Laut Angaben von Facebook konnten viele Facebook-Nutzer den Dienst für über zweieinhalb Stunden in der Nacht von Donnerstag auf Freitag nicht nutzen. Dabei habe es sich um den schwersten Ausfall in den vergangenen vier Jahren gehandelt. Man habe aber schließlich die Grund gefunden, behoben und die Lehren daraus gezogen.

Der Hauptgrund für den langen Ausfall sei ein unglücklicher Umgang mit einem aufgetauchten Fehler gewesen. Ein automatisiertes System für die Verifizierung von Konfigurationswerten habe schließlich mehr Schäden angerichtet, als es behoben habe. Das System sei dafür verantwortlich, fehlerhafte Werte im Cache zu entdecken und sie mit den aktualisierten Werten aus dem "persistent store" auszutauschen. Das funktioniere auch, solange der "persistent store" selbst nicht falsche Werte ausliefere.

An der persistenten Kopie der Konfiguration seien Änderungen durchgeführt worden, die vom automatisierten System als fehlerhaft interpretiert wurden. Anschließend habe jeder Client versucht, die scheinbar fehlerhaften Werte zu korrigieren, was dazu geführt habe, dass der Datenbank-Cluster mit hunderttausenden Anfragen in der Sekunde bombardiert wurde. Weitere Faktoren hätten dann zur weiteren Verschlimmerung des Problems beigetragen.

Letztendlich habe man den gesamten Traffic gestoppt, der den Datenbank-Cluster bombardierte. Um dies zu erreichen, musste aber die ganze Facebook-Site offline genommen werden. Nachdem die Datenbank wiederhergestellt und der Fehler behoben worden war, konnte die Seite wieder nach und nach online gehen. Das automatisierte System wird vorerst nicht wieder eingeschaltet und es wird nach Alternativen dazu gesucht.

0 Kommentare zu diesem Artikel
590487