2009-12-06 - Serverausfall Bounty

Bericht zum Totalausfall Bonty am 06.12.2009

06.12.2009

Auftreten von Fehlverhalten zwischen 04:00 und 08:00.

08:15 Nagios-Alamierung 08:30 Team wird auf 2 Personen erweitert, Probleme werden analysiert 09:00 Festellung das Blackpearl die aktuelleren Daten enthält. 10:00 Verstärkung wird geweckt, 4 Personen beginnen mit der Datenkonsitens-Analyse 10:30 Umzug auf Bounty 10:30 - 18 Uhr

  • Daten werden von Bounty auf Blackpearl gesynct
  • Vserver werden angepasst
  • Konfigurationsdateien werden angepasst
  • Ausstehende Konsolidierungsmaßnahmen werden integriert

18:30 Testing der Notkonfuguration 18:45-21:00 bugfixing, Optimierung der Notkonfig 23:45 Dienste im Notbetrieb Online

07.12.2009

8:00-19:30 HandsOn zur

  • Betriebserhaltung
  • Stabilisierung
  • Performance-Problem Analyse
  • Bugfixing

Verursachende Probleme

erste Vermutungen

  • Festplattendefekt
  • RAM-defekt
  • Kernel-Bugs
  • Konfigurationsprobleme

bestätigte Probleme

  • Kernel-Bug durch Vserver
  • Konfigurationsprobleme