2009-07-13 - Serverprobleme

13.07.2009

0:00 - Beginn der planmässigen Wartungsarbeiten am Server
~1:30 - Der Server ist abgestürzt, nach dem Wiederanlauf stellten wir fest, dass die 2. Platte (sdb) nicht mehr im Raid-Verbund ist.
2:02 - Meldung des Plattenausfalls auf der techtalk-Liste
7:07 - Letzter gesicherter E-Mail-Empfang
~8:30 - Ende der planmässigen Wartungsarbeiten am Server
~10:00 - Meldungen von Nutzern, dass das Mailsystem nicht funktioniert
~10:30 - Check: Mailserver hat dutzende nicht-beendete Prozesse; wird heruntergefahren; weigert sich, herunterzufahren; wird beendet und neu gestartet; kommt nicht hoch; Fehlermeldung: io-error
~10:45 - Eskalation: Benachrichtigung der restlichen (erreichbaren) Admins; kurze Beratschlagung weiteren Vorgehens; klärung der Optionen beim Hoster
~11:00 - Lösungsversuch: Das Mailserver-Image von der Platte, die um 1:30 geflogen ist, auf den aktuellen Server kopieren und dann starten. Deutliche Performanzeinbussen während der hohen IO-Last des Image-Kopierens
~ 11:45 - Mailserver läuft wieder.
~ 11:50 - Mailserver wurde wieder abgeschaltet.: (Hier ein _sehr_ grosses WTF) Das Image, das kopiert wurde, hatte den Stand von vor einem Jahr. Die Pfade von Quelle oder Ziel haben allerdings auch nach nochmaliger Überprüfung das Image der um 1:30 ausgeworfenen Platte referenziert.
~ 12:00 - Lösungsversuch: Reparieren des Mailserver-Images: Es wurde der Mailserver nochmal gestartet, keine Änderung an den Symptomen; ein Einhängen des Images ergab, dass auf das File-System noch zugegriffen werden kann.
~ 12:15 - Anlegen eines neuen Mailserver-Images und kopieren der Daten mit rsync von der alten Mailserver-Platte auf die neue.
13:30 - E-Mail-Funktionen des Wikis deaktiviert.
~ 16:00 - Zwischenstand kopieren: 700k/900k files kopiert.
~ 17:00 - rsync fertig, rackham-b (mail) läuft wieder. jetzt gaaaanz vorsichtig antesten ;-)

14.07.2009

1:00 - E-Mail-Funktionen des Wikis reaktiviert.

~22:00 - Planmässige abschaltung des Servers wegen Plattentausch
~22:20 - Rackham wieder online. Defekte Systeme auf rackham-a und rackham-c. Rackham-a musste neu installiert werden; die config-files konnten aber noch gerettet werden. Der jabber-server musste auch nochmal grund-eingerichtet werden, die Daten konnten aber gerettet werden.
~24:00 - Ende der Umbauarbeiten. Gerade fixen wir noch kleinere Probleme mit dem MySQL-Server. Als workaround für das Problem der Connections erstmal max_connect_errors hochgedreht.