2007-01-06 - Serverausfall
Fakten
aktueller Stand
Der Hetzner Server ist wieder komplett mit dem alten System online (Gentoo, VServer-basierend). Der mailman funktioniert wieder und auch alle anderen vserver sind ohne Beschwerden gestartet. Das OTRS ist noch nicht funktionsfähig da es ein Verbindungsproblem zum Datenbank vserver zu geben scheint, daran arbeite ich zur Zeit. Auch emails kommen noch nicht auf der Maschine an, da der MX-Record wie es mir scheint geändert wurde (dokumentiert? ;)). Den Administrationsbereich für die DNS-Verwaltung unserer Domains kenne ich nicht und habe auch keinen Zugriff. Das Muss also jemand Anderes machen. <-- TODO
Sobald der MX Record wieder auf die ip des für email zuständigen vservers (88.198.164.202) umgestellt ist, kann die Funktionalität getestet werden. Alle genutzten Partitionen haben nun genug Platz und auch die Dateisystemintegrität scheint nicht beschädigt zu sein. mana 19:41, 10. Jan 2007 (UTC)
Der ebenfalls auf diesem Server laufende Jabber-Server ist immer noch down. Bitte auch darum kümmern (DNS-Eintrag jabber.piratenpartei.de verweist auf 88.198.164.204 und ist pingbar). --Jamasi 20:37, 20. Jan 2007 (UTC)
Ablauf
Der Serverausfall ist im wesentlichen in 2 Teilen von statten gegangen:
Am 6.1.07 gab es den Versuch Chaotikas Wiki und Forum vom alten zum neuen Hetzner-Server zu transferieren. Dabei wurden beide auf dem alten Server deaktiviert, die DNS-Einträge umgebogen und die Datenbanken per Dump auf den neuen Server gebracht. Wegen inkompatiblen Character-Encoding in MySQL konnten die Seiten nicht (ohne Datenkorruption) in Betrieb genommen werden.
Am 7.1.07 in den Morgenstunden wurde an den VServer des neuen Hetzner-Server gebastelt. Beim notwendigen Reboot startete der Rechner nicht mehr. Mehrmalige Resets führten nicht zur "Lösung". Bis Montag kommen wir nicht an den Rechner.
Vorübergehende Maßnahmen
Die DNS-Einträge sind inzwischen wieder auf den alten Hetzner-Server übergegangen. Forum und Wiki werden übergangsweise dort laufen. --Jan Huwald
Es sind ungefähr 40 Änderungen am Wiki im Zeitfenster vom 6.1.2007 19:00 Uhr bis 7.1.2007 03:00 Uhr verloren gegangen. Wenn die Daten gerettet wurden, werden diese eingepflegt.
Genaue Ursachen
In den Morgenstunden des 7.1.07 hat die Festplattenpartition des Servers ihre Grenzen erreicht. Diese war nur auf 20 GB partitioniert und die Daten waren nicht auf eine andere Partition ausgelagert. Dies wollte ich nachholen. Dazu habe ich die Vserver gestoppt. Danach hat das System nicht mehr auf Kommandos reagiert. Der daraufhin ausgelöste Hardwarereset führte auch zu keinem Ergebnis. Der Server antwortet auf ping-Anfragen nicht. Wir bekommen auch keine Mails von Hetzner, da auf diesem Server gleichzeitig auch die Mails der Piratenpartei abgearbeitet werden.
weiteres Vorgehen
Ich habe die Mailadresse für das Hetzneradministrationsmenü auf meine private Mailadresse umgeleitet und eine LARA-Console beantragt. Das Rescuesystem funktioniert jetzt wieder.
Nachbereitung
Rekonstruktion der E-Mail-Adressen
Konsequenzen
Dieser Vorfall kann letztlich nur als die Spitze des Eisbergs der Vorkommnisse betrachtet werden. Die AG IT-Infrastruktur muss neu strukturiert werden, um derartige Vorkommnisse zu vermeiden. Die Systeme müssen konservativer aufgesetzt werden, besser Dokumentiert werden und vor möglichen Fehlerszenarien abgesichert werden. Außerdem muss für die wichtigen Dienste wie E-Mail, Wiki und DNS eine Backuplösung existieren. Für alle Dienste müssen mehrere Personen verantwortlich sein, bis jetzt ist dies bei den meisten Diensten nicht gegeben. Diese Zuständigkeiten müssen öffentlich dokumentiert sein. -- Chaotika
Untersuchungskommision
Untersuchungskommission, bitte eintragen.
Peter und Karin Dambier
Anmerkung:
Ich würde es gern sehen, wenn nur Leute mit Fachkompetenz in dieser Kommission sitzen; sonst sind die ergebnisse fragwürdig.
- Amon 16:51, 8. Jan 2007 (UTC)
- Ja, richtig! Fachkompetenz! Wer aber kann das bewerten oder beurteilen? Ich denke, dass Peter Dambier dafür durchaus mehr als nur ausreichend Fachkompetenz hat, ich stimme an dieser Stelle für Peter Dambier. blatze 17:10, 8. Jan 2007 (UTC)
Ich finde den ganzen Punkt etwas übertrieben und bitte um ruhiges Gemüt :). Dass es neben mangelnder Dokumentation zu wenig Mitarbeit und/oder nicht an den richtigen stellen gab/gibt steht glaube ich außer Frage. Ich fände es gut wenn das Ergebnis der Untersuchungen nicht nur Mängel aufzeigen helfen würde, sondern auch konkrete Handlungsvorschläge erarbeiten könnte um so die Restrukturierung und vielleicht sogar die personelle Aufstockung zu unterstützen. Solche hilfreichen Ergebnisse wären denke ich Allen hier hochwillkommen :) mana 18:00, 8. Jan 2007 (UTC)
- Auch wieder richtig! Eine Untersuchungskommission muss nicht sein. Es scheint aber durchaus einen Bedarf an kompetenten Mitarbeitern in der AG IT zu geben. Läuft eigentlich alles auf einem Server oder haben wir einen in Reserve? Wenn nein, wie kann das gelöst werden? Auch scheinen mir 20 GB reichlich wenig zu sein. Hier sollte sich mal ein kompetentes Team mit allen Problematiken und Lösungsmöglichkeiten befassen. Also nicht nur eine personelle Aufstockung scheint mir nötig, sondern auch eine Aufstockung der Hardware. blatze 18:09, 8. Jan 2007 (UTC)
- Der Server hat schon ausreichend Festplatte. Es waren aber nur 20 gb partitioniert. Der Mailserver läuft ja jetzt schon auf einem anderen Server, aber wir können uns generell nicht auf nur einen Server verlassen. -- Chaotika 19:12, 8. Jan 2007 (UTC)
- Vielleicht ist es eine ganz gute Idee, mal bei Peter Dambier anzufragen ob er behilflich sein könnte und/oder/auch vielleicht die IT unterstützen würde. Ich glaube, er könnte einiges an Know-how einbringen. blatze