Archiv:2008/2008-05-31 - Webserver-GAU

Dieser Artikel ist veraltet, aber hier aus Archivierungsgründen noch vorhanden!

Symptome

Kompletter Ausfall des neuen Servers ("rackham"). Davon betroffen:

Website (Totalausfall),
Wiki (Totalausfall),
E-Mail (teilweiser Ausfall).

Chronologie

31.05.2008 - 20:24

Autor: Jürgen
Subject: "Wiki down"
Text: "FYI"

31.05.2008 - 20:53

Autor: Klaus
Subject: Re: [techtalk] Wiki down | http://www.piratenpartei.de/ auch
Text: http://www.piratenpartei.de/ komplett
Etwa zur selben Zeit: Jamasi informiert Dirk telefonisch, daß der server down ist.

31.05.2008 - 22:46

Autor: Dirk (Admin)
Subject: Re: [techtalk] Wiki down
Text (Zusfsg.): Virtueller Server anscheinend down; Rechner und Hauptdomain noch online; eigener root-login aufgrund v. Konfigänderungen inaktiv; Stefan (Admin) angemailt.

Anmerkung: Kein Admin hatte Zugriff auf den Server. Grund: Server war im Rescue Mode gestartet. --Stefan Riegel (Admin)

01.06.2008 - 14:52; 22:00

Autor: Dirk (Admin)
Text (Zusfsg.): Technische Probleme mit Hauptserver. Web, Wiki, E-Mails betroffen. Von drei Admins zwei ohne Internet, einer ohne funktionierenden SSH-Key.

Anmerkung: Alle SSH-Keys waren Funktionstüchtig --Stefan Riegel (Admin)

02.06.2008 - 08:53

Erste Mail von Stefan (Admin).

02.06.2008 - 11:02

Zweite Mail von Stefan (Admin): Server-Reset, normaler Boot, virtuelle Server laufen, alles funktioniert.

02.06.2008 - ca. 16:00

Autor: Jamasi
Wiki läuft auch wieder (wenn man mich kurz angerufen hätte, nachdem der Server wieder da war, wäre es auch sofort wieder online gegangen).
Das Problem war, daß der Squid, den ich am Wochenende eigentlich richtig konfigurieren wollte, zuerst gestartet war und dem Apache den port 80 auf der öffentlichen IP geklaut hatte, so daß der Apache nicht mehr starten wollte.

Zusammenfassung

Downtime insgesamt: 31.05.2008 19:00? - 02.06.2008 10:00: 39 Stunden. (Wiki etwas länger down)

Ohne Gewähr auf Vollständigkeit

Anmerkungen

Auf der Vorstands-Telko haben wir gestern auch über den Vorfall gesprochen. Der Server konnte so lange nicht neu gebootet werden, da keine der erreichbaren Personen die dazu notwendige Autorität gegenüber Hetzner hatte, diese hat nur Jan Huwald, der aber auf keinem bekannten Kommunikationsweg zu erreichen war. --Sarek 17:40, 6. Jun. 2008 (CEST)

Stellungnahme Stefan Riegel [Leiter IT]

Da bereits wild auf der Techliste über den Grund des Ausfalles spekuliert wurde, möchte ich gern ein Paar Information geben.

Der Server wurde - wie auch immer - in den Rescure Mode gebracht, dies ist nur möglich mit Zugriff auf das Hetzner Interface.

in dem Zeitraum Freitag 19:00 Uhr war ich gerade auf den Weg in einen Kurzurlaub nach Thüringen , darum konnte ich nicht erreicht werden - schlechte netzabdeckung bei O².

Als ich Samstag mit Dirk sprach, konnte er sich mit seinem Key nicht einloggen, was zum Zeitpunkt nicht klar war, der Server ist Rescure modus, wir wunderten uns natürlich da der OpenSSH auf dem Standard ssh Port lauschte, was eigentlich nicht sein sollte.

Ich vermutete das der Server im Rescure Modus war, konnte es aber via Handy nicht klären da uns die nötige Authorisierung bei Hetzner fehlte.

Wie wurde der Fehler behoben?

Ganz einfach, Hetzner robo login -> Reboot auftrag schwups nach 30sekunden war alles wieder online...

Bezuglich der Ansprache ob wir backups machen, ja die smachen wir, 1x Pro Woche in ein Externes RZ in Frankfurt, natürlich halte ich 5 backup reihen vor, mehr geht nciht da ich die kompletten Dom Images backuppe.

Welche änderungen Treffen ein?

Hetzner Logindaten haben nun Dirk Hillbrecht und ich sowie Sebastian Schäfer. Hetzner wird Informiert und ich Dirk und Sebastian erhalten Vollmachten. Wir versuchen bei Hetzner zu klären wie es dazu kam das der Server in den Rescure Mode kam.

Ich hoffe ich konnte etwas Licht ins Dunkle bringen.

grüße Stefan Riegel 23:18, 6. Jun. 2008 (CEST)

Offene Fragen

Warum konnte sich niemand via SSH einloggen?
weil alle DomX (mit den ssh-logins) nicht liefen. --Jamasi 22:36, 8. Jun. 2008 (CEST)
Warum ist der Server im Rescue-Modus gestartet worden?
Was ist der "Rescue-Modus" und wie wirkt er sich auf?
Warum wurde eine offensichtlich kaputte Konfiguration vom Squid ungetestet auf einem produktivsystem bereits scharf geschaltet?
Weil bisher kein Test-System dafür da ist und Debian den Squid nach seiner Installation automatisch ins normale Runlevel repackt hat, was mir als Gentoo-Admin (wo dies nicht so ist) auch erst im Nachhinein bewußt wurde, inzwischen habe ich den Squid zur Vermeidung weiterer Probleme aber aus dem Runlevel entfernt. --Jamasi 22:36, 8. Jun. 2008 (CEST)
Warum wurde Squid nicht wenigstens auf einem alternativen Port getestet.
Weil der Squid (wegen der vhosts) transparent vor dem Apache laufen muß und die Konfiguration des Squid alles andere als trivial ist.
Warum war nur eine nicht zuständige Person (Jan) einzig gegen Hetzner autorisiert, den Server zu rebooten?
Der Server ist meines Wissens nach auf mehrere virtuelle Server aufgeteilt (bitte vollständige Beschreibung der Hierarchie der virtuellen Server, die es mir ermöglichen Würde, gleiches System auf einem anderen Server zu rekonstruieren).
Der Server ist in verschiedene Xen-Domänen unterteilt. siehe Neukonzeption Infrastruktur --Jamasi 22:36, 8. Jun. 2008 (CEST)
Wieso kam man auch von der Dom0 nicht auf die anderen Doms?
Weil nicht mal die Dom0 im Rescue-Modus läuft. --Jamasi 22:36, 8. Jun. 2008 (CEST)

Wieso warten die Verantwortlichen mit dem Beantworten dieser Fragen, bis jemand separat danach stichelt? Wieso verweigert sich der Vorstand und die IT-Leitung einer freiwilligen lückenlosen Aufklärung?