Archiv:2010/IT/Störungen/2010-06-01

< Archiv:2010
Version vom 1. Februar 2019, 16:08 Uhr von imported>JanRei (JanRei verschob die Seite IT/Störungen/2010-06-01 nach Archiv:2010/IT/Störungen/2010-06-01)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Ausfälle am 1. und 2. Juni 2010

Technikfreie Erklärung

Bereits seit einigen Wochen machen uns ständige Netz-Probleme bei unserem Hoster OVH zu schaffen. In der Nacht vom 31.05.2010 auf den 01.06.2010 hat dies bereits dazu geführt, dass bei einem der angemieteten Server durch die instabilen Verbindungen ein Fehler bei der Synchronisierung von Daten mit einem anderen Server (Doppelung zur Datensicherung) aufgetreten ist. Im ersten Schritt konnte der Server neu gestartet werden und die meisten Dienste - die jeweils auf virtuellen Servern unterhalb der physikalischen Server laufen - konnten wieder gestartet werden. Bereits hier konnte allerdings festgestellt werden, dass diese noch nicht wieder sauber liefen. Überhaupt nicht gelaufen ist der Squid, der dafür zuständig ist, Last auf den virtuellen Severn der Dienste abzufangen, indem er häufig abgerufene Seiten zwischenspeichert und ausliefert. Dieser wurde dann auf einen anderen Server umgezogen, woraufhin wieder alle Dienste erreichbar waren.

Am 01.06.2010 gegen 11 Uhr trat dann der gleiche Fehler, in Verbindung mit einem Festplattenausfall bei einem anderen der angemieteten Server auf, allerdings ist hier der Neustart mehrfach fehlgeschlagen und die Dienste konnten auf diesem Server nicht sauber gestartet werden. Aus diesem Grund wurden die Dienste auf einen der anderen angemieteten Server kopiert. Durch die Netz-Probleme bei OVH war dies allerdings sehr langwierig, da die Übertragung nur mit sehr geringer Übertragungsrate im Verhältnis der zu übertragenden Daten möglich war. Zusätzlich war die Verbindung zwischen den Servern instabil. Ein weiteres Problem ist, dass die Ressourcen zum Auslagern auf die anderen Server sehr begrenzt sind, so dass wir hier auch aufpassen müssen, dass wir die Server nicht überlasten und so einen weiteren Ausfall verursachen.

Nach aktuellen Erkenntnissen gab es außer einer Pressemitteilung keine Datenverluste.

Kurze Zusammenfassung der Probleme und wie wir diese gerne lösen würden, leider nicht ganz technikfrei

Aktuelle Störungen

  • seit ca. 10 Wochen Netzprobleme / Netzüberlastungen bei OVH
    • Diese beeinträchtigen hauptsächlich die interne Kommunikation zwischen den Servern
    • Dies äussert sich so, dass bei größeren Übertragungen ein Teil schnell ( ca. 200-300 MBit/s) übertragen wird, dannach ist eine ca. 2 bis 3 mal so lange Phase, in der die Übertragungsgeschwindigkeit drastisch niedriger ist (ca. 200-300 KBit/s).
      • Dies ist im Betrieb in der Regel ausreichend, da keine großen Datenmengen am Stück geschrieben werden, sondern häppchenweise.
  • Montag auf Dienstag Nacht Ausfall eines Servers, da sich wegen der Netzprobleme DRBD-Modul (zur Spiegelung der Daten) aufgehängt hat
    • vorläufige Behebung war durch ein Upgrade und einenNeustart möglich
  • Dienstag Vormittag gleiches Problem mit anderem Server
    • Neustart fehlgeschlagen
    • Dienste mussten auf andere Server umgezogen werden
    • Umzug schwierig und langwierig, da aufgrund der o.g. Netzprobleme sehr geringe Übertragungsrate für eine sehr große Menge an Daten

Problem

  • Server stehen räumlich getrennt
    • daher Verbindung nicht direkt sondern über Netzwerk
    • somit wirken sich Netzwerkprobleme im OVH-Netz auf die Kommunikation der Server untereinander genauso aus wie auf die Kommunikation nach außen
  • Server nur schwierig fernadministrierbar, keine serielle Konsole
    • daher Fehlerdiagnose beim Systemstart schwierig bis unmöglich
    • die im RZ genannten Möglichkeiten zur Fernadministration werden von OVH nur zu einem nicht finanzierbaren Mehrpreis (nachträglich nicht mehr buchbar)

Lösung durch eigene Hardware im Rechenzentrum

  • Server stehen räumlich direkt nebeneinander
    • direkte Verbindung zwischen den Servern
    • Kommunikation der Server untereinander unabhängig vom Netzwerk, somit weniger anfällig für Störungen
  • StorageSystem vorhanden zur Vermeidung langer Kopierzeiten
    • System kann gleichzeitig während der Fehlersuche schon auf einem Ersatzhost gestartet werden.
  • Umfangreiche Möglichkeiten zur Fernadministration
    • Hardware-Diagnose über IPMI möglich
    • entfernter Bildschirm-/Tastaturzugriff via KVM
    • Fehlerdiagnose einfach möglich
    • Remote Hands als Möglichkeit, einfache Arbeiten erledigen zu lassen

Alternative Möglichkeiten zum Rechenzentrum

  • Zusatzoption bei OVH "Virtuelles Rack" für 120 EUR/Monat
  • Zusatzoption zur Fernadministration
    • wird von OVH nur zu einem nicht im Budget befindlichen Mehrpreis angeboten


Probleme bei Managed Lösungen/andere Hoster

  • Hetzner
    • Probleme vor der Bundestagswahl
      • Umzug der Parteiserver 2009 am Wahlsonntag
      • Alternative: Vorher (während der heißen Wahlkampfphase) möglich; danach nicht
    • Trafficlimit 5TB (beim letzten Mal 2TB; wurden bei der BTW überschritten, dannach war Mail langsam)
      • Aufhebung Trafficlimit dauert mitunter 12-48h
    • Hohe Kosten für gleiche Leistung wie im RZ
      • Einmalige Bereitstellung 4.322 €
      • Monatliche Kosten 1.792 €
      • Upgrades zum Betrieb notwendig (Flexi-Pack für die IP-Netze)
  • Serverloft
    • Hohe Kosten für gleiche Leistung wie im RZ
      • Einmalige Bereitstellung 2.086 €
      • Monatliche Kosten 2.506 €