Archiv:2014/IT/Info
50px | Dieser Artikel ist veraltet, aber hier aus Archivierungsgründen noch vorhanden! |
Diese Info-Seite dient dazu Neuerungen an der IT der Piratenpartei zu verbreiten. Jedes Mitglied der IT kann hier über seine aktuellen Projekte berichten.
Wartungsarbeiten 5. bis 8. Juli 2013 - Die neue Hardware kommt
Wir freun uns euch mitteilen zu können, dass die mit der 100k-Aktion beschaffte Hardware eingetroffen ist. Am Wochenende sind wir im Rechenzentrum, um diese einzubauen und die Dienste auf die neuen Systeme umzuziehen.
Daher ist vom Freitag, 5. Juli bis einschließlich Montag, 8. Juli aufgrund der Umzugsarbeiten mit kurzfristigen Ausfällen bei allen Systemen zu rechnen. Wir versuchen diese so kurz wie möglich zu halten.
01.04.2013: Neues aus dem Maschinenraum
Die BundesIT freut sich bekanntgeben zu können, dass in Kürze sämtliche Performanceprobleme der Vergangenheit angehören werden. Möglich wird dies durch eine strategische Zusammenarbeit mit Microsoft.
Microsoft wird die BundesIT dabei unterstützen, die von der BundesIT gehosteten Dienste über Microsofts Clouddienste abzubilden. Angebote der Piratenpartei Deutschland wie die Webseiten, das Wiki, die Piratenpads, das Syncforum und die komplette E-Mail-Infrastruktur und auch die Mailinglisten werden dann aussfallsicher und georedundant in den Microsoft Azure und Office365 Rechenzentren gehostet sein.
Da der BundesIT bewusst ist, welche sensiblen Daten bei den Piraten verarbeitet werden, wurden bewusst Datenstandorte in Nordamerika und Asien gewählt, um einen Zugriff lokaler Behörden zu erschweren.
Die Zusammenarbeit ist vorerst auf 1 Jahr angelegt.
Notfall: Wartungsarbeiten 15.02.2013 12:00 - 14:00
Nachdem wir seit dem letzten Update kleinere Problemchen sehen konnten, sind wir nun an dem Punkt, dass die Probleme größer werden und wird nicht länger ohne Änderungen gegensteuern können.
Daher werden wir zwischen 12 Uhr und 14 Uhr die Plattform durchstarten müssen. Start: 15.02.2013 12:00 Ende: 15.02.2013 13:45 Betroffene Dienste: Gesamte Plattform mit bis zu 30 min je nach Dienst.
Ausfürend: Chrit, Bmstettin erreichbar in Telkoraum 9002 während der arbeiten.
Emergency Wartungsarbeiten 28.01.2013 00:30 - 02:00
Heute nacht ab 00:30 werden im rahmen eines Emergency Changes die Vm Hosts gepatched
Dazu müssen die Server im Anschluss die Server rebootet werden um den gefixten Kernel online zu nehmen. Aus diesem Grund werden die Dienste Gruppen weise für einen Zeitraum vom jeweils ca 15 min. nicht erreichbar sein.
Start :28.01.2013 00:30 end: 28.01.2013.02:00 Impact: Alle Dienste
Ausfürend: Bmstettin erreichbar in Telkoraum 9002 während der arbeiten.
Diese Patches sind Unaufschiebbar, leider können wir noch nicht die vms live migrieren.
Wartungsarbeiten am 21.01.2013 ab 2:00 Uhr
Wir werden heute nacht Wartungsarbeiten Am Mysql Server durchführen.
Grund:Erstellung eines Masterdumps der Datenbank. Dises war bei der lezten Wartung aufgrund von Fehlern gescheitert
Ziel: Wiederaufbau einer redundanten Master slave replication.incl einrichtung eines Zusätzlichen slaves.
Start: 21.01.2013 2:00 (innerhalb des Standart Wartungsfensters.
Dauer:ca. 2 Stunden
Impact: Alle Systeme ausser Wiki und Mail. Bei den meisten Diensten wird es nur zu kurzen unterbrechungen kommen. Das PAD ist leider auf grund des technischen Aufbaus leider nicht verfürgbar während der Wartung.
Erreichbarkeit: Telko 9002
Wartungsarbeiten vom 24. bis 26. August 2012
Auf Grund eines Ausfalls im Storage Bereich müssen dringende Arbeiten an allen Systemen durchgeführt werden. Dazu müssen alle Dienste in der Nacht vom 24.08 zum 25.08. temporär deaktiviert werden. Außerdem kann es am gesammten Wochenende zu kürzeren Ausfällen kommen. Details IT/Emergency_Change_Stor
Wartungsarbeiten am 14. April 2012
Am Samstag, 14. April 2012, ab 15:00 Uhr werden Wartungsarbeiten am Piratenpad durchgeführt. Dafür muss das Pad für ca 3,5 Stunden abgeschaltet werden.
Es werden mehrere kleinere BUGs behoben und als große Änderung wird das Piratenpad Mehrsprachig werden.
Für die Übersetzung des Piratenpads in verschiedenste Sprachen suchen unser Entwickler noch Unterstützung. Bitte meldet euch wenn Ihr Lust habt bei der Erweiterung unseres Pads mit zu helfen beim Entwickler Team. Weiter Informationen für die Übersetzer werden auch per Twitter bekannt gegeben.
Wartungsarbeiten am 16. Januar 2012
Am Montag, 16. Januar 2012, ab 22:30 Uhr, führen wir Wartungsarbeiten durch. Endlich ist es soweit, wir können das neue Hauptstorage in Betrieb nehmen und kommen somit unserer Zielstruktur wieder näher. Dabei müssen wir alle Systeme auf das neue Storage umstellen, was zu einer kurzen Downtime führen wird. Wir bemühen uns, diese so kurz wie möglich zu halten. Bis Dienstag Morgen sollten die Arbeiten abgeschlossen sein und euch dann alle Systeme wieder uneingeschränkt zur Verfügung stehen.
Sehr wichtig: Bitte verbreitet diese Info bitte bis in die Letzte Ecke bei den Piraten. Wir wollen, dass möglichst viele informiert sind.
Wartungsarbeiten vom 30.11. bis 02.12.2011
In Kürze kommen wir mit den Arbeiten an den Punkt, an dem wir einmal alle Dienste kurz offline nehmen werden.
Geplant ist diese Downtime für morgen Abend, Mittwoch 30.11.2011, ca. 22 Uhr. Das Piratenpad müssen wir auf jeden Fall herunterfahren. Alle anderen Dienste werden aber auch für ein paar Minuten betroffen sein, da wir einen kompletten Schwenk auf andere Datenbankserver machen werden.
Wir haben alles für die einzelnen Schritte vorbereitet und werden uns beeilen, alles wieder schnell online zu haben.
Danach werden wir die Firmwareupdates auf den Storages machen, anschliessend anfangen die Daten wieder zurück kopieren. Davon werdet Ihr aber nichts merken, erst wenn wie dann wieder zurück auf die Storageserver schwenken wird es ggf. zu einem Ausfall von ein paar Sekunden kommen.
Anschliessend werden alle Server ein RAM-Upgrade bekommen. Dafür werden wir alle Serverinstanzen auf die jeweiligen anderen Server migrieren. Hierbei werden die Dienste kurzeitig offline sein. Nach dem Ram-Upgrade migireren wir wieder zurück, bis wir alle Server mit mehr RAM ausgestattet haben.
Am Freitag werden die 2. Firewall und der 2. Loadbalancer heruntergefahren und bekommen ein Update und Upgrade, da diese Systeme schon leer geräumt ist wird es hier noch keinen Ausfall geben. Wenn dies erledigt ist werden wir uns die 1. Firewall und Loadbalancer vornehmen und dafür alle Dienste per Failover auf die 2. schieben. Bei den Webdiensten sollte dies nicht auffallen, der Jabberserver könnte einen Reconnect erfordern.
In der ganzen Zeit ab Donnerstag werden wir parallel immer die Daten der Storages und der Datenbanken zurück migrieren. Wenn die Daten zurück auf dem Storage und den Datenbanken sind werden wir auf diese zurück schwenken. Damit ist am Donnerstag Abend oder Freitag vormittag zu rechnen. Hier gilt dann wieder das gleiche wie für den Mittwoch: Alle Dienste sind für ein paar Sekunden bis Minuten kurz offline.
Sehr wichtig. Bitte verbreitet diese Info bitte bis in die Letzte Ecke bei den Piraten. Wir wollen, dass möglichst viele informiert sind. Folgt unserem Twitteraccount https://twitter.com/piratenit, dort werden wir kurz vorher immer bescheid geben.
Eure BundesIT
PS: Danke an die Leute, die seit Wochen so viel gerockt haben, um dieses Mammutprojekt überhaupt stemmen zu können, Ihr rockt !!!
Die BundesIT informiert über Wartungsarbeiten
Die IT informiert alle Piraten über Wartungsarbeiten beginnend in der Nacht auf den 26.11.2011 bis zum 02.12.2011 23:59:00 Uhr.
In den letzten Wochen wurden mehrere Terabyte Daten im Hintergrund hin und her kopiert um alles auf diese Großwartung vorzubereiten. Bis jetzt haben alle davon überhaupt nichts bemerkt. Das wird die nächsten Tage auch noch so weiter gehen.
Wir werden die Datenbanken auf zwei weiteren Servern einrichten. Dies wird an diesem Wochenende passieren. Ab dem Mittwoch ist die BundesIT auch im RZ vor Ort um Firmwareupdates, Ram-Upgrades durch zuführen.
Parallel werden wir einen Loadbalancer und die Firewall auf den neusten Stand bringen. Da dieses System das Standby-System ist wird das keine Auswirkung haben. Wenn alles glatt geht werden wir alles über dieses System weiter online bringen und die aktuell laufende Firewall und den Loadbalancer updaten. Hier kann es auch zu kurzen Aussetzern der Dienste kommen. Wir haben beim Loadbalancer noch keinen Failovertest mit dem neuen ejabberd als Jabberserver gemacht. Der alte Openfire konnte keine Verbindungen überbrücken bei so einem Failover, wir hoffen das ejabberd das kann und werden diesem Test entgegenfiebern, da dies eine weiteren Steigerung der Qualität beim Jabberserver bedeutet.
Ab Mittwoch kann es kurzzeitig zu Ausfällen einzelner oder auch allen Diensten kommen. Da werden wir alles auf die temporären Datenbanken und Storages schwenken. Im besten Fall werden wir alle davon nichts merken. Wenn wir den Schwenk durchführen, werden wir es ca. 1 Stunde vorher ankündigen und kurz davor noch einmal.
Diese Ankündigungen werden wir auf der Mailingliste techtalk und über unseren Twitteraccount machen. Bitte leitet diese Mail hier an andere Mailinglisten weiter. Informiert bitte auch andere über diese Wartungsarbeiten, wenn sie in den nächsten Tagen Probleme haben sollten.
Wenn alle Wartungsarbeiten fertig sind werden wir wieder auf die alten Systeme zurück schwenken. Das werden wir auch wieder ankündigen, da es hierbei auch zu einem kurzen Ausfall kommen kann.
Eure BundesIT
Statusbericht 13. Februar 2011
Wir haben soeben unseren aktuellen Statusbericht veröffentlicht.
Steffi 19:52, 13. Feb. 2011 (CET)
Systembeeinträchtigungen durch Umzug ins RZ am 03.11.2010
Es ist soweit! Im Moment findet wieder ein Teil des langersehnten Umzugs ins Rechenzentrum statt. Aus diesem Grund ist heute Abend mit Ausfällen zu rechnen. Wir bemühen uns, die Ausfallzeiten möglichst gering zu halten. Betroffen sein werden die umzuziehenden Dienste sowie die Dienste, die die Datenbank nutzen:
- Forum
- RLP
- Jabber
- Live
Steffi 20:50, 3. Nov. 2010 (CET)
Newsserver und Syncforum nicht erreichbar
Derzeit sind der Newsserver und das Syncforum nicht erreichbar, die Dauer der Störung ist unbekannt. Wir möchten in diesem Zusammenhang darauf hinweisen, dass beide Systeme bisher noch im Teststatus sind. Wir planen, dies mittelfristig nach dem Umzug ins Rechenzentrum zu ändern und die Systeme dann in den Produktivstatus zu setzen. Steffi 00:27, 14. Okt. 2010 (CEST)
Wartungsarbeiten in der Nacht vom 13. auf den 14.10.2010
Heute Nacht werden wir zur Vorbereitung des Umzugs ins Rechenzentrums Arbeiten durchführen. Daher ist ab ca. 1:00 Uhr mit einer ca. 20minütigen Downtime der Datenbank zu rechnen, dies betrifft dann auch Wiki, Forum, Blog und Planet. Anschließend werden Jabber, Website, RLP-Web und live jeweils ca. 10-15 Minuten down sein. Wir bemühen uns die Ausfälle so kurz wie möglich zu halten und freuen uns auf den hoffentlich bald stattfindenden Umzug ins Rechenzentrum. Alles wird gut. :-) Steffi 00:27, 14. Okt. 2010 (CEST)
Wartungsarbeiten vom 28. - 30. August 2010
Da in den letzten Tagen die Grenzen unserer Server überschritten wurden haben wir kurzfristig einen weiteren Server angemietet, um die Systeme wieder in einen stabilen Zustand zu bringen. Auf diesen werden wir einen Teil der Systeme auslagern, außerdem werden wir auch innerhalb der bisherigen Server Dienste verschieben, um die Last besser verteilen zu können. Daher kann es heute Nacht ab 21:30 Uhr bis voraussichtlich Montag 3:00 Uhr zu Ausfällen kommen. Dies kann alle Dienste betreffen. Steffi 21:07, 28. Aug. 2010 (CEST)
Ausfälle am 1. und 2. Juni 2010
Die heiß erwartete Stellungnahme der BundesIT zu den Ausfällen findet ihr hier:
Flyer BPT 2010 der IT (22.04.2010)
Da viel danach gefragt wurde nun hier auch online. Informiert euch und wenn Ihr Fragen und Anregungen habt schaut einfach im Raum techtalk im Piratenjabber vorbei und schreibt uns auf die Mailingliste Techtalk. Ihr könnt uns auch im Telkoraum 9002# auf dem Hessen Telkoserver besuchen. Wenn keiner da einfach kurz anschreiben wir kommen dann auch rein.
Wartungsarbeiten in der Nacht vom 05. auf den 06.04.2010
Anstelle unserer wöchentlichen IT-Telko haben wir heute wegen des Feiertags eine Arbeits-Telko angesetzt. Aktuell arbeiten wir an den Systemen, wobei es zu kurzen Ausfällen kommen kann. Wir beobachten dies ständig und können - da wir ja sowieso schon auf den Systemen sind - auch umgehend beheben.
Steffi 00:20, 6. Apr. 2010 (CEST)
Server-Ausfall und Maßnahmen zur Minimierung von Ausfällen (30.03.2010)
Soeben hatte sich mal wieder der Server, auf dem Website, Wiki, Forum, Planet und Blog laufen, aufgehängt und musste neu gestartet werden. Fürs Forum wurde kurzfristig der zuvor bereits im Abschluss-Test befindliche neue virtuelle Server live geschaltet. Die anderen Dienste werden wir ebenfalls kurzfristig (geplant: noch diese Woche) auf jeweils eigene virtuelle Server umziehn. Mit dieser Maßnahme sollen Totalausfälle aller Dienste gleichzeitig minimiert werden. Desweiteren evaluieren wir, wie bereits gestern in der Telko angekündigt, neue Versionen des Linux-Kernes und der Virtualisierungstechnik, da sich die Ausfälle auf Fehler dorthin zurückführen lassen. Wir arbeiten daran, euch schnellstmöglich ein zuverlässiges und möglichst ausfallsicheres System zur Verfügung stellen zu können. Steffi 14:22, 30. Mär. 2010 (CEST)
Wartungsarbeiten in der Nacht vom 28. auf den 29.03.2010
Heute nacht ab 0:00 Uhr werden wir einen Check der Datenbank und neuinitialisieren des DB-Slaves (parallele "Ersatz-Datenbank") durchführen. Dies kann zu Einschränkungen bzw. Ausfällen bei Wiki und Forum führen. Wir gehen davon aus, dass die Aktion bis ca. 2:00 Uhr beendet sein wird. Steffi 23:05, 28. Mär. 2010 (CEST)
Diverse Probleme (27.03.2010)
Zuerst war heute morgen die Datenbank wegen zu vieler Zugriffe überlastet, weshalb Forum, Wiki, int. Wiki und Website nicht erreichbar waren. Aus diesem Grund mussten die Server kurzzeitig angehalten werden, um die Last zu senken. Nach dem Neustart waren die heute Nacht nach einem Fehler provisorisch eingerichteten Routing-Einstellungen weg und mussten nochmal eingetragen werden. Aktuell gibt es noch immer Probleme, wir arbeiten daran, damit euch die Dienste schnellstmöglich wieder uneingeschränkt zur Verfügung stehen.
Kurzer Serverausfall (14.03.2010)
Heute mittag gegen 16:20 Uhr waren Forum, Wiki, planet und blog kurz down. Als Ursache gehen wir von einem Fehler im veralteten Setup der virtuellen Server-Instanz aus, der auch in Zukunft immer wieder zu kurzen Ausfällen führen würde. Daher wird das System demnächst mit einer kurzen Downtime neu aufgesetzt, um dies zu verhindern.
Serverausfall 10./11.03.2010
Aus Platzgründen auf einer Sonderseite: Stellungnahme zum Ausfall.
Probleme mit forum.piratenpartei.de (07.03.2010)
Beim Update der Forensoftware heute nacht ist leider etwas schiefgelaufen. Die Forensoftware wurde in der Vergangenheit offensichtlich verändert und nicht mehr die Standardsoftware verwendet. Vermutlich aus diesem Grund konnte das Update nicht fehlerfrei eingespielt werden. Zwischenzeitlich wurde das Forum komplett neu installiert, allerdings gibt es noch Probleme mit dem einspielen der Daten. Wir arbeiten mit Hochdruck daran, das Problem zu lösen, damit euch das Forum schnellstmöglich wieder zur Verfügung steht.
Probleme Jabber-Server (05.03.2010)
- Gegen 1:35 Uhr kam es zu massiven Problemen, für einige User waren kurzfristige Logins zwar möglich, aber sofort wieder Disconnect, andere sind nicht betroffen.
- Serverneustart
- Gegen 3:10 Uhr wurde der Fehler gefunden: In einen Chatroom wurde ein Text kopiert, der ein nicht lesbares Zeichen enthielt, welches von manchen Clients nicht verarbeitet werden konnte.
Kleiner Tipp für die Zukunft: Behoben werden konnte das Problem, indem in dem betroffenen Channel von einem User 25 neue Zeilen gepostet wurden, so dass der fehlerhafte Post beim Start nicht mehr mitgeladen wird.
Erreichbarkeitsprobleme Wiki (28.02.2010)
Gegen Abend traten Erreichbarkeitsprobleme mit dem Piratenwiki auf. Parallel dazu kam es zu einem signifikanten Anstieg der Last auf dem Wikiserver. Nach etwas Ursachenforschung stellte sich heraus, dass beim DeCIX Änderungen am Netzwerk durchgeführt wurden, welche aufgrund der Rolle des DeCIX als zentraler Netzknoten in Deutschland zu Auswirkungen auf die Erreichbarkeit vieler Webseiten hatte, darunter auch das Piratenwiki.
Ursache der hohen Last waren die hohen F5-Drück-Raten der Piraten, die durch Netzwerk-Probleme nicht geduldig auf ihre Daten gewartet haben.
Ankündigung Wartungsfenster für Servermigrationen
Im Zuge eines schon länger vorbereiteten Technologiewechsels müssen wir fast alle bestehenden Systeme migrieren. (Für Techniker: von Linux-vServer zu KVM) - Dies kann unter Umständen zu einigen Unterbrechungen in der Verfügbarkeit der Webanwendungen führen, wenn wir die Dienste auf einem System stoppen, falls notwendig Daten synchronisieren und den Service auf dem neuen System wieder starten.
Betroffen sind folgende Dienste:
WWW / Wiki / Forum / E-Mail / Datenbanken
Bereits umgezogen sind: Jabber, Live
Wir sind bestrebt, die Ausfälle auf ein unvermeidbares Minimum zu reduzieren. Sollten längere Unterbrechungen in Einzelfällen absehbar sein, werden wir diese gesondert ankündigen. Genaue Termine für die einzelnen Umstellungen gibt es leider nicht, da wir hier von der Verfügbarkeit der Resource "Zeit" bei den jeweils durchführenden IT-Piraten abhängig sind. Wir werden die Umstellungen natürlich trotzdem nicht zu den Zeiten durchführen, zu welchen die Dienste besonders stark frequentiert sind.
--Dyfa 22:59, 25. Feb. 2010 (CET) für die BundesIT
Neu: BundesIT auf Twitter
Um bei Störungsmeldungen, den Ankündigungen von Wartungsarbeiten oder bei Neuerungen möglichst schnell viele Leute zu erreichen, haben wir jetzt einen Account bei Twitter.
Ihr findet uns hier: http://twitter.com/PiratenIT
Bitte benutzt den Account nicht zur Kontaktaufnahme per Direct Message, da die Nachrichten meist nicht zeitnah gelesen werden. Die Kontaktmöglichkeiten zur IT findet ihr hier im Wiki auf IT/Kontakt. Danke.
Eure BundesIT
Umzug Jabberserver abgeschlossen (23.02.2010)
Die Umzugsaktion ist abgeschlossen und Jabber läuft jetzt auf dem neuen Server. Der Umzug konnte sogar mit nur 15 Minuten Ausfalldauer absolviert werden. Eventuell kann es noch bei einigen zu Störungen in der Erreichbarkeit kommen, weil der Name jetzt auf die alte IP-Adresse zeigt. Diese Änderung braucht eine Weile, bis sie bei allen Providern bekannt ist. Auf dieses Verhalten haben wir keinen nennenswerten Einfluss. Wir bitten euch hierbei um ein wenig Geduld sowie darum, es dann einfach nochmal zu versuchen.
Eure Bundes-IT
Ankündigung Umzug Jabberserver 23.02.2010
Heute (Dienstag) gegen 22:30 Uhr werden wir den Piratenjabber auf einen neuen Server umziehen. Dabei sind folgende Aufgaben notwendig:
- den alten Jabber-Server herunterfahren
- Datenbank sichern
- Datenbank auf den neuen Server spielen
- den neuen Server starten
- DNS umschalten
Durch diese Aktion erwarten wir einen Ausfall des Dienstes von ca. 60 Minuten.
Wir informieren euch, sobald alles wieder läuft.
Eure Bundes-IT
Ausfall 19.02.2010
- Um 15:40 Uhr ist der Jabber-Server ist ausgefallen. Ein Backup wird eingespielt.
- Um 15:12 Uhr am 20.02. wurde nach unzähligen Arbeitsstunden und extrem wenig Schlaf (Server-Recovery aus Backup, Fehlersuche, etc) der Datenbestand wieder korrekt hergestellt und parallel die Vorbereitungen für den Umzug auf Partei-Eigene Hardware abgeschlossen.
Offensichtlich gab es allerdings Verluste bei der Wiederherstellung von Accouts und Chaträumen. Wenn ihr hier Login-Probleme habt erstellt euren Account bitte neu Bei fehlenden Räumen wendet euch bitte an
jabber@helpdesk.piratenpartei.de
Wir bedauern die Unannehmlichkeiten in diesem Zusammenhang.
Ausfall/Störung 08.02.2010
- (rackham-d) Down 21:05 bis 21:25
Analyse:
- ca. 800 php-prozesse, swap vollgelaufen
- apache-restart führte zu reboot, der nicht fertig wurde
- vserver gekillt
- neustart des vservers hat ca 10 min gedauert, bis der oben war.
- Analyse der Logeinträge:
- Eleganter dDoS (ohne Botnet):
- tbunker.dyndns.dk löst auf rackham-d auf und ist in vielen .torrents als Tracker eingetragen.
- Default (erster) aufgerufene Apache auf rackham-d war altes Drupal, welches immer php spawnt.
- Abhilfe: wir liefern für diese Requests jetzt eine statische Seite aus.
- Eleganter dDoS (ohne Botnet):
- Betreiber DynDNS.dk telefonisch nicht erreicht.tel +45 72 20 01 01 begin_of_the_skype_highlighting +45 72 20 01 01 end_of_the_skype_highlighting begin_of_the_skype_highlighting +45 72 20 01 01 end_of_the_skype_highlighting begin_of_the_skype_highlighting +45 72 20 01 01 end_of_the_skype_highlighting begin_of_the_skype_highlighting +45 72 20 01 01 end_of_the_skype_highlighting über whois da auf der Webseite keine Kontaktdaten vorhanden.
Dauer: 20 Minuten.
Ausfall 29.01.2010 02:18 Uhr
Während der Behebung eines Fehlers (OpenVPN-Verbindungen und Zertifikate mussten rekonfiguriert werden), wurden versehentlich die internen Verbindungen zwischen den VServern (gebunden auf tap0, bisher OpenVPN-Verbindung "config", nach letztem Neustart unplanmässig OpenVPN-Verbindung "server1-server2-data") getrennt. Nach erkennen des Problems mussten alle VServer heruntergefahren werden und wurden umkonfiguriert, so dass die internen Verbindungen bei Rekonfigurationen nicht mehr getrennt werden können.
Dauer: 10 Minuten
Ausfall 04.01.2010
Am Sonntag den 04.01.2010 morgens bis Montag den 05.01.2001 14:15h waren die Systeme der Piratenpartei nicht erreichbar.
Ursache war zunächst durch eine technische Störung auf unserer Seite notwendiger Reboot, der dann mit einer Störung beim Provider zusammenfiel. Der Server befand sich trotz beseitigter Probleme auf unserer Seite in einem Modus, der verhinderte, daß das System von Platte booten konnte. Dieses Problem wurde vom Hoster erst am Montag behoben. An den Systemen wie Mail, Datenbank und Apache für Wiki st in den letzten Wochen sehr viel optimiert wurden. Der durch den notwendigen Reboot verursachte Ausfall selbst wäre nach fünf Minuten um 5 Uhr in der Nacht erledigt gewesen.
Erklärung der Technik zum 6.12.2009
Am Sonntag den 06.12.2009 waren die Systeme der Piratenpartei die meiste Zeit nicht erreichbar.
Ursache schien zunächst ein Hardwaredefekt zu sein. Dieser führte nicht nur zu diversen Abstürzen und Zwangsreboots, sondern verhinderte auch erfolgreich, daß die Stand-by-Maschine ihren Betrieb aufnehmen konnte, da die eigentlich gleichen Datenbestände auf den beiden Servern in der Folge zu unterschiedlich waren.
Parallel dazu trat noch ein Softwarefehler (Kernel) auf, dessen Rolle in dem Problem noch genauer untersucht werden muss. Es ist uns nach einigen Anläufen gelungen, das defekte System soweit zu stabilisieren, dass alle notwendigen Arbeiten durchgeführt werden konnten.
Inzwischen sind die Dienste auf dem Stand-by-System online. In der Zwischenzeit liefen bereits zahlreiche Untersuchungen, welche Komponenten des Originalsystems defekt sind und vom Hoster getauscht werden müssen. Bisher haben sich jedoch keine Hardwarefehler gezeigt. Allerdings scheint nach bisherigem Erkenntnisstand tatsächlich ein Softwareproblem (im Linux-VServer) in Kombination mit unserem Setup zu den Problemen geführt zu haben.
Dies wird noch weiter untersucht, da sich hieraus wohl zwingend Änderungen ergeben.
Im Augenblick sind Teile der Software, die am Problem beteiligt war, abgeschaltet.
Im Nachgang werden also die verwendeten Mechanismen (bzw. die Ursachen ihres Versagens) kritisch überprüft und gegebenenfalls ein Technologiewechsel durchgeführt.
Gruß, Jamasi
p.s.: Da wir aktuell immer noch auf halber Leistung fahren und insbesondere der Mailserver sehr viel Last auf dem System verursacht, kommt es aktuell zu Problemen mit Forum und Wiki, die wir weiter untersuchen und möglichst auch beheben werden.
HowTo_ML hijacked
Wir haben soeben bemerkt, dass unsere Seite HowTo_ML umbenannt und der ursprüngliche Name nun als Weiterleitung auf eine andere Seite mit Mailinglisten-Bezug verweist. Die Informationen zur Beantragung von Mailinglisten findet ihr nun unter HowTo_Mailingliste_beantragen. Alle bekannten Links auf den alten Seitennamen wurden im Wiki geändert - wenn ihr noch irgendwo welche findet (auch auf Webseiten oder im Forum), dann ändert diese bitte auf den neuen Namen.
--ZyanKLee 15:22, 26. Okt. 2009 (CET)
Beeinträchtigung des Mailservers
Aufgrund technischer Probleme und gleichzeitig extrem hoher Last arbeitet derzeit das Mailsystem der Piratenpartei nur sehr langsam und mit großen Verzögerungen. Wir bitten dies zu entschuldigen - unsere Techniker sind bereits an der Lösung des Problems.
--ZyanKLee 23:20, 29. Sep. 2009 (CEST)
Gefixt: Jabber SSL-Zertifikat
- Fehlerursache: ConnectionManager haben eigene keystore und truststore Dateien, welche bei der Implementierung des ConnectionOffloading übersehen wurden.
- Fehlerbehebung: keystore und truststore vom JabberServer kopiert und ConnectionManager restartet.
Seit dem scheint es keine Zertifikats-Fehlermeldungen mehr zu geben - zumindest kamen keine Beschwerden mehr hier an und mir sind auch selber keine aufgefallen.
--ZyanKLee 14:04, 29. Sep. 2009 (CEST)
Umzug: Mailserver-Backup, zweiter Application-Server
- Wir sind gerade dabei, ein komplettes Mailserver-Backup auf die neuen Kisten zu ziehen. Dadurch kann der Mailserver etwas langsam reagieren.
- Ausserdem werden wir auf Black Pearl ein zweiten Application Server einrichten. Dabei kann es in der Nacht zu einer kurzen Dienstabschaltung kommen. Plan:
- Aufsetzen eines NFS-Servers, um auf die Daten auf beiden Servern zugreifen zu können.
- Installation des zweiten Application Servers incl. test
- Eintragen in die Squids
--Sebi 16:07, 25. Sep. 2009 (CEST)
Neu: das Info-Blog der IT
Damit ihr in Zukunft über Aktuelles in der IT besser informiert sein könnt, gibt es nun dieses Blog. Am besten richtet ihr eure RSS-Reader direkt auf den zugehörigen Feed aus.
Dieses Blog wird mit Hilfe der WikiArticleFeeds-Extension erzeugt. Wenn Du selber ein Blog im Wiki betreiben möchtest, so ist es hilfreich sich die Anleitung zu dieser Extension kurz anzusehen.
--Sebi 15:09, 25. Sep. 2009 (CEST)
<endFeed />