Server-Ausfall 26.10.2022

Verlauf

Kurz nach 8 Uhr morgens wurde das Wolkenlotsen Team darauf aufmerksam, dass die Dienste der Freiheitswolke nicht mehr erreichbar waren. Ein paar Nachrichten später waren alle relevanten Personen informiert & begannen mit der Fehlerbehebung. Mit einer paar arbeitsbedingte Unterbrechungen wurde die nächsten 5 Stunden an der Behebung gearbeitet.
Ab 13 Uhr liefen die Dienste wieder wie gewohnt.

Ursache

Durch die intensive Backup- & Version-Strategie waren die Festplatten vollgelaufen. Jede Nacht wird ein Snapshot des Dateisystems gesichert & diese Version dann zusätzlich auf einen externen Backup-Server gesichert. Die Dateisystem-Snapshots werden aktuell noch nicht automatisiert gelöscht, wenn sie nicht mehr benötigt werden.
Jeden Tag fallen ein paar Gigabyte an Dateiveränderungen an & füllen die Festplatten.

Behebung

Die tatsächliche Ursache fiel nicht auf den ersten Blick auf, da auch eine sehr hohe CPU-Auslastung vorlag & andere Probleme vermutet wurden.
Am Ende reichte es alle Backups älter als 6 Monate zu löschen, reichte aus, um 2,5 TB Speicherplatz wieder freizumachen.

Vorheriger Beitrag Nächster Beitrag