Wednesday, July 20, 2022

Die Hitze legt die Cloud (teilweise) auf Eis

Wir wissen es: Datenverarbeitung braucht viel Energie und erzeugt Wärme, die ständig abgeführt werden muss. Die sommerliche Hitzewelle der letzten Tage machte die Kühlung dort schwierig, wo es besonders heiss war – zum Beispiel in London, England, und sie zeigte, dass heisses Wetter auch unseren Datenzugriff in der Cloud beeinträchtigen kann.

Wer hat Eis? Die Hitze macht die Datenverarbeitung schwieriger.           Bild Pfw
Sowohl die Google Cloud als auch Oracle Corp hatten am Dienstag Probleme in Londoner Rechenzentren, die nicht mehr gekühlt werden konnten. Beide Unternehmen gaben an, dass Probleme mit Kühlsystemen die Ursache für die Ausfälle seien. Die erste Meldung von Oracle erschien am Dienstagnachmittag auf deren Service-Seite und vermeldete, dass die hohen Temperaturen die Cloud- und Netzwerkausrüstung in einer Anlage im Süden Londons beeinträchtigt hätten.

Einige Stunden später meldete Google ein ähnliches Problem an seinem Londoner Standort. Auf einer Kundendienst-Website teilte das Unternehmen mit, dass die Störung eine Gruppe seiner Cloud-Computing-Nutzer betroffen habe. Google erklärte, dass es einige Teile seiner Cloud-Dienste herunterfahre, um Schäden an den Maschinen und einen längeren Ausfall zu vermeiden. Einige Stunden später listete Google immer noch einige seiner Cloud-Dienste in der Region als ausgefallen auf. Gemäss Bloomberg machte der Webhosting-Dienst WordPress den Ausfall von Google dafür verantwortlich, dass sein Dienst gestern in Europa nicht verfügbar war.

Hier sind die Meldungen der zwei betroffenen Unternehmen im Wortlaut (übersetzt):

Oracle: «Aufgrund der für die Jahreszeit untypischen Temperaturen in der Region gab es bei einem Teil der Kühlungsinfrastruktur im Rechenzentrum UK South (London) ein Problem. Infolgedessen können einige Kunden möglicherweise nicht auf die in der Region gehosteten Oracle Cloud Infrastructure-Ressourcen zugreifen oder diese nutzen. Die zuständigen Serviceteams wurden eingeschaltet und arbeiten daran, die betroffene Infrastruktur wieder in einen funktionsfähigen Zustand zu versetzen. Als Vorsichtsmaßnahme sind wir jedoch dabei, Serviceinfrastrukturen zu identifizieren, die sicher abgeschaltet werden können, um weitere Hardwareausfälle zu verhindern. Mit diesem Schritt wollen wir das Potenzial für langfristige Auswirkungen auf unsere Kunden begrenzen».

GoogleCloud: «In einem unserer Gebäude, in dem die Zone europe-west2-a für die Region europe-west2 gehostet wird, kam es zu einem Ausfall der Kühlung. Dies führte zu einem teilweisen Ausfall der Kapazität in dieser Zone, was zu VM-Ausfällen und einem Verlust von Maschinen für eine kleine Gruppe unserer Kunden führte. Wir arbeiten hart daran, die Kühlung wieder in Betrieb zu nehmen und Kapazitäten in dieser Zone zu schaffen. Wir erwarten keine weiteren Auswirkungen in der Zone europe-west2-a, und derzeit laufende VMs sollten nicht beeinträchtigt werden. Ein kleiner Prozentsatz der replizierten Persistent Disk-Geräte läuft im einfachen redundanten Modus. Um Schäden an Maschinen und einen längeren Ausfall zu vermeiden, haben wir einen Teil der Zone abgeschaltet und schränken den Start von GCE Preemptible ein. Wir arbeiten an der Wiederherstellung der Redundanz für alle verbleibenden betroffenen replizierten Persistent Disk-Geräte.»

No comments:

Post a Comment