Auslöser war ein Stromausfall beim Stromversorger. Zuerst schien es, als würde es nur das Gebiet Albisrieden mit dem Pop 790ALB betreffen. Indes ist inzwischen klar, dass nicht nur ein Quartier, sondern so ziemlich die ganze Stadt von einem 2-Sekunden-Blip betroffen war.
Dadurch sind in nicht weniger als 11 von 15 Pops in der Stadt Zürich Switches ausgefallen, indes aber längst nicht alle in den betroffenen Pops.
Was die Erkennung des Schadenbildes enorm schwierig machte. Wir kannten das Ausmass des Stromausfalls zu jenem Zeitpunkt noch nicht.
Es haben also ca. einem Dutzend Standorten eine zufällige Zahl von Switche gebootet; wie viele es genau waren ist unerheblich; es dürften wohl so um 30 oder 40 gewesen sein.
Indes, vermutlich mehr als die Hälfte haben den «Blip» überlebt.
Einen solchen Fall gabe es meiner Erinnerung zu Folge noch nie.
In 790ALB Albisrieden hat fast alles gebootet; ausser Core und Distribution, welche von einer sekundären Versorgung gespiesen werden. Das Rack in 790ALB ist sehr voll; wir bekommen demnächst mehr Platz.
Das Schadenbild deutete also erst auf Albisrieden. Es wurde auch zeitnah ein Fieldforce Kollege losgeschickt.
Was unser NOC auch nicht wusste: die von uns eingesetzten Cisco 9548 haben einen Firmware Bug bei der DHCP Funktion.
Nach einem Reboot des Switches werden zwar die IP Adressen per DHCP den Kunden zugewiesen, aber Routing funktioniert nicht richtig, ausser man gibt ein paar Kommandos auf der Konsole ein. Neue Firmware behebt das Problem nicht.
Wir hatten deshalb schon seit über einem Jahr einen Hack im Einsatz: ein Skript, das die Uptime der Switche monitored, und wenn diese plötzlich bloss wenige Minuten beträgt, die notwendigen CLI Kommandos ausführt.
Stromausfälle kann es überall aus den unterschiedlichsten Gründen geben, und sei es nur, weil ein Staubsauger einen Kurzschluss verursacht. Insofern machte das Skript als Workaround schon Sinn.
Der Vendor jedenfalls hat das Problem noch nicht behoben.
Wir haben auch nicht übermässig darauf gedrängt, denn der Workaround funktionierte problemlos und bescherte uns ein relativ ruhiges Leben im den vergangenen Monate. Ein Switch Reboot während weniger Minuten kann es ja auch während einer normalen Maintenance geben.
Indes, blöderweise war der Workaround Hack nirgends richtig dokumentiert, es bestand ja die Hoffnung, dass er nicht lange gebraucht würde. Und er ging vergessen. Er wurde nirgends richtig implementiert, sondern war halt ein Hack und lief als User, statt in einem System Account.
Wenige Tage zuvor wurde der besagte User via Puppet gelöscht. Und damit verabschiedete sich der Workaround Hack still und leise. Da seither nirgends ein Switch bootete (wir haben inzwischen 220 Pops, die Chance ist also durchaus gegeben), viel es nicht auf.
Bis eben am besagten letzen Freitag um 13:24 Uhr. Wo gleichzeitig mehrere Dutzend Switche abflogen. Und wie erwähnt hat unser NOC natürlich nicht mehr dran gedacht, dass man vielleicht mal prüfen sollte, ob der Workaround noch funktioniert.
Es war ja auch so, dass relativ bald alle Pops wieder auf «grün» waren. Also alle Switche hatten wieder Strom (ausser in 790ALB Albisrieden, da dauerte es m.W. etwas länger).
Unser NOC dachte: ok, alles gut, Ticket wieder zumachen. Scheiss-Freitag, aber solche Tage gibt es. 😳
Doch unsere Hotline wurde weiter bombardiert. What the f***? Eskalation zum 3rd Level. Irgendwann erinnerte sich einer der Kollegen an diesen Workaround Hack. 😳
Und gegen Abend war dann auch der letzte Kunde wieder online.
Wochenende gerettet.
Natürlich ziehen wir ein paar Learnings aus dem Fall.
1. Unser NOC darf solche Tickets nicht einfach wieder zu machen. Das ist für die Incident Kommunikation nicht nützlich.
2. Das besagte Workaround Skript wird anständig dokumentiert und in einen Systemaccount verschoben. Bis auf weiteres berauchen wir es noch.
3. Es ist schon vor dem Incident ein Projekt gestartet worden, das die Konfiguration der Kunden-Ports verbessern soll. Unsere Engineers sind zuversichtlich, dass der Workaround-Hack danach nicht mehr benötigt wird.
4. Wir «prügeln» den Vendor, dass er den Bug endlich flickt. Was natürlich mit einer Runde Switch Upgrades verbunden ist.
Und jetzt noch zur FAQ:
Warum habt ihr keine USV??!!
Short Answer:
Wir dürfen keine installieren.
Kein Scheiss.
Der Incumbent, der uns die Fläche & Gebäudeinfrastruktur (das Produkt heisst tatsächlich so) zur Verfügung stellt (stellen muss!), verbietet es.
Ein Alternative zum besagten F&G Produkt, wo die FTTH Glasfasern zugänglich wären, gibt es nicht.
Diese Pop Standorte sind deutlich unter dem Niveau professioneller Datacenter. Es sind Telefonzentralen.
Es gibt zwei verfügbare Strom-Varianten. 230 Volt AC ungesichert und 48 Volt DC gesichert, also ab Batterie.
Daher nochmals zum mitschreiben: wer FTTH auf OSI Layer 1 betreiben will, muss zwingend das F&G Produkt des Incumbents kaufen.
Und bei diesem sind USVs verboten. Weil Brandgefahr oder was weiss ich.
Wir haben vor etwa einem Jahr, als in allen Medien das Damokless-Schwert «Strom-Mangellage» kolportiert wurde, dieses USV Verbot beim 🇨🇭 Telekom-Regulator ComCom gechallenged.
Zu diesem Zweck haben wir, nachdem die Verhandlung mit dem Incumbent nicht zum Ziel führte, ein sogenanntes «Zugangsgesuch» eingereicht.
Wir wollten handelsübliche 3kW USV in unsere Pops einbauen, was man üblicherweise so macht. Kostenpunkt um eine Viertelmillion für alle Pops.
Das wäre für uns zweckmässig und erschwinglich gewesen.
Allein, die ComCom liess uns abblitzen. Fall verloren.
Womöglich war unsere Argumentation nicht gut genug, aber von USVs verstehen wir ja auch nicht allzuviel.
Anyway, es ist wie im Fussball ⚽️: man kann nicht jedes Spiel gewinnen und konzentriert sich daher auf die wichtigen Fälle.
Das F&G Angebot des Incumbents: «Kauf 48 Volt DC ab Batterie!». (Für den fast doppelten Preis gegenüber 230 Volt AC).
Das schien der ComCom offensichtlich Argument genug, um unser Gesuch abzuweisen. Allerdings müsste man dafür dann auch Geräte haben, die mit 48 Volt DC umgehen können. Was wir (noch nicht) haben.
Unsere letzte Generation Cisco 4510 Switch hatte zwar zwei Netzteile, die aber nur zwei des selben Type aufnehmen können.
Also AC+AC oder DC+DC. Die Kombination AC+DC funktioniert nicht. Das wäre natürlich die für uns beste Lösung gewesen.
Wie mussten uns daher mit einer sehr aufwändigen , teuren und nicht skalierenden Lösung behelfen: Installation eines Wechselrichters, der aus 48 Volt DC 230 Volt AC macht. Das ist natürlich nicht sehr energieeffizient, zuerst AC in DC wandeln für die Batterie, dann wieder retour.
Trotzdem haben wir vielleicht knapp zwei Dutzend Pops so ausgerüstet, u.a. auch 790ALB Albisrieden, wo Core und Distribution Switch den Blip überlebt haben und nur die meisten Access Switch vom Stromausfall betroffen waren.
Indes, diese Wechselrichter skalieren nicht und sind auf 1kW limitiert. Man kann also nicht mehr als ein halbes Kilowatt Last anhängen, um einen Stromausfall aufzufangen (n+1). Darum können wir nicht alle Geräte in einem Pop anhängen.
Für das Zugangsgesuch der ComCom haben wir ausgerechnet, wieviel Installation und Betrieb von DC Power und Wechselrichter kosten würde. Es sind für 110 Pops (so viele hatten wir scheinbar zum Zeitpunkt) 2,6 Millionen Franken CAPEX und OPEX verteilt über 5 Jahre.
Also mehr als 10x mehr als handelsübliche Rack-Mount-USV, die zudem viel einfacher zu handhaben wären: reinschrauben, einstecken, läuft.
Warum die ComCom dieses Ansinnen ablehnt, wird ewig ihr Geheimnis bleiben.
Für die derzeit ca. 220 Pops hätten wir also jährliche Mehrkosten von über 1 Million Franken. Und Null Franken mehr Ertrag. Um 2 Sekunden Stromausfall abzufangen.
Bloss, weil irgendein sturer Mensch beim Incumbent behauptet, diese handelsüblichen USV seinen eine Brandgefahr.
Nun denn, die ComCom hat es geglaubt.
Wir müssen damit leben, auch wenn es unschön und auch unvernünftig ist.
Trotzdem haben wir 5. noch ein weiteres Learning:
- Prüfen, ob unsere neuen Geräte Cisco 9548/9532 (Access/Distribution) und Extreme Networks SLX 9640 (Core) immer noch die Einschränkung von DC+AC haben.
Good News: die Einschränkung besteht nicht. Gemäss der Datenblättern sollte die Kombination funktionieren. Und da wir seit mehr als einem Jahr 4510-frei sind, wäre es grundsätzlich möglich, auf die ungeliebten, teuren und ineffizienten Wechselrichter zu verzichten.
Wir werden also mal ein Test-Setup an einem Standort bauen.
Also eine DC Verteilung erstellen (keine Ahnung wie das geht) und dann die redundanten Netzteile der Ciscos und ggf. der Extremes mit DC Versionen austauschen.
Zum Glück sind die alle Hot-Swap. 😎
Dass dies bei 220 Pops nicht über Nacht geht, versteht sich. Wir wollen ja im Jahr 2024 etwa 120 neue Pops bauen.
Und das Problem der viel höheren OPEX mit DC Strom bleibt bestehen, denn mehr Einnahmen generiert das Projekt nicht.
Quintessenz: Wir bewegen uns in einem egulierten Bereich, der Regulator aber über relativ wenig praktisches technisches Verständis verfügt (die Leute da sind ja auch hauptsächlich Juristen, Professoren und ex-Politiker).
Der Regulator hätte ja auch dem Incumbent vorschreiben können, eine Inergen-Gas-Löschung (oder ähnlich) zu installieren, um die behauptete Brandgefahr zu eliminieren. (Dass die Batterien des Incumbents vielerorts nicht in separaten Räumen verbaut sind, ist ja nicht so wichtig.)
Aber wie gesagt: manchmal ist man in regulatorischen oder wirtschaftlichen Sachzwängen gefangen.
Und wenn dann noch Murphy findet: «Geiler Tag!»
Ja, dann ist der Marketing-Sprech «Eine Verkettung unglücklicher Umstände.» 😇
/EOT
Nachtrag: Von der ganzen Misere hatte ich selber kaum was mitbekommen, denn ich gondelte am besagten Freitag bei schönstem Wetter in der Romandie rum, um weitere Pop Standorte zu besichtigen. Bilder mit blauem Himmel am Freitag. Wolkenverhangen am Samstag.😇
Als Vergleichswert zu anderen Ländern nimmt man «Homes passed». Politik, Investoren und Medien lassen glauben, dass Deutschland beim #Glasfaser Ausbau endlich aufholen würde.
Doch schon bei «Homes connected» ist es zappendunster. Aber es kommt noch schlimmer.
Steigzone respektive Inhouse Kabel? Fehlanzeige.
Diese ist in den allermeisten Fällen dem Liegenschaftenbesitzer überlassen.
Tatsächlich «aktivierte» FTTH-Anschlüsse mit einer OTO gibts höchstens im tiefen einstelligen Prozentbereich.
Man darf nicht vergessen, dass Swisscom trotz höchstrichterlichem Verbot aktuell über 250000 FTTH Anschlüsse vermarktbar hält, die ausschliesslich nach der P2MP Netztopologie gebaut sind.
Und damit jeden Tag illegal Geld verdient.
#Glasfaserstreit #P2PvsP2MP
Sollte es bloss eine symbolische Kartrllrechts-Busse geben, weil Swisscom jetzt «freiwillig» auf die legale P2P-Netztopologie umgeschwenkt ist, wäre das eine Ohrfeige für den Gesetzgeber.
Weil dieser hat immer unmissverständlich klar gemacht, dass er Telekom-Wettbewerb will.
Diese Woche hat der #Bundesrat den Bericht «Hochbreitbandstrategie des Bundes» veröffentlicht.
Falls tl;dr: ich habe die 50 Seiten gelesen und notiere in diesem #Thread 🧵⬇️ einige Zitate und Gedanken dazu.
Der Bericht geht zurück auf ein Postulat der Nationalräte @martin_candinas und Bruno Sturni. Postulat, Bericht sowie die beauftragten Studien (mehrere hundert Seiten!) von @WIKnews befinden sich hier: bakom.admin.ch/bakom/de/home/…
@martin_candinas @WIKnews Man kann also feststellen, dass der Bundesrat die Abklärungen zu Postulatsantwort sehr seriös genommen hat.
Es geht ja auch um viel: soll man den Randregionen den Anschluss ermöglichen oder nicht? Welche volkswirtschaftliche Bedeutung hat ein fehlender Breitbandzugang?
Die eigene Domain samt Email von einem kommerziellen Webhoster betreiben zu lassen, ist vermutlich auch nicht sicherer vom Zugriff durch der Strafverfolgung - die ja nicht unbedingt zimperlich ist und sogar ohne Anlass irrelevante Zeiträume durchforstet - siehe Fall Lauener.
Self-Hosting des Email-Service auf einer VM bei OVH, Hetzner etc. scheint eine halbwegs valable Option; wenn im Ausland braucht es immerhin ein Rechtshilfe-Verfahren, aber natürlich kann der Hoster jederzeit einen Dump der VM ziehen und an die Strafverfolgung weitergeben.
Nachdem der @tagesanzeiger meinen Tweet im Artikel über das Ansinnen von Bundesrat @ParmelinG und @DefrWbf zitierte, bekam ich eine Email eines Lesers mit Vorschlägen fürs #StromSparen für die Provider.
• «port geschwindigkeit auf 100mbit oder gar 10mbit full duplex drosseln statt auf 10gbit respektive 1gbit laufen zu lassen»
➡️ funktioniert vlt. bei @AVM_DE Fritzboxen («Eco-Modus»), wobei der Nutzen fragwürdig ist,
Optiken in Provider-Gear können nur eine Geschwindigkeit.
• «streaming auf srf1 reduzieren. es gibt kein menschenrecht auf youtube»
➡️ ob man SRF1 oder einen anderen Sender streamt, braucht gleich viel Strom. Und für eine allfällige Youtube-Abschaltung wäre Google zuständig, nicht die Internet-Provider (sollte man das wirklich wollen)
4,4 Millionen für den #FTTH Glasfaserausbau in Schlatt ZH ist heftig viel für bloss 280 Wohnungen (plus ein paar Gewerbe). Anderswo auf dem Land, zum Beispiel im Entlebuch mit ähnlicher Siedlungsstruktur, rechnet man die Hälfte. @landbote@NicoleDoebeli
Der Titel des Artikels ist ziemlich tendenziös. Die Telekom-Grundversorgung wird auch in Schlatt ZH erfüllt; darüber hinaus hat kein Provider eine Pflicht, auch Swisscom nicht.
Warum das so ist? Es ist das Totalversagen in Sachen Telekommunikationspolitik von #Bundesbern.