Facebook engineering: More details about the October 4 outage

Let's have a look at it 👌 /1
engineering.fb.com/2021/10/05/net…
Cool, they do crisis trainings!

"Helpfully, this is an event we’re well prepared for thanks to the “storm” drills we’ve been running for a long time now." /2
"In a storm exercise, we simulate a major system failure by taking a service, data center, or entire region offline, stress testing all the infrastructure and software involved." /3
Feedback loops, cool cool 👍

"Every failure like this is an opportunity to learn and get better, and there’s plenty for us to learn from this one. After every issue, small and large, we do an extensive review process to understand how we can make our systems more resilient." /4
But what did really happen? 🤔

Here we go... /5
"And in the extensive day-to-day work of maintaining this infrastructure, our engineers often need to take part of the backbone offline for maintenance — perhaps repairing a fiber line, adding more capacity, or updating the software on the router itself." /6
"This was the source of yesterday’s outage. During one of these routine maintenance jobs, a command was issued with the intention to assess the availability of global backbone capacity, which unintentionally took down all the connections in our backbone network..." /7
"effectively disconnecting Facebook data centers globally. Our systems are designed to audit commands like these to prevent mistakes like this, but a bug in that audit tool didn’t properly stop the command." /8
"This change caused a complete disconnection of our server connections between our data centers and the internet. And that total loss of connection caused a second issue that made things worse." /9
"To ensure reliable operation, our DNS servers disable those BGP advertisements if they themselves can not speak to our data centers, since this is an indication of an unhealthy network connection." /10
"In the recent outage the entire backbone was removed from operation,  making these locations declare themselves unhealthy and withdraw those BGP advertisements." /11
"The end result was that our DNS servers became unreachable even though they were still operational. This made it impossible for the rest of the internet to find our servers." /12
"All of this happened very fast." /13
Read the full analysis over here /14
engineering.fb.com/2021/10/05/net…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Manuel Atug

Manuel Atug Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @HonkHase

7 Oct
Digitalisierungsversager Deutschland: #CCC macht Vorschläge für Regierungsprogramm

"Dass Deutschland in Sachen Digitalisierung unter den Industrienationen ganz weit hinten steht, beklagen sogar gestandene Unionspolitiker..." /1
t3n.de/news/digitalis…
"Nur getan wird halt wenig. Das will der #CCC jetzt ändern." /2
"Damit findet sich sogar für die am wenigsten an konkretem Handeln interessierte Partei noch ein Textbaustein, den sie schmerzfrei und rein deklaratorisch hinschreiben und abnicken kann." 🤭 /3
Read 5 tweets
6 Oct
#CCC veröffentlicht Formulierungshilfe für Digitales im neuen Regierungsprogramm 😏👍
ccc.de/de/updates/202… Image
"Es bedarf einer grundlegenden Erhebung des Zustands von IT-Systemen in kritischen Infrastrukturen #KRITIS. Darauf aufbauend muss ein konkreter und zeitnaher Plan zum Beheben der vorgefundenen Probleme und Schwachstellen entwickelt und umgesetzt werden" 🤘
"Unabhängiges @BSI_Bund: Solange das BSI dem Innenministerium untersteht, kann es seinem Auftrag wegen konträrer Interessen nicht kompromisslos gerecht werden..."
Read 6 tweets
5 Oct
WTF?!? 😳😳😳

Company That Routes Billions of Text Messages Quietly Says It Was Hacked

"#Syniverse handles billions of text messages a year, and hackers had unauthorized access to its system for years."

#DataBreach /1
vice.com/en/article/z3x…
"...quietly disclosed that hackers were inside its systems for years, impacting more than 200 of its clients and potentially millions of #cellphone users worldwide." /2
""Syniverse has access to the communication of hundreds of millions, if not billions, of people around the world. A five-year breach of one of Syniverse's main systems is a global privacy disaster," Karsten Nohl..." /3
Read 8 tweets
30 Sep
"#IDwallet und Digitaler Führerschein: Scheitern mit Ansage?"

schreibt @ovoss im @TspBackgroundDi

"Mitglieder des #CCC wie @LilithWittmann, @fluepke und @HonkHase hatten auf Twitter mehrfach auf technische Probleme aufmerksam gemacht." /1
"@HonkHase bezeichnete das Projekt als „digitalen Totalschaden“." /2
"@fluepke schrieb, man habe Grund zur Annahme, dass nicht nur Infrastruktur, sondern auch die der #IDwallet zugrunde liegende #Blockchain-Technologie für digitale Identitäten (#SSI #DID) konzeptionell fehlerhaft und angreifbar sein könnte." /3
Read 18 tweets
29 Sep
Digitaler Führerschein: Nutzlos, unsicher und schon wieder kaputt

"Mit dem digitalen Führerschein auf dem Smartphone sollte alles leichter werden. Doch nach nur wenigen Tagen gibt die #IDwallet App den Geist auf und es häufen sich die Beschwerden." /1
sueddeutsche.de/wirtschaft/fue…
Von @maksumuto via @SZ mit Stellungnahmen von mir.

"Man habe die #IDWallet App nun entfernt und wolle sich bei einer Wiederveröffentlichung "in einigen Wochen" auch um Hinweise von Nutzern kümmern, "die sich mit Sicherheits- und Vertrauensfragen auseinandersetzen"." /2
"Es dürften tatsächlich eher die Sicherheitsfragen als die Lastspitzen gewesen sein, die dazu führten, dass die App nun komplett verschwunden ist, sagt IT-Sicherheitsexperte @HonkHase, der sich die #IDwallet App genauer angeschaut hat." /3
Read 9 tweets
23 Sep
Und wieder hat Deutschland eine elendige App für JumbaWhumba Digitalisierung statt sichere Nachweisdokumente in digital.

Gruselig 😒
Add-On von der ebenfalls sehr geschätzten @bkastl
Read 19 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(