Profile picture
, 10 tweets, 6 min read Read on Twitter
#prod365 #fr Les Plans de Continuité d'Activité (#PCA) ont pour but de retablir le SI après un "désastre". Un tel événement est aussi appelé "Disaster Recovery" (#DR) et inclus de nombreux événements graves, notamment la perte de #datacenter ou de données.
Citons quelques exemples: corruption silencieuse, destruction du medium de stockage (par erreur ou par nuisance: piratage ou rogue employee), isolation réseau (coup de pelleteuse dans la fibre), script d'administration mal fait / boucle foireuse, clause WHERE oubliée...
Pour de multiples raisons, certaines applications ne peuvent pas être disponibles en Actif/Actif, seulement Actif/Passif.
Cela implique de pouvoir répliquer les données live et de les réutiliser sur une autre machine.
Pour valider cette capacité, on organise des simulations de DR, le weekend, où tout qui est organisé. En général, on éteint (!!) complètement un datacenter
Pour ce faire on utilise les #BMC des serveurs (#ilo, #idrac, #rsc...) qui contrôlent le hardware: on/off/reboot/KVM IP...
Pour limiter la casse, on ordonne l'arrêt des machines: d'abord app, puis db, infra, et enfin core-infra (et on relance dans l'ordre inverse). Cette gestion est théorique et dépend de l'inventaire des machines...

Vous sentez venir le truc ?...
Quand on doit éteindre 5000 machines physiques pour un DR, on a des outils pour ca... qui se foutent royalement que ca soit 10, 1000, ou 10000 machines: c'est juste une boucle:
recupération des creds, connexion à la BMC en #ssh #ipmi #rest #redfish ou autre, le tout en parallèle.
Si l'outil n'est pas suffisament rigoureux dans sa gestion du risque, on a vite fait d'éteindre un parc entier...
Vous voyez les silos nucléaires? Il faut 2 clefs, tournées en même temps, plus des codes d'autorisation.
Imaginez maintenant qu'il n'y ai que le #GrosBouton Rouge...
Un outil pareil doit:
- Lister les machines qui vont être impactées + leur nombre (et environement: dev/prd)
- demander un confirmation dynamique ("Yes I am really really sure to shutdown XXX servers")
- permettre d'annuler à tout moment
- (idéalement) confirmation de qqn d'autre
Ha... et pour le rallumage...
Ne mettez pas le bios sur "auto-start on power-loss", ni ne relancez tout en même temps !
Ca ferait un appel de courant qui ferait probablement sauter les disjoncteurs de la salle...
Toute ressemblance avec un événement d'actualité ne serait que pur hasard.
#DevOps on vous dit ! #ProdIsHard #DatacenterIsHarder #ServerLess
"There is no cloud: it's just someone else's computer"
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Adrien
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member and get exclusive features!

Premium member ($3.00/month or $30.00/year)

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!