Adrien
@saruspete
Tue Jan 08 18:55:05 +0000 2019

#prod365 #fr Les Plans de Continuité d'Activité (#PCA) ont pour but de retablir le SI après un "désastre". Un tel événement est aussi appelé "Disaster Recovery" (#DR) et inclus de nombreux événements graves, notamment la perte de #datacenter ou de données.

Citons quelques exemples: corruption silencieuse, destruction du medium de stockage (par erreur ou par nuisance: piratage ou rogue employee), isolation réseau (coup de pelleteuse dans la fibre), script d'administration mal fait / boucle foireuse, clause WHERE oubliée...

Pour de multiples raisons, certaines applications ne peuvent pas être disponibles en Actif/Actif, seulement Actif/Passif.
Cela implique de pouvoir répliquer les données live et de les réutiliser sur une autre machine.

Pour valider cette capacité, on organise des simulations de DR, le weekend, où tout qui est organisé. En général, on éteint (!!) complètement un datacenter
Pour ce faire on utilise les #BMC des serveurs (#ilo, #idrac, #rsc...) qui contrôlent le hardware: on/off/reboot/KVM IP...

Pour limiter la casse, on ordonne l'arrêt des machines: d'abord app, puis db, infra, et enfin core-infra (et on relance dans l'ordre inverse). Cette gestion est théorique et dépend de l'inventaire des machines...

Vous sentez venir le truc ?...

Quand on doit éteindre 5000 machines physiques pour un DR, on a des outils pour ca... qui se foutent royalement que ca soit 10, 1000, ou 10000 machines: c'est juste une boucle:
recupération des creds, connexion à la BMC en #ssh #ipmi #rest #redfish ou autre, le tout en parallèle.

Si l'outil n'est pas suffisament rigoureux dans sa gestion du risque, on a vite fait d'éteindre un parc entier...
Vous voyez les silos nucléaires? Il faut 2 clefs, tournées en même temps, plus des codes d'autorisation.
Imaginez maintenant qu'il n'y ai que le #GrosBouton Rouge...

Un outil pareil doit:
- Lister les machines qui vont être impactées + leur nombre (et environement: dev/prd)
- demander un confirmation dynamique ("Yes I am really really sure to shutdown XXX servers")
- permettre d'annuler à tout moment
- (idéalement) confirmation de qqn d'autre

Ha... et pour le rallumage...
Ne mettez pas le bios sur "auto-start on power-loss", ni ne relancez tout en même temps !
Ca ferait un appel de courant qui ferait probablement sauter les disjoncteurs de la salle...

Toute ressemblance avec un événement d'actualité ne serait que pur hasard.
#DevOps on vous dit ! #ProdIsHard #DatacenterIsHarder #ServerLess
"There is no cloud: it's just someone else's computer"

Tue Jan 08 18:55:07 +0000 2019