Le 29 février dernier, le
Cloud "Windows Azure" de Microsoft a été indisponible pendant
plusieurs heures pour plusieurs régions du monde. Pour rappel, Azure est en production depuis un an, en mars 2010.
La panne a débuté le
matin à 1h45 GMT (2h45 en france) touchant Windows Azure Management,
le service permettant de gérer les déploiements, les services
hébergés et les comptes de stockage. Le bug affectait 4% des
systèmes mais s'est étendu.
A 5h Microsoft a pris les
mesures pour rétablir le service pour éviter la généralisation.
A 11h du matin, Microsoft
a confirmé les services perturbés.
Six régions du monde ont
alors connues des pertubations sur SQL Azure Data Sync, Access
Control 2.0, Azure Reporting, Azure Marketplace et Azure Service Bus.
A 13h30, Microsoft annonce
que ses équipe sont à pied d'œuvre pour dépanner en lançant un
correctif sur les systèmes.
A 19h30 Microsoft récupère
l'activité de services toujours défaillant sur USA Centre-Nord,
Centre-Sud et Europe du Nord.
Les mises à jour doublées
de sauvegardes et restaurations mondiales sont en cours.
A 20h des pannes affectent
encore certaines régions.
Les mises à jour se
poursuivent et le problème est clos tard le lendemain matin 6h.
La cause de cet incendie du nuage n'a
été publié que 9 jours plus tard, un trop grand délai aux yeux de
certains clients.
Il s’est agit d’un bug liée à une
erreur de calcul de date. Le mois de février comptait en cette année
2012 (bissextile) 29 jours et non 28 jours. Plus précisément d'un
certificat SSL incompatible avec le jour supplémentaire.
Les machines virtuelles pouvait continuer de
fonctionner mais ne pouvaient plus être gérées, et aucune nouvelle
VM ne pouvait plus se lancer car tout lancement d'une nouvelle VM
faisait s'effondrer les serveursDepuis, Microsoft a proposé des réductions tarifaires de 33% à tous les clients Windows Azure Compute, Access Control, Service Bus et Caching, impactés ou non par la panne.
Cet incident mondial restera dans la mémoires comme la première grande panne d'un nuage mondial en production. Certes, il y avait eu des précédents chez Amazon ou Google, mais ils ne portaient pas sur des applications du SI d'entreprise en production, ni sur une durée aussi longue.
Des commissions vont surement se réunir chez les principaux fournisseurs de Cloud pour tirer tous les enseignements de ce cas d'école sur la panne, son traitement, la gestion de crise, la communication. En effet, un Cloud qui plante impose une gestion de crise mondiale, courant sur plusieurs fuseaux horaires, impactant des milliers d'entreprises, des mises à jour, des sauvegardes et restaurations parallélisées, autant de tâches susceptibles de saturer les moyens humains et techniques.
Il y a aura donc bien un avant et un après ce jour qui restera dans l'histoire comme le « bug Cloud de l'année bissextile ».
Aucun commentaire:
Enregistrer un commentaire