mercredi 21 mars 2012

Retour sur le jour où le grand nuage public Azure est tombé


Le 29 février dernier, le Cloud "Windows Azure" de Microsoft a été indisponible pendant plusieurs heures pour plusieurs régions du monde. Pour rappel, Azure est en production depuis un an, en mars 2010.

La panne a débuté le matin à 1h45 GMT (2h45 en france) touchant Windows Azure Management, le service permettant de gérer les déploiements, les services hébergés et les comptes de stockage. Le bug affectait 4% des systèmes mais s'est étendu.

A 5h Microsoft a pris les mesures pour rétablir le service pour éviter la généralisation.

A 11h du matin, Microsoft a confirmé les services perturbés.

Six régions du monde ont alors connues des pertubations sur SQL Azure Data Sync, Access Control 2.0, Azure Reporting, Azure Marketplace et Azure Service Bus.

A 13h30, Microsoft annonce que ses équipe sont à pied d'œuvre pour dépanner en lançant un correctif sur les systèmes.

A 19h30 Microsoft récupère l'activité de services toujours défaillant sur USA Centre-Nord, Centre-Sud et Europe du Nord.

Les mises à jour doublées de sauvegardes et restaurations mondiales sont en cours.

A 20h des pannes affectent encore certaines régions.

Les mises à jour se poursuivent et le problème est clos tard le lendemain matin 6h.

La cause de cet incendie du nuage n'a été publié que 9 jours plus tard, un trop grand délai aux yeux de certains clients.

Il s’est agit d’un bug liée à une erreur de calcul de date. Le mois de février comptait en cette année 2012 (bissextile) 29 jours et non 28 jours. Plus précisément d'un certificat SSL incompatible avec le jour supplémentaire.
Les machines virtuelles pouvait continuer de fonctionner mais ne pouvaient plus être gérées, et aucune nouvelle VM ne pouvait plus se lancer car tout lancement d'une nouvelle VM faisait s'effondrer les serveurs


Depuis, Microsoft a proposé des réductions tarifaires de 33% à tous les clients Windows Azure Compute, Access Control, Service Bus et Caching, impactés ou non par la panne.


Cet incident mondial restera dans la mémoires comme la première grande panne d'un nuage mondial en production. Certes, il y avait eu des précédents chez Amazon ou Google, mais ils ne portaient pas sur des applications du SI d'entreprise en production, ni sur une durée aussi longue.

Des commissions vont surement se réunir chez les principaux fournisseurs de Cloud pour tirer tous les enseignements de ce cas d'école sur la panne, son traitement, la gestion de crise, la communication. En effet, un Cloud qui plante impose une gestion de crise mondiale, courant sur plusieurs fuseaux horaires, impactant des milliers d'entreprises, des mises à jour, des sauvegardes et restaurations parallélisées, autant de tâches susceptibles de saturer les moyens humains et techniques.


Il y a aura donc bien un avant et un après ce jour qui restera dans l'histoire comme le « bug Cloud de l'année bissextile ».

Aucun commentaire:

Enregistrer un commentaire

Nombre total de pages vues