Entre le 19 et le 20 octobre dernier, une panne chez Amazon Web Services (AWS) a entrainé des interruptions de service touchant environ 2000 sociétés clientes d’AWS, d’après le site Downdetector[1], qui compile les signalements de pannes de service soumis par les utilisateurs. La panne a été ressentie, directement ou indirectement, par des millions d’utilisateurs de services tels que Snapchat, Signal, Roblox ou des applications bancaires.
AWS a expliqué en détails l’origine de la panne[2]. Cette dernière aurait pour origine un enregistrement DNS défectueux lié à DynamoDB, une base de données « serverless » fournie par AWS et utilisée pour stocker les données de ses clients. Une telle base de données dispose d’une architecture DNS complexe, dont la gestion est automatisée. En effet, Amazon indique qu’un service tel que DynamoDB « gère des centaines de milliers d’enregistrements DNS pour exploiter un vaste parc hétérogène de répartiteurs de charge (load balancers) dans chaque région. L’automatisation est essentielle pour garantir la mise à jour régulière de ces enregistrements DNS afin d’ajouter de la capacité dès qu’elle est disponible, de gérer correctement les pannes matérielles et de répartir efficacement le trafic pour optimiser l’expérience client »[3].
Le dysfonctionnement rencontré chez DynamoDB a également impacté le service « Elastic Compute Cloud », ou EC2, qui permet aux clients d’AWS de mettre en place des applications hébergées sur le Cloud et facilement augmenter ou réduire les ressources permettant de les opérer. Cette solution permet aux clients d’AWS de ne pas investir dans des équipements et une infrastructure maison, dont les coûts seraient beaucoup plus importants.
Ainsi, un enregistrement DNS défectueux sur un service d’AWS a eu un effet domino entrainant des interruptions de service touchant des milliers d’applications et services. On peut citer en exemple les lits connectés EightSleep : la panne chez AWS a empêché les clients de cette marque de lits connectés haut de gamme d’utiliser leur application dédiée pour régler l’inclinaison ou la température de leur matelas. Dans une publication sur le réseau social X, le PDG de la marque a annoncé une mise à jour rendant l’utilisation des lits possible hors ligne, grâce au Bluetooth[4].
Si l’exemple de EightSleep peut sembler cocasse, il doit toutefois nous interroger. En effet, AWS est un acteur majeur du Cloud, avec autour de 30% de parts de marché. Des acteurs comme AWS, Microsoft Azure (dont les services ont également été perturbés ces derniers jours[5]) et Google Cloud concentreraient à eux trois 63% des parts de marché au second trimestre 2025[6].
Le système DNS s’est construit selon le principe de la décentralisation, toutefois l’on observe la concentration de l’hébergement de milliers de services et plateformes utilisés dans notre quotidien auprès des acteurs mentionnés ci-dessus. Cette concentration s’explique par un besoin de performance et de réduction des coûts. Héberger une plateforme, un service, une application en ligne par ses propres moyens coûte cher en équipements, infrastructure et maintenance. Des acteurs tels qu’AWS permettent à leurs clients de profiter d’une infrastructure Cloud puissante et résiliente pour un coût bien moindre qu’une solution « maison », à performances équivalentes.
On l’a toutefois constaté entre le 19 et le 20 octobre dernier : cette concentration crée de facto des points de vulnérabilité : un dysfonctionnement chez un acteurs tel qu’AWS entraine l’interruption, partielle ou totale, de milliers de services de par le monde, ressenties par des millions d’utilisateurs, parfois de manière très concrète comme dans le cas des lits EightSleep. Cette Panne, aux origines complexes, nous rappelle l’importance de la mise en place de la redondance DNS, en particulier lorsqu’un dysfonctionnement du DNS peut provoquer un « effet domino » comme celui qu’on a pu constater à l’occasion de cette faille.
AWS a rapidement déterminé la cause de la panne, procédé au rétablissement du service concerné et annoncé travailler à l’amélioration de leurs outils afin que la situation ne se reproduise pas.
Les équipes d’IP Twins vous accompagnent dans la gestion de votre portefeuille de noms de domaine et de vos zones DNS, à travers votre chargé de compte dédié.
Notes
[1] “User reports indicate problems at Amazon Web Services” : downdetector.com.
[2] “Summary of the Amazon DynamoDB Service Disruption in the Northern Virginia (US-EAST-1) Region” : aws.amazon.com.
[3] Ibid.
[4] Xcancel.com : https://xcancel.com/m_franceschetti/status/1980419272766583262.
[5] Microsoft says it’s recovering after Azure outage took down 365, Xbox, and Starbucks : theverge.com.