AWS se plante une fois de plus, quelques jours après une panne massive

**Bill Fassinou** · 16/12/2021, 11h45

AWS se plante une fois de plus, quelques jours après une panne massive
entraînant l'arrêt de services très sollicités tels que Twitch, Zoom, Slack et Xbox Live

Amazon Web Service (AWS) a connu une nouvelle panne ce mercredi 15 décembre, rendant brièvement inaccessible une partie du Web. De nombreux services professionnels basés sur AWS, tels que Duo, le service de sécurité des points de terminaison à authentification à deux facteurs, Zoom, la plateforme de vidéoconférence, et Slack, le service de messagerie, ont été affectés. Les services de divertissement, notamment Hulu, Xbox Live et Halo, sont également tombés en panne. Le site DownDetector a également montré qu'AWS avait connu un pic de défaillance plus tôt dans la journée du mardi.

AWS, le leader mondial du cloud computing, vient de connaître deux pannes majeures en l'espace de deux semaines. La panne d'hier a commencé vers 7h43 PST (Pacific Standard Time), soit vers 16h43 à Paris, et a affecté les régions US-WEST-1 et US-WEST-2. Après que les utilisateurs ont commencé par signaler des problèmes de connectivité, AWS a finalement admis sur sa page d'état à 7h48 PST (16h48 à Paris) que sa région US-WEST-2 connaissait des problèmes de connectivité, et de même pour US-WEST-1 à 7h52 PT (16h52 à Paris). Dix minutes plus tard, l'entreprise a déclaré qu'elle avait trouvé la cause de la perte de connectivité des régions.

Nom : az.png
Affichages : 3510
Taille : 216,2 Ko

Elle a ajouté qu'elle avait apporté quelques corrections et qu'elle constatait une certaine reprise. Puis à 08h10 PST (17:10 à Paris), elle a déclaré : « nous avons résolu le problème affectant la connectivité Internet de la région US-WEST-1. La connectivité au sein de la région n'a pas été affectée par cet événement. Le problème a été résolu et le service fonctionne normalement ». Il en a été de même pour US-WEST-2 quatre minutes plus tard. La durée totale de la panne a été d'environ 30 minutes. La déclaration ci-dessus suggère que les connexions entrantes et sortantes de la région avec le reste du monde ont été affectées.

Elle suggère également que la mise en réseau au sein de la région était correcte. La cause exacte n'a pas été précisée. Il se peut qu'un technicien négligent ait trébuché sur un câble, qu'un ISP (Internet service provider) de la dorsale ait eu des problèmes quelque part, ou que ce soit le DNS. Les effets de ce temps d'arrêt se sont rapidement propagés sur Internet : les gens ont remarqué que les sites Web et les applications hébergés par Amazon ne fonctionnaient plus comme prévu. De nombreux services en ligne ont été affectés, notamment Twitch, Zoom, PSN, Xbox Live, Doordash, Quickbooks Online et Hulu.

La page d'état du géant du Web est devenue de moins en moins réactive, car les internautes ont afflué vers elle pour savoir ce qu'il était advenu de leurs services ou les choses chez AWS sont devenues de plus en plus bancales. De plus, cette panne survient après une autre panne massive d'AWS au début du mois affectant la région US-EAST-1, qui fournit la connectivité aux personnes et aux entreprises de la partie nord-est des États-Unis. En conséquence, le streaming via Netflix, Roku et Amazon Prime a été immédiatement affecté. Les appareils Ring ont également été mis hors service et sont devenus inaccessibles.

Nom : Online services affected by this AWS outage.jpg
Affichages : 2741
Taille : 57,9 Ko

Les employés d'Amazon chargés de la livraison ont également déclaré qu'ils ne pouvaient pas accéder aux applications internes nécessaires pour scanner les colis, accéder aux itinéraires de livraison ou voir les horaires à venir. Comme AWS l'a expliqué par la suite, cet incident a été causé par une "activité automatisée visant à augmenter la capacité de l'un des services AWS hébergés sur le réseau AWS principal" qui "a entraîné une forte augmentation de l'activité de connexion. Cela a submergé les dispositifs de mise en réseau entre le réseau interne et le réseau AWS principal".

Selon les analystes, le moment est mal choisi pour le géant du cloud, qui a aussi travaillé d'arrache-pied au cours de la semaine écoulée pour corriger ses composants affectés par la vulnérabilité d'exécution de code à distance Apache Log4j (CVE-2021-44228), à en juger par le dernier bulletin de sécurité d'Amazon à ce sujet. Les pannes d'AWS, même brèves, rappellent à quel point les applications, les sites Web et les services d'aujourd'hui dépendent de plateformes uniques comme AWS. Par ailleurs, le site de détection des pannes DownDetector a montré que les sites de Salesforce et Facebook ont également été affectés par la panne d'hier.

Sources : Page d'état des services d'AWS, Rapports (1, 2)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des pannes répétitives subies par AWS dernièrement ?

Avez-vous été affecté par l'une des dernières pannes d'AWS ?

Si oui, quelles ont été les répercussions sur vous ou votre organisation ?

Les pannes d'AWS entraînent l'indisponibilité d'une partie non négligeable du Web. Selon vous, pourquoi beaucoup de développeurs et d'entreprises choisissent-ils le cloud d'AWS ?

Cela signifie-t-il qu'AWS propose de meilleurs services et infrastructures que ses concurrents ?

Voir aussi

La panne du cloud d'Amazon a affecté les principaux sites web et les applications de streaming, 24 000 cas de personnes ayant signalé des problèmes avec Amazon ont également été recensés

AWS révèle que ses services cloud étaient indisponibles à cause d'un dépassement des limites des threads du SE, les administrateurs système n'étaient pas familiarisés avec les solutions palliatives

AWS lance Amazon DevOps Guru, un service d'opérations dans le cloud alimenté par l'apprentissage automatique pour améliorer la disponibilité des applications

Panne OVH : l'hébergeur revient sur le dernier incident qu'il a connu avec plus de détails

**Stéphane le calme** · 23/12/2021, 11h03

AWS d'Amazon enregistre une troisième panne durant le mois de décembre
qui a affecté Epic Games Store, Imgur, Hulu, Slack et plusieurs autres services

C'est la troisième fois en autant de semaines que des problèmes avec AWS ont un effet significatif sur les services en ligne. Deux incidents plus tôt ce mois-ci impliquant AWS ont eu un impact sur une vaste gamme de plateformes et de produits, empêchant l'accès à des sites de streaming comme Netflix et Disney Plus, ainsi que des appareils domestiques connectés comme des caméras de sécurité de Ring et Wyze.

Décembre a été un mois difficile pour Amazon, du moins pour Amazon Web Services. La plateforme de cloud computing très populaire a subi mercredi sa troisième panne du mois, affectant Slack, Epic Games Store et plusieurs autres services. Le tableau de bord AWS Service Health montre que le problème réside dans un centre de données du nord de la Virginie et affecte les clients de la zone de disponibilité US-EAST-1. La première panne a été signalée à 7 h 35 HNE.

Les utilisateurs de Slack ont commencé à rencontrer des problèmes peu de temps après la panne, et Epic Games Store a noté que la panne d'AWS causait des problèmes « affectant les connexions, la bibliothèque, les achats, etc. »

À 9h13 HE, Amazon a déclaré qu'il avait rétabli l'alimentation des serveurs concernés et qu'à 12h28 HE, il avait 1 restauré la connectivité sous-jacente à la majorité des systèmes restants ». Cependant, les utilisateurs pouvaient toujours rencontrer des problèmes lors de la relance des services et des serveurs.

À 19h22 HE, un peu plus de douze heures après le début du problème, Amazon a marqué le problème comme étant résolu. Toutefois, cette restauration n'a pas nécessairement tout résolu pour tous les serveurs concernés. La dernière mise à jour de la page d'état AWS explique les problèmes d'Amazon :

Envoyé par Amazon

À partir de 4h11 HNP, certaines instances EC2 et volumes EBS ont subi une panne de courant dans un seul centre de données au sein d'une seule zone de disponibilité (USE1-AZ4) dans la région US-EAST-1. Les instances d'autres centres de données dans la zone de disponibilité affectée et d'autres zones de disponibilité dans la région US-EAST-1 n'ont pas été affectées par cet événement.

À 4h55 HAP, l'alimentation a été rétablie sur les instances EC2 et les volumes EBS dans le centre de données concerné, ce qui a permis à la majorité des instances EC2 et des volumes EBS de récupérer. Cependant, en raison de la nature de l'événement d'alimentation, certains des matériels sous-jacents ont connu des pannes, qui devaient être résolues par les ingénieurs de l'installation.

Les ingénieurs ont travaillé pour récupérer les instances EC2 et les volumes EBS restants affectés par le problème. À 14h30 PST, nous avons récupéré la grande majorité des instances EC2 et des volumes EBS. Cependant, certaines des instances EC2 et des volumes EBS concernés s'exécutaient sur du matériel qui a été affecté par la perte d'alimentation et n'est pas récupérable.

Pour les clients qui attendent toujours la récupération d'une instance EC2 ou d'un volume EBS spécifique, nous vous recommandons de relancer l'instance ou de recréer le volume à partir d'un instantané pour une récupération complète. Si vous avez besoin d'une assistance supplémentaire, veuillez contacter AWS Support.

Dans une mise à jour sur l'incident au plus fort de la panne, Slack a déclaré que ses services « rencontraient des problèmes avec les téléchargements de fichiers, l'édition de messages et d'autres services ». Puis :

« Le 22 décembre 2021, de 4h20 à 9h30, heure du Pacifique, un petit pourcentage de nos clients ont rencontré des problèmes pour envoyer et modifier des messages, charger des fils de discussion, télécharger des fichiers, etc. C'était le résultat d'une panne affectant l'un de nos fournisseurs de services ; les troubles ont cessé une fois qu'ils ont rétabli les services. Par la suite, nous avons découvert que certains messages générés par des robots n'atteignaient pas nos bases de données, entraînant des échecs de messages irrécupérables. Nous étudions des moyens d'éviter que cela ne se reproduise à l'avenir ».

Asana a déclaré que les problèmes constituaient une « panne majeure », avec « beaucoup de nos utilisateurs incapables d'accéder à Asana » : « Cet incident est désormais résolu et tous les clients devraient à nouveau pouvoir accéder à Asana. Encore une fois, nos excuses pour la gêne occasionnée, et si vous rencontrez toujours des problèmes, veuillez nous en informer sur asana.com/support ».

Epic Games Store a déclaré que les « pannes de services Internet » « affectaient les connexions, la bibliothèque, les achats, etc. »

Nom : epic.png
Affichages : 2470
Taille : 23,4 Ko

AWS a connu sa première panne du mois le 7 décembre, ce qui a affecté les services de crypto-monnaie, de courtage et de divertissement. Coinbase a signalé des problèmes importants, tout comme les services de streaming Netflix et Disney+. La perturbation du 7 décembre a également eu un impact sur Amazon lui-même, car les vendeurs n'ont pas pu accéder au Seller Center de la grande enseigne du commerce électronique pour gérer les commandes.

La deuxième panne, le 15 décembre, s'est produite dans un centre de données de la côte ouest. Cela a affecté les services de Facebook, Slack, Hulu et DoorDash.

La troisième panne semblent s'étendre à moins de services mais ses répercussions sont également notables puisque certains utilisateurs ne pouvait pas accéder entièrement à des services et d'autres rencontraient simplement des pannes intermittentes. Dans un rapport, DownDetector.com a noté des problèmes avec les plateformes mentionnées ci-dessus, ainsi que l'agrégateur de nouvelles Flipboard, un site d'apprentissage en ligne, l'application de rencontres Grindr, le service de streaming Hulu et les services IoT de Honeywell, Life360 et SmartThings de Samsung.

Sources : Amazon, Slack, Asana

**denisys** · 23/12/2021, 12h42

Finalement.
OVH , n’a pas a rougir de ces derniers déboires , dans ces datas centers !!!!

AWS se plante une fois de plus, quelques jours après une panne massive

Cloud Computing

Discussions similaires

Partager

Partager