Как сбой в работе Amazon AWS повредил огромные участки сети
Если 20 октября у вас возникли проблемы с доступом к некоторым любимым сайтам и сервисам, вы были не одиноки. Огромный сегмент интернета столкнулся с многочасовыми проблемами, а также сбоями в работе множества сайтов.
Причиной стал сбой в работе сервисов Amazon AWS, серьёзные сбои в работе которого оказали огромное негативное влияние на сотни, если не тысячи сервисов. Проблемы возникли как у собственных сервисов Amazon, таких как Alexa, Ring и Prime Video, так и у крупных интернет-платформ, включая Disney+ , Hulu , Roblox , Fortnite , Zoom , The New York Times, McDonald's и других.
После 15 часов сбоя компания Amazon наконец смогла подать сигнал об отбое, полностью восстановив предоставление своих услуг.
Сбой интернета в AWS: ключевые обновления
- 15:53 PDT : Amazon публикует заявление с подробным описанием произошедшего.
- 15:01 PDT : Все сервисы AWS вернулись к нормальной работе.
- 10:03 утра по тихоокеанскому времени : «Мы продолжаем принимать меры по снижению нагрузки для обеспечения работоспособности балансировщика сетевой нагрузки и восстановления подключения к большинству сервисов AWS». Этот сбой продолжается уже более 10 часов.
- 09:13 утра по тихоокеанскому времени : Amazon сообщает , что «видит восстановление подключения и API для сервисов AWS».
- 08:48 PDT : Хорошие новости! Amazon «уточнила источник проблем с сетевым подключением, которые повлияли на работу сервисов AWS».
- 08:04 утра по тихоокеанскому времени : Amazon необходимо провести дополнительные расследования в связи с проблемами подключения.
- 07:29 утра по тихоокеанскому времени : Amazon подтверждает наличие проблем с подключением у пользователей.
- 07:14 PDT : Ой-ой! Похоже, ситуация ухудшается . «Мы подтверждаем наличие серьёзных ошибок API и проблем с подключением в нескольких сервисах в регионе US-EAST-1».
- 06:42 утра по тихоокеанскому времени : Amazon подтверждает , что «все еще сталкивается с повышенным количеством ошибок при запуске новых экземпляров EC2».
- 05:48 утра по тихоокеанскому времени : Amazon заявляет, что «добивается прогресса в решении проблемы с запуском новых экземпляров EC2 в регионе US-EAST-1».
- 05:10 утра по тихоокеанскому времени : Еще больше успешных действий в ходе процесса восстановления Amazon.
- 04:48 утра по тихоокеанскому времени : Amazon подтверждает, что многие сервисы по-прежнему затронуты, в то время как компания продолжает устранять проблему.
- 04:08 утра по тихоокеанскому времени : Amazon заявляет, что «продолжает работать над полным восстановлением».
- 03:35 утра по тихоокеанскому времени : «Основная проблема DNS полностью устранена, и большинство операций сервиса AWS теперь выполняются нормально».
- 03:03 утра по тихоокеанскому времени : Сервисы продолжают восстанавливаться, поскольку Amazon продолжает «работать над полным разрешением проблемы».
- 02:27 утра по тихоокеанскому времени : «Мы видим значительные признаки восстановления», — отмечает Amazon. Слава богу.
- 02:22 утра по тихоокеанскому времени : Amazon заявляет , что «наблюдает первые признаки восстановления некоторых пострадавших сервисов AWS».
- 02:01 AM PDT : Amazon сообщает, что «выявила потенциальную причину ошибок».
- 01:26 утра по тихоокеанскому времени : Amazon заявляет, что «может подтвердить значительную частоту ошибок в запросах к конечной точке DynamoDB в регионе US-EAST-1».
- 00:51 по тихоокеанскому времени : Amazon подтверждает «увеличение частоты ошибок и задержек для нескольких сервисов AWS в регионе US-EAST-1»
- 00:11 по тихоокеанскому времени : Amazon подтверждает , что «расследует увеличение количества ошибок и задержек для нескольких сервисов AWS в регионе US-EAST-1».
Почему сервисы AWS вышли из строя?
20 октября в 15:53 по тихоокеанскому времени компания Amazon опубликовала заявление, в котором подробно описала события того дня.
В период с 23:49 по тихоокеанскому летнему времени 19 октября до 2:24 по тихоокеанскому летнему времени 20 октября мы столкнулись с увеличением количества ошибок и задержек в работе сервисов AWS в регионе US-EAST-1. Кроме того, в это время также наблюдались проблемы в работе сервисов или функций, использующих конечные точки US-EAST-1, таких как IAM и глобальные таблицы DynamoDB.
В 00:26 20 октября мы определили, что причиной события стали проблемы с разрешением DNS для конечных точек региональной службы DynamoDB. После устранения проблемы с DNS DynamoDB в 02:24 сервисы начали восстанавливаться, но впоследствии возникли сбои во внутренней подсистеме EC2, отвечающей за запуск экземпляров EC2, из-за её зависимости от DynamoDB. По мере того, как мы продолжали устранять сбои в запуске экземпляров EC2, также нарушились проверки работоспособности Network Load Balancer, что привело к проблемам с сетевым подключением в нескольких сервисах, таких как Lambda, DynamoDB и CloudWatch.
Мы восстановили проверку работоспособности балансировщика сетевой нагрузки в 9:38 утра. В рамках восстановления мы временно ограничили некоторые операции, такие как запуск экземпляров EC2, обработку очередей SQS через сопоставления источников событий Lambda и асинхронные вызовы Lambda. Со временем мы уменьшили ограничение операций и параллельно работали над устранением проблем с сетевым подключением до полного восстановления работы сервисов.
К 15:01 все сервисы AWS вернулись к нормальной работе. Некоторые сервисы, такие как AWS Config, Redshift и Connect, по-прежнему имеют накопившиеся сообщения, обработка которых будет завершена в течение следующих нескольких часов. Мы опубликуем подробную сводку AWS по итогам события.
Как долго длился сбой в работе AWS?
В общей сложности 20 октября 2025 года работа сервисов AWS была нарушена на протяжении 15 часов, что стало крупнейшим сбоем в работе AWS для Amazon за десятилетие.
По результатам нашего исследования предыдущих сбоев AWS, самый длительный сбой за последние 10 лет произошел в августе 2019 года, когда сервисы были недоступны в течение восьми часов.