Вчера, 4 августа, социальная сеть ВКонтакте была недоступна для пользователей по всему миру с 17 до 20 MSK.
Причиной аварии стал обрыв линий связи между дата-центрами ВКонтакте, который сопровождался выходом из строя системы автоматического переключения на резервную трассу. Фактически все линии связи между основными дата-центрами ВКонтакте были недоступны. Из-за резких перепадов в нагрузке социальной сети произошли сбои на сетевом оборудовании.
В течение трёх часов команде инженеров ВКонтакте и дата-центра «Селектел» пришлось восстанавливать основные каналы связи и работу всего серверного оборудования. Фатальное стечение ряда обстоятельств привело к аварии такого масштаба, восстановление стабильной работы после которой даже у инженеров ВКонтакте с их опытом реагирования в экстренных ситуациях заняло несколько часов: нашим специалистам пришлось восстанавливать один за другим сотни сервисов ВКонтакте, которые работают на десятках тысяч серверов.
Чтобы избежать подобных инцидентов в будущем, мы планируем модернизировать систему резервирования сетевого оборудования и оптоволоконных трасс. Также команда инженеров ВКонтакте работает над повышением отказоустойчивости сервиса, чтобы полностью справляться как с возросшим уровнем нагрузок, так и с возможными внештатными ситуациями: в начале июня для обеспечения бесперебойности работы ВК и снижения зависимости от внешних подрядчиков был приобретён и существенно модернизирован дата-центр «ИЦВА».
Последовательная работа по модернизации сетевой архитектуры и инфраструктуры хранения данных позволит избежать подобных аварий в будущем.
Мы приносим свои искренние извинения нашим пользователям за доставленные неудобства.
Творите добро.