Podsumowanie incydentu niedostępności aplikacji

W tej informacji chciałbym podsumować incydent z 10 marca 2021 związany z niedostępnością aplikacji.

Powodem niedostępności był czynnik losowy w postaci pożaru w serwerowni OVH, firmy będącej naszym dostawcą infrastruktury. Pożar objął jeden z obiektów, niszcząc go bezpowrotnie, równocześnie powodując szereg skutków ubocznych, w wyniku których unieruchomiony został cały region serwerowy SBG.

Niedostępność aplikacji rozpoczęła się około godziny 01:09.

Z uwagi na to, że informacje o skali problemu po stronie OVH były niejednoznaczne, czekaliśmy z decyzją o uruchomieniu DRP do godziny 14.30.

Procedura DRP polegała odtworzeniu pełnej, redundantnej infrastruktury, konfiguracji i instalacji oprogramowania na nowych serwerach, przywrócenia danych z kopii zapasowych oraz uruchomieniu aplikacji.

Zdecydowaliśmy się na odtworzenie infrastruktury w polskim regionie OVH (region WAW1). Napotkaliśmy tu na niezależnie od nas problemy będące efektami ubocznymi awarii w SBG: przeciążenie systemów OVH, problemy z alokacją sieci prywatnych. Ostatecznie uruchomiliśmy 14 serwerów i zabezpieczyliśmy je firewallem.

Na etapie konfiguracji i instalacji oprogramowania użyliśmy konfiguracji z Ansible, przy czym z uwagi na dług technologiczny po naszej nie posiadaliśmy stosownej konfiguracji dla serwerów SQL. Konfiguracja ta powstała w trakcie operacji DRP, co nieznacznie wydłużyło proces.

Odtworzenie danych przebiegło bez problemu. Ostatnia kopia bazy danych w systemie backupu wykonana została 09.03.2021 o godzinie 20:40, a więc już po zakończeniu głównej aktywności w aplikacji, na 5h przed incydentem. Kopia załączników plikowych była jeszcze świeższa: wykonana 10.03.2021 o godzinie 00.20. Po odtworzeniu danych zabezpieczyliśmy je w systemie kopii zapasowych.

10.03.2021 o godzinie 20:45, a więc 20 godzin po wystąpieniu awarii uruchomiliśmy ponownie aplikację w nowej serwerowni.