Bez kategorii

6 postów

Podsumowanie prac 1Q/2021 w Serwisant Online

Pierwszy kwartał 2021 roku przeznaczyliśmy na prace związane z infrastrukturą, tak, aby polepszyć niezawodność dostarczania Państwu najlepszej aplikacji do zarządzania serwisem. Prace prowadzone były w kilku obszarach.

Pierwszym obszarem była zmiana dostawcy usług backupowych. Obecnie korzystamy z usług firmy homecloud.pl oraz jej usług BaaS. Z uwagi na marcową awarię uzyskaliśmy szybką możliwość przetestowania tej usługi „w boju” i bez wahania można powiedzieć, że sprawdziła się w 100%.

Kolejny obszar to migracja systemu składowania plików z rozwiązania self-hosted na rozwiązanie cloud, co zapewnia lepszą skalowalność oraz wyeliminowało słabe punkty związane z hostowanymi samodzielnie serwerami plików. Migracja możliwa była dzięki przeprowadzonej w poprzednim roku aktualizacji frameworka Rails. Obecnie jesteśmy w stanie dostarczyć Państwu nieograniczoną ilość miejsca na pliki w bardzo krótkim czasie.

Innym ważnym obszarem byłą aktualizacja systemów operacyjnych na serwerach, z Debian 8 na Ubuntu 18.04.5 LTS. Migracja objęła wszystkie używane przez nas serwery i wymagała utworzenia dla każdego z nich dedykowanych scenariuszy instalacji w Ansible. Posiadanie tego typu scenariuszy umożliwia nam szybkie dostarczanie dodatkowych serwerów o identycznej konfiguracji, w celu skalowania wydajnościowego lub np procedury DRP.

Ostatnim obszarem byłą optymalizacja redundancji usług: dla usług związanych z bazą danych SQL, pamięcią podręczną oraz wyszukiwaniem wyeliminowaliśmy mało efektywne metody wykrywania awarii i reagowania na nie na rzecz rozwiązań dedykowanych, opartych specjalnym na oprogramowaniu. Te operacje dodatkowo pozwalają na zwiększanie wydajności tych usług poprzez balansowanie ruchu na wielu węzłach. Obecnie rozwiązanie to działa dla mechanizmu wyszukiwania. Będziemy je testowali i wdrażali także dla baz danych SQL.

Dodatkowo, co zostało podyktowane siłą wyższą przenieśliśmy całą aplikację z serwerowni w Sztrasburga (FR) do Warszawy (PL).

Podsumowanie incydentu niedostępności aplikacji

W tej informacji chciałbym podsumować incydent z 10 marca 2021 związany z niedostępnością aplikacji.

Powodem niedostępności był czynnik losowy w postaci pożaru w serwerowni OVH, firmy będącej naszym dostawcą infrastruktury. Pożar objął jeden z obiektów, niszcząc go bezpowrotnie, równocześnie powodując szereg skutków ubocznych, w wyniku których unieruchomiony został cały region serwerowy SBG.

Niedostępność aplikacji rozpoczęła się około godziny 01:09.

Z uwagi na to, że informacje o skali problemu po stronie OVH były niejednoznaczne, czekaliśmy z decyzją o uruchomieniu DRP do godziny 14.30.

Procedura DRP polegała odtworzeniu pełnej, redundantnej infrastruktury, konfiguracji i instalacji oprogramowania na nowych serwerach, przywrócenia danych z kopii zapasowych oraz uruchomieniu aplikacji.

Zdecydowaliśmy się na odtworzenie infrastruktury w polskim regionie OVH (region WAW1). Napotkaliśmy tu na niezależnie od nas problemy będące efektami ubocznymi awarii w SBG: przeciążenie systemów OVH, problemy z alokacją sieci prywatnych. Ostatecznie uruchomiliśmy 14 serwerów i zabezpieczyliśmy je firewallem.

Na etapie konfiguracji i instalacji oprogramowania użyliśmy konfiguracji z Ansible, przy czym z uwagi na dług technologiczny po naszej nie posiadaliśmy stosownej konfiguracji dla serwerów SQL. Konfiguracja ta powstała w trakcie operacji DRP, co nieznacznie wydłużyło proces.

Odtworzenie danych przebiegło bez problemu. Ostatnia kopia bazy danych w systemie backupu wykonana została 09.03.2021 o godzinie 20:40, a więc już po zakończeniu głównej aktywności w aplikacji, na 5h przed incydentem. Kopia załączników plikowych była jeszcze świeższa: wykonana 10.03.2021 o godzinie 00.20. Po odtworzeniu danych zabezpieczyliśmy je w systemie kopii zapasowych.

10.03.2021 o godzinie 20:45, a więc 20 godzin po wystąpieniu awarii uruchomiliśmy ponownie aplikację w nowej serwerowni.

Prace serwisowe

W najbliższą sobotę, 13.03.2021 po 15.00 oraz w niedziele 14.03.2021 będziemy prowadzili prace serwisowe, które mogą skutkować przejściową niedostępnością aplikacji. W trakcie prac będziemy optymalizowali infrastrukturę uruchomioną w ramach DRP. W poniedziałek przygotujemy Państwu podsumowanie incydentu związanego z niedostępnością serwisu.

Niedostępność serwisu

Dziś, od rana, z uwagi na pożar w serwerowni OVH straciliśmy dostęp do chmury, z której serwowane są aplikacje Serwisant Online oraz Naprawiam Online. Stosowny komunikat OVH: http://travaux.ovh.net/?do=details&id=49484 – informacje prasowe: https://niebezpiecznik.pl/post/splonela-serwerownia-ovh/

Z komunikatu wynika, że pożar dotyczy serwerowni SBG2, Serwisant Online został ulokowany s SBG3, przy czym nieobjęta pożarem serwerownia została odłączona na czas działań gaśniczych.

Nie znamy na ten moment przybliżonego terminu przywrócenia usługi . Czekamy na informacje związane z planem przywrócenia usług od OVH. W przypadku braku rozwiązania sytuacji w terminie 12h rozpoczniemy wdrażanie DRP.

Będziemy aktualizowali ten komunikat na bieżąco.

Aktualizacja 11.15

OVH poinformowało, że uzyskano dostęp do obiektu SBG3 i trwa ustalenie planu związanego z przywróceniem serwerowni. Równolegle przeprowadziliśmy testy odzyskiwania kluczowych elementów, głownie bazy danych. Ostatnia poprawnie wykonana kopia bazy została utworzona 09.03.2021 o godzinie 20:40. W przypadku negatywnych wiadomości z OVH jesteśmy przygotowani do wdrożenia DRP.

Aktualizacja 11.20

OVH poinformowało, że żadne serwery w obiekcie SBG3 nie są uszkodzone, trwa ustalanie planu przywrócenia serwerowni do trybu online.

Aktualizacja 14.30

Wygląda na to, że pomimo iż obiekt SBG3 nie uległ awarii, nie uda się go uruchomić w terminie krótszym niż 1-2 tygodnie, z uwagi na uszkodzenie zasilającej stacji WN. Rozpoczęliśmy procedurę odzyskiwania, przy czym OVH boryka się obecnie z problemami na wielu płaszczyznach i próba alokacji sieci/zasobów w innych serwerowniach jest mocno problematyczne.

Aktualizacja 16:30

Spodziewany czas przywrócenia usług: jutro rano tj. 11.03.2021

Aktualizacja 01:30

Przywróciliśmy aplikację. Obecnie mogą występować następujące problemy:

– nie działające wyszukiwanie – proces indeksowania działa obecnie w tle – funkcjonalność będzie sukcesywnie przywracana
– mogą występować przejściowe problemy wydajnościowe – pracujemy nad powiększeniem limitu w nowej serwerowni, tak aby dostawić więcej serwerów
– utrata danych wprowadzonych pomiędzy 09.03.2021 20:40 a 10.03.2021 03:00 – jest to efekt uboczny przywracania z backupu, który jest wymieniony w regulaminie jako warunek świadczenia usługi.

Prace serwisowe

Dzień dobry. W sobotę, tj 03.10.2020, po godzinie 15 planujemy prace serwisowe dotyczące infrastruktury. Co może nie działać: 1) aplikacja w całości – z uwagi na konieczne prace konserwacyjne na bazie danych wyłączymy aplikację na czas nie przekraczający godziny 2) załączniki – z uwagi na migrację plików na nowe serwery, dodane załączniki mogą się nie wyświetlać, nie będzie można ich pobrać – ten stan może trwać około 24 godzin 3) generowanie eksportów CSV, XLS może zwracać błędy, próba dodania załącznika może zwracać błędy – nie dłużej niż godzinę.