Výpadek 7.10.2011 - podrobné informace
(aktualizováno 8.10. v 7:07, 11.10. v 17:00) Dne 7.10.2011 došlo odpoledne k výpadku elektrického napájení části naší serverovny. V tomto článku popíšeme, co se přesně stalo, jaký byl průběh, následky a řešení.
Datum: 07.10.2011
Základní informace o výpadku jsme krátce po vzniku problému uveřejňovali ve článku Výpadek 7.10.2011, informovali jsme též okamžitě na Facebooku.
Omlouváme se, že jsme na chatu a e-mailu informovali jen krátce a reagovali pomaleji, ale byli jsme plně zaměstnáni řešením situace, v plném nasazení bylo 9 pracovníků.
Výpadek elektrické energie
Prapříčinou celého sledu událostí byl krátký pokles napětí na elektrické síti EONu, ke kterému došlo ve 13:25. Bylo to méně než sekundové "houpnutí" napětí, ke kterému došlo v rozvodně Dasný. To ovlivnilo elektrickou síť u nás v Hluboké nad Vltavou a zřejmě i v Českých Budějovicích. Někde to lidé pocítili, někde ne. Nejvíce jsme to bohužel pocítili z nějakého důvodu my.
Naše datacentrum samozřejmě je na tyto situace připraveno.
Update: 8.10.2011 - v 7:01 byl znovu výpadek napájení sítě EON, ale díky níže popsaným úpravám vše proběhlo bez výpadku jakékoliv služby.
U budovy máme umístěn dieselagregát o výkonu 220 kVA, který je schopen dodávat elektrickou energii po neomezenou dobu (stačí dolévat naftu). Ten má však nějakou reakční dobu, podle nastavení mu trvá cca 30-50 sekund, než začne dodávat energii na plný výkon.
K pokrytí mezery mezi výpadkem elektřiny a dodávkou energie z generátoru slouží UPS, které zcela bezvýpadkově dokážou přepnout na energii z baterií.
My máme 2 UPS. Bohužel jedna z nich (120 kVA) selhala. Na výpadek nereagovala a nezačala dodávat energii z baterií. Tím došlo na cca 1 sekundu k výpadku napájecí větve, která dodává zálohovanou energii pro některé servery s virtuálními servery a dedikované servery. Všechny servery pro VPS mají dva zdroje napájení a dva nezávislé přívody. Dedikované servery mají jen jeden napájecí zdroj.
Podle analýzy problému servisními techniky se pravděpodobně jedná o nefunkční řídící jednotku UPS, která prostě "odešla". Na její opravě se pracuje, náhradní řídící jednotka je již na cestě od výrobce z Francie a v pondělí by měla dorazit a hned v pondělí by měla být nainstalována. Příčinu selhání (respektive poškození) řídící jednotky UPS zřejmě víme a ještě popíšeme.
Update: 11.10.2011 - v 17:00 - UPS je opravena, druhý náhradní motorgenerátor vypnut. Vše je tedy v normálu.
Konektivita
Při výpadku elektrické energie však také došlo k výpadku primární 10 Gbps datové optické trasy mezi námi a Prahou. Nicméně výpadek této optiky je nám zatím trochu záhadou. Router, ve kterém je optika ukončena, nebyl výpadkem ovlivněn a celou dobu běžel. Z tohoto rozhraní jde optický kabel, kterým přímo "svítíme" na vzdálenost cca 15 km do ústředny Telefónicy do Českých Budějovic. Mezi naším routerem a Českými Budějovicemi není žádný aktivní prvek, který by potřeboval napájení.
Výpadek optické trasy si tedy dokážeme vysvětlit pouze tím, že došlo k problému v Českých Budějovicích na ústředně, kde taktéž došlo k "houpnutí" elektřiny. Pracovníci Telefónicy náš ujišťují, že mají vše zálohované. Ale moc jim to v tomto okamžiku nevěříme. Optickou linku 10 Gbps máme cca měsíc a je možné, že tam při instalaci někde vznikla chyba. Vše řešíme s Telefonica.
Výsledkem tohoto všeho bylo, že na chvíli vypadla primární konektivita a trvalo řádově sekundy až desítky sekund, než se routovací protokoly přizpůsobily nové situaci a poté mohlo trvat delší dobu než si cesty zaktualizovaly routery na celém Internetu. Naše síť tedy byla nějakou dobu částečně nedostupná (částečně se jelo přes druhou trasu, což je vidět na grafu toku dat z našeho datového centra).
Zde je nutné připomenout to, že další optickou trasu chceme mít nezávislou na Telefonica a nyní ji připravujeme s ČD Telematika.
Na následujícím grafu celkových datových přenosů je vidět v cca 13:25 1-2 minutový výpadek konektivity
Webhosting
Nejméně byl dotčen webhosting. Všechny blade servery, storage a routery byly v pořádku napájeny z druhé UPS, tedy byly plně v provozu. Jen pár minut trpěly problémy s konektivitou, a tak nebyly chvíli dostupné. Poté vše běželo dále zcela bez problémů. Během výpadku fungovaly záložní DNS servery a záložní mailserver, které jsou na jiné sití a v jiné lokalitě.
Doba výpadku: cca 2-5 minut
Virtuální servery
Většina virtuálních serverů utrpěla výpadkem napájení, všechny fyzické servery používané pro VPS spadly a s nimi i všechny virtuální. Po obnovení napájení (po necelé 1 sekundě) začaly všechny bez problémů startovat. Startování fyzickým serverům trvalo cca 3 minuty, poté na nich začaly startovat všechny virtuální - v závislosti na použitém operačním systému jim pak trvalo několid desítek sekund až minut než vše naběhlo. Poté mohly být nějakou dobu zpomalené vzhledem k velkému zatížení při bootování všech VPS.
Vše nastartovalo samo, nebyl nutný zásah techniků. Ke komplikacím může dojít individuálně v případě, že konkrétní VPS nemá mapř. správně nastavené startování systémových služeb apod. O vyřešení těchto problémů by se měly primárně postarat zákazníci, popř. nás mohou kontaktovat a vyžádat si asistenci. V prvních minutách jsme asistovali omezeně, ale postupně jsme všem pomohli.
Doba výpadku: cca 5-10 minut (s výjimkou dále uvedenou)
Virtuální servery na hypervizoru v-f93
Na jednom hypervizoru (tedy serveru provozozujícím virtuální servery) došlo k závažnějšímu problému. Server v pořádku nastartoval, naběhly i všechny VPS na něm. Avšak kvůli nějakému softwarovému problému, který jsme zatím neobjasnili, nefungovalo správně síťové rozhraní pro VPS (linuxový bridge) a žádnými prostředky jsme jej nedokázai přemluvit k fungování.
Museli jsme tedy přistoupit k plánu B - přesun VPS z tohoto serveru na jiné. Postupně jsme je tak začali přesouvat jinam a postupně spouštěli. Data se však musela s tím přesunout na jiný storage, a tak to vzhledem k velkému objemu dat trvalo až (v nejhorším případě) 4 hodiny. Když to sečteme s výpadkem a počátečním řešením problému, některá z těchto VPS nejela až 5 hodin.
Problém se dotkl cca 60 VPS. Ostatních cca 1200 VPS naběhlo a fungovalo hned bez komplikací.
Doba výpadku: 1-5 hodin
Zákazníci, kterých se tento problém týkal, budou během 24 hodin speciálně kontaktování e-mailem s podrobným vysvětlením situace a kompenzací. Prosíme o strpení.
Dedikované servery
Všechny dedikované servery také ztratily na okamžik napájení, následně hned začaly samy startovat, nebyl nutný zásah techniků.
Doba výpadku: cca 2-5 minut
Řešení porouchané UPS
Promptně jsme začali řešit problém s UPS. Jak již bylo zmíněno výše, tak je na cestě již poškozená řídící jednotka UPS a v pondělí by mělo dojít k opravě.
Dále jsme řešili jak postupovat v případě, že by došlo k dalšímu podobnému výpadku napájení do doby než by byla opravena UPS. Jediné řešení je odpojení poškožené UPS a namísto ní použití generátoru, který pojede nepřetržitě. Jenže co když selže generátor? Jediná možnost - musíte mít dva. Nezbývá nic jiného (pokud to nechceme celé opakovat v případě dalšího "houpnutí" elektrické sítě). Okamžitá akce.
Výsledek? Velmi rychle nám byl naším partnerem z Písku dodán další dieselagregát o výkonu 30 kVA (nejslabší možný pro naše potřeby), který byl zapojen na napájecí okruh s porouchanou UPS, čímž ji nahradil. Tento generátor nyní nepřetržitě poběží až do dořešení problému s UPS a bude pokrývat případné další výpadky od EONu.
Nový generátor nahrazuje UPS. Servery jedou ze sítě a z nového generátoru současně. V případě výpadku sítě vše bez výpadku pojede z nového generátoru a nás stávající nastarujte zcela běžným způsobem a převezme část zátěže a bude jistit druhý generátor.
Na konci článku jsou fotografie z umisťování tohoto druhého generátoru.
Na fotografiích z naší webové kamery vidíte jak jsme postupně natáhli kabely z druhé UPS a jak jsme natáhli ještě kabel z nového motorgenerátoru. Ještě bude pár fotografií z rychlé akce - přivezení, složení a zapojení druhého motorgenerátoru.
Kompenzace
Za celý problém se samozřejmě všem našim zákazníkům omlouváme. UPS je také jen technika a může se porouchat, obvykle v nejnevhodnější dobu. Nicméně odpovědnost za výpadek samozřejmě neseme my.
V souladu se smluvními podmínkami můžeme jako kompenzaci za nedodržení dostupnosti hostingových služeb poskytnout slevu ve formě období zdarma.
Bohužel u nás není možné žádným způsobem nárokovat jakékoliv finanční odškodnění či náhradu škod.
Zákazníci, kteří byli dotčeni výpadkem VPS delším než 1 hodina budou během víkendu nebo pondělí námi přímo kontaktováni přes e-mail s podrobnými informacemi a návrhem kompenzace výpadku.
Ostatní zákazníci, kteří žádají kompenzaci, nás mohou kontaktovat prostřednictvím kontaktního formuláře. Kompenzace bude domluvena individuálně.