KOLUMNA - GORAN ĐORESKI

Horror priča za geekove

Horror priča za geekove

U svibnju 2009. data centar Queensland Health ostao je bez napajanja - razlog nestanka električne energije bila je poplava koja potopila dvije transformatorske stanice lokalne energetske kompanije. Srećom, UPS sustavi su funkcionirali normalno, tako da je data centar nastavio svoj rad. Automatska dojava informirala je tehničare o ovom ispadu pa je zaposlenik data centra obišao sva postrojenja i ustanovio kako je sve u najboljem redu.

Činjenica koju nitko nije uočio niti predvidio bila je da je hladna voda potrebna za sustave hlađenja prestala doticati, budući da se pumpe za vodu nisu opskrbljivale iz UPS sustava. Spomenuti data centar imao je 10 klimatizacijskih jedinica, od kojih se 8 hladilo samo vodom, a dvije su mogle raditi načinom direktne ekspanzije.

Niti senzori temperature niti senzori prestanka protoka hladne vode nisu postojali, tako da tehničari nisu imali načina ustanoviti da se data centar ne hladi. Jedini nadzor te vrste bio je onaj za porast temperature servera, unutar samih servera, no taj dan napravljena je migracija DNS-a, što je onemogućilo porukama o porastu temperature da stignu do nadzora.

Četiri sata nakon ispada električne energije IT servisi počeli su se gasiti, a korisnici su prijavljivali probleme pa su tehničari napokon shvatili da unutar serverske sobe temperatura raste. Kako nisu znali samostalno ustanoviti uzrok, zvali su telefonom stručnjaka za klimatizaciju, ali on se nije javljao. Temperatura unutar serverske sobe došla je do 50 stupnjeva Celzija. Administratori korisnika u tom su trenutku odlučili početi gasiti servere i seliti servise na sekundarnu lokaciju, no udaljeni pristup nije funkcionirao te su morali fizički doći na lokaciju serverske sobe.

Šest sati nakon nestanka energije 75 posto svih servisa bilo je ugašeno. Inženjeru za klimatizaciju trebalo je tri sata da dođe na lokaciju. Osam sati od nestanka energije klimatizacijski sustav ponovo je funkcionirao normalno, a još sat kasnije serverske sobe bile je na normalnoj radnoj temperaturi. Dvadeset i dva sata od početka incidenta svi IT servisi uspostavljeni su u normalan rad.

Do ovakvog razvoja događaja u bolničkom data centru doveo je splet nesretnih okolnosti, lošeg održavanja, lošeg nadzora i organizacijskih pogrešaka. Gotovo svatko tko je čitao ovaj tekst mogao bi lako pobrojati sve pogreške i propuste koje su zaposlenici učinili i odmah iz glave dati prijedloge za poboljšanje. Čitava ta organizacija čini se spora, glupa i nesposobna. No, je li zaista za očekivati da su zaposlenici multimilijunskog data centra zaista do te mjere loši u obavljanju svog posla, ili možda su ovim događanjima kumovale i neke druge okolnosti, koje nisu vidljive iz priče? Svi su problemi banalni, dok god se dešavaju nekom drugom.

Prva poznata činjenica je da je spomenuti data centar u roku od nekoliko godina promijenio više tehničkih direktora. To znači da je nedostajao kontinuitet u viziji u kojem pravcu razvijati sustave i poslovne procese. Nekoliko promjena koncepcije može vrlo lako dovesti do nepovezanosti u pojedinim cjelinama i sustavima, poput spomenutog nedostatka nadzora nad pumpama za vodu. Nadalje, za očekivati je da je organizacija imala neki svoj budžet u koji se morala uklopiti. Sposobni inženjeri, dežurstva u smjenama i sva tehnička poboljšanja koštaju. Pitanje je koliko je organizacijskih i tehničkih kompromisa menadžment kompanije morao učiniti da bi se uklopio u financije kojima je raspolagao, a svjesni smo da ponekad investitori, koji s pravom očekuju dobit na kraju godine, nemaju razumijevanja za troškove koji rješavaju probleme koji se eventualno (možda) mogu dogoditi u budućnosti.

Nije isključeno da je uzrok čestim promjenama tehničkih direktora dijelom i to što su prethodni menadžeri glasno graktali oko potrebe za dodatnim investicijama u sustav, tako da su zamijenjeni onima koji su pjevali vlasnicima ljepšu pjesmu. Na kraju, data centar jest skup i kompleksan sustav koji se sastoji od energetskih, klimatizacijskih i informatičkih komponenti, u kojem je mogućnost pogreške je vrlo velika, a svaka pogreška može dovesti do lanca okolnosti koje će rezultirati nečim poput opisanog u primjeru. Po tome se data centar ne razlikuje od bilo kojeg industrijskog postrojenja ili avio industrije. Data centar nije IT.

Kada bismo čitavu ovu priču pokušali uklopiti u našu stvarnost, ključno pitanje koje bi se meni otvorilo jest - ako se ovako nešto može dogoditi profesionalnoj ekipi u skupom data centru u Sjedinjenim državama, koji su sve scenariji mogući u priručnom data centru naše srednje velike tvrtke, koji nema niti približno visoku razinu tehničke infrastrukture te o kojem se, ako nađe vremena uz svoj osnovni posao, brine neki IT sistem inženjer? Drugim riječima što se sve može očekivati u uobičajenom mjestu gdje stoji informatička oprema u Hrvatskoj?

 

* O autoru: Goran Đoreski, predsjednik uprave Altus informacijske tehnologije d.o.o.