Toto je ďalší veľký bolehlav, ktorý z času na čas trápi Niboreu. Bohužiaľ nie je tak jednoducho riešiteľný ako tie predchádzajúce.
Výpadky nám zvyknú prichádzať vo vlnách. Naposledy bol asi 4 mesiace relatívny pokoj, ale od apríla zas všeličo hapruje. Človek žasne, koľkými rôznymi spôsobmi dokáže zlyhať jeden server. A keďže máme servery tri, šanca že sa niečo stane je trojnásobná. Niekedy sa im podarí padnúť všetkým naraz, ako napríklad minulý víkend.
Naša architektúra je relatívne jednoduchá, každý server je samostatný virtuálny stroj a sú pripojené do spoločného dátového úložiska (zjednodušene si to môžete predstaviť ako veľký harddisk). Toto riešenie poskytuje firma Websupport, u ktorej máme webhosting. Výhodou je, že pri zlyhaní akéhokoľvek hardvéru okrem samotného dátového úložiska sa server automatizovane presťahuje na iný počítač a funguje ďalej. Niekoľko krát nám to už pomohlo, vy ako hráči ste zaregistrovali len to, že „je to akési pomalé“. Trvalo to kým sa presunul celý obraz pamäte zo zlyhaného stroja na nový.
Začiatkom roka sme tiež presunuli obrázkový server na spoľahlivejší hosting a tak v tomto smere už nie sú problémy. Robíme denné zálohy aby sa minimalizovala strata údajov v prípade problémov, aké boli aj tento víkend.
Ukazuje sa však, že v určitých obdobiach dokážu zvyšné komponenty systému generovať veľké množstvo zlyhaní. Od začiatku apríla má prakticky každý týždeň niektorý zo serverov problém. Zakaždým je však príčina niekde inde, takže keď aj konkrétny problém odstránime, stane sa zase niečo iné.
Uvediem 2 konkrétne príklady:
14.mája. ráno z ničoho nič hrozne spomalil CZ server. Identifikovali sme nadmerné swapovanie na disk kvôli nedostatku pamäte. Keďže bolo ráno, kliky od hráčov nebolo na maximách a nebol na to dôvod. Problém bol ten, že virtuálnemu serveru sa zrazu „stratila“ polovica pamäťovej kapacity kvôli kofiguračnej chybe na strane hostingového providera. Po tomto zistení sa síce okamžite ospravedlnili a napravili to, ale dôsledkom bola asi 2 hodiny takmer nehrateľne pomalá Niborea CZ.
11.mája podvečer prestali fungovať všetky naše servery naraz. Jednoznačne bolo podozrivé dátové úložisko, ktoré je pre ne spoločné. Ukázalo sa, že jedna z flash kariet, ktoré používajú na cachovanie údajov mala technickú závadu. Dôsledkom bolo preto zvýšenie záťaže na ostatných flash kartách a strata údajov, ktoré išli cez tú pokazenú. V tomto prípade na to prišli na hosting skôr ako sme to stihli nahlásiť a odstránili problém za necelú hodinu. Strata údajov spôsobila nefunkčnosť databázy na SK serveri, ktorú sme potom obnovovali až do skorého rána.
Od minulého októbra, kedy bola predchádzajúca vlna výpadkov, sme postupne vykonali opatrenia smerujúce k zníženiu záťaže a zvýšeniu dostupnosti servera. Webhostingový provider takisto zvýšil bezpečnosť svojich služieb. Bez nich by to boli výpadky omnoho horšie, faktom však ostáva, že to stále nefunguje tak, ako by sme si predstavovali.
Technika je síce boľšoja, ale aj vrtošivaja a zlyháva rada. A to aj vo Websupporte (náš terajší provider), čo nie je nijaký najlacnejší webhosting, ani firma so zlou povesťou. Na rozdiel od iných webov, kde nejaký ten výpadok príliš nebolí, pretože klient príde o čosi neskôr, tak Niboreu bolí každý jeden, pretože vždy niekto robí nejakú úlohu, zúfalo sa snaží nakúzliť si hrdinu atď. Takže vždy je niekto nasratý. Na nás. Za približne 70% výpadkov je však zodpovedný hardware, na ktorý nemáme vplyv a musíme sa spoliehať na technikov u providera. Mimochodom zmena providera, ktorá vás iste napadne ako prvá, príliš nepomôže. Websupport je už tretí poskytovateľ serverov na ktorom Niborea beží, problémy mal a bude mať každý. Do budúcna uvažujeme o nejakom riešení, kde by bežal duplicitný záložný server a promptne prebral prácu po padnutom primárnom, ale ani to nie je dokonalé ako ukázalo zlyhanie spoločného dátového úložiska, navyše ak bude horieť providerovi barák alebo bude čeliť útoku hackerov, je vpodstate jedno, koľko nám tam horí alebo sa zavíruje serverov. Takže nejaké výpadky budú jednoducho vždy. Dúfame, že s pokrokom techniky čoraz menej.