Kun kaikki juhlivat syntymäpäivääni, minä korjasin klusteria aamuun asti - ja kehittäjät syyttivät virheistään minua

Kun kaikki juhlivat syntymäpäivääni, minä korjasin klusteria aamuun asti - ja kehittäjät syyttivät virheistään minua

Tässä on tarina, joka muutti ikuisesti lähestymistapani devops-työhön. Covidia edeltävinä aikoina, kauan, kauan ennen niitä, kun pojat ja minä suunnittelimme vain omaa yritystämme ja freelancerinamme satunnaisten tilausten perusteella, yksi tarjous putosi ostoskoriin.

Tämän kirjoittanut yritys oli data-analytiikkayritys. Hän käsitteli tuhansia pyyntöjä päivittäin. He tulivat meille sanoilla: kaverit, meillä on ClickHouse ja haluamme automatisoida sen konfiguroinnin ja asennuksen. Haluamme Ansiblen, Terraformin, Dockerin ja kaiken tallennettavan Gitiin. Haluamme neljän solmun klusterin, joissa kussakin on kaksi kopiota.

Se on vakiopyyntö, niitä on kymmeniä, ja tarvitset yhtä hyvän vakioratkaisun. Sanoimme "ok", ja 2-3 viikon kuluttua kaikki oli valmista. He hyväksyivät työn ja alkoivat siirtyä uuteen Clickhouse-klusteriin apuohjelmamme avulla.

Kukaan ei halunnut tai osannut puuhailla Clickhousen kanssa. Sitten ajattelimme, että tämä on heidän pääongelmansa, ja siksi yrityksen huoltoasema vain antoi tiimilleni luvan automatisoida työ mahdollisimman pitkälle, jotta en enää koskaan menisi sinne.

Seurasimme muuttoa, muita tehtäviä tuli - varmuuskopiointi ja valvonta. Samalla hetkellä tämän yrityksen huoltoasema sulautui toiseen projektiin, jolloin meille jäi yksi omasta - Leonid - komentajaksi. Lenya ei ollut kovin lahjakas kaveri. Yksinkertainen kehittäjä, joka yhtäkkiä otettiin vastuuseen Clickhousesta. Näyttää siltä, ​​​​että tämä oli hänen ensimmäinen tehtävänsä hallita jotain, ja ylivoimainen kunnia sai hänet tuntemaan olonsa tähdeksi.

Ryhdyimme yhdessä tekemään varmuuskopioita. Ehdotin alkuperäisten tietojen varmuuskopiointia heti. Ota se vain, sulje vetoketju ja laita se tyylikkäästi johonkin C3:een. Raakadata on kultaa. Oli toinenkin vaihtoehto - varmuuskopioida itse taulukot Clickhousessa käyttämällä jäähdytystä ja kopiointia. Mutta Lenya keksi oman ratkaisunsa.

Hän ilmoitti, että tarvitsemme toisen Clickhouse-klusterin. Ja tästä lähtien kirjoitamme tiedot kahteen klusteriin - pää- ja varaklusteriin. Sanon hänelle, Lenya, että se ei ole varmuuskopio, vaan aktiivinen kopio. Ja jos tietoja alkaa kadota tuotannossa, sama tapahtuu varmuuskopiossasi.

Mutta Lenya tarttui tiukasti ohjauspyörään ja kieltäytyi kuuntelemasta väitteitäni. Juttelimme hänen kanssaan pitkään chatissa, mutta ei ollut mitään tekemistä - Lenya vastasi projektista, olimme vain palkattuja lapsia kadulta.

Seurasimme klusterin tilaa ja laskutimme vain ylläpitäjien työstä. Puhdas Clickhouse-hallinta ilman pääsyä tietoihin. Klusteri oli saatavilla, levyt olivat kunnossa, solmut olivat kunnossa.

Emme tienneet, että saimme tämän tilauksen heidän tiiminsä sisällä tapahtuneen kauhean väärinkäsityksen vuoksi

Johtaja oli tyytymätön siihen, että Clickhouse oli hidas ja tiedot katosivat joskus. Hän asetti huoltoasemansa tehtäväksi selvittää se. Hän keksi sen parhaansa mukaan ja päätteli, että meidän piti vain automatisoida Clickhouse - siinä kaikki. Mutta kuten pian kävi selväksi, he eivät tarvinneet devoppiryhmää ollenkaan.

Kaikki tämä osoittautui erittäin, erittäin kipeäksi. Ja loukkaavin asia oli, että se oli syntymäpäivänäni.

Perjantai-ilta. Tein varauksen suosikkiviinibaarissani ja kutsuin kotivieraat.

Melkein ennen lähtöä saamme tehtävän luoda alter, teemme sen valmiiksi, kaikki on ok. Muutos ohi, clickhouse vahvistettu. Olemme jo menossa baariin, ja he kirjoittavat meille, että tietoja ei ole tarpeeksi. Laskimme, että kaikki näyttää riittävän. Ja he lähtivät juhlimaan.

Ravintola oli meluisa perjantaina. Tilattuamme juomat ja ruoat makasimme sohvilla. Koko tämän ajan löysyyteni täyttyi hitaasti viesteistä. He kirjoittivat jotain tiedon puutteesta. Ajattelin - aamu on viisaampi kuin ilta. Varsinkin tänään.

Lähempänä yhtätoista he alkoivat soittaa. Se oli yrityksen johtaja... "Luultavasti päätti onnitella minua", ajattelin hyvin epäröivästi ja otin puhelimen.

Ja kuulin jotain tällaista: "Sinä sotket tietomme! Maksan sinulle, mutta mikään ei toimi! Olit vastuussa varmuuskopioista, etkä tehnyt mitään! Korjataan!" - vain vielä töykeämpää.

- Tiedätkö mitä, mene vittuun! Tänään on syntymäpäiväni, ja nyt juon, enkä harrasta kesäkuun kotitekoisia tuotteita roskasta ja tikkuista!

Sitä en sanonut. Sen sijaan otin kannettavani esiin ja aloin töihin.

Ei, minä pommitin, pommitin kuin helvettiä! Hän kaatoi syövyttävää "Sanoin sinulle niin" chattiin - koska varmuuskopio, joka ei ollut ollenkaan varmuuskopio, ei tietenkään pelastanut mitään.

Pojat ja minä keksimme kuinka pysäyttää äänitys manuaalisesti ja tarkistaa kaikki. Varmistimme itse asiassa, että osaa tiedoista ei kirjoitettu.

Lopetimme tallennuksen ja laskimme tapahtumien määrän päivässä. He latasivat lisää tietoja, joista vain kolmasosaa ei tallennettu. Kolme sirpaletta, joissa kussakin 2 kopiota. Lisäät 100.000 33.000 riviä - XNUMX XNUMX ei tallennu.

Tuli täydellinen hämmennys. Kaikki käskivät toisiaan naida vuorotellen: Lenya meni ensin, sitten minä ja yrityksen perustaja. Vain huoltoasema, joka liittyi, yritti ohjata huutopuhelumme ja kirjeenvaihtomme ongelmaan ratkaisun löytämiseksi.

Kukaan ei ymmärtänyt mitä todella tapahtui

Kaverit ja minä olimme yksinkertaisesti hämmästyneitä, kun tajusimme, että kolmasosa kaikista tiedoista ei vain ollut tallennettu, vaan se katosi! Kävi ilmi, että järjestys yrityksessä oli seuraava: lisäämisen jälkeen tiedot poistettiin peruuttamattomasti, tapahtumat menivät hukkaan erissä. Kuvittelin, kuinka Sergei muuttaisi kaiken tämän kadonneiksi rupliksi.

Myös syntymäpäiväni heitettiin roskakoriin. Istuimme baarissa ja loimme ideoita yrittäen ratkaista meille heitetyn palapelin. Syy Clickhousen kaatumiseen ei ollut ilmeinen. Ehkä se johtuu verkosta, ehkä Linuxin asetuksista. Kyllä, mitä haluat, hypoteeseja on ollut tarpeeksi.

En vannonut kehittäjän valaa, mutta oli epärehellistä hylätä tyypit linjan toisessa päässä - vaikka he syyttivät meitä kaikesta. Olin 99 % varma, että ongelma ei ollut meidän päätöksissämme, ei meidän puolellamme. 1 %:n mahdollisuus, että olimme pilalla, poltti ahdistusta. Mutta olipa ongelma kummalla puolella tahansa, se oli korjattava. On liian julmaa jättää asiakkaat, olivatpa he keitä tahansa, tällaisen kauhean tietovuodon kanssa.

Työskentelimme ravintolan pöydässä kolmeen aamulla. Lisäsimme tapahtumia, lisäsimme Select ja lähdimme täyttämään aukkoja. Kun sotket tiedot, teet sen näin: otat edellisten päivien keskimääräiset tiedot ja lisäät ne sotkeisiin.

Kolmen jälkeen aamulla menimme ystäväni kanssa kotiini ja tilasimme oluen alkoholitorilta. Istuin kannettavan tietokoneen ja Clickhouse-ongelmien kanssa, ystäväni kertoi minulle jotain. Tämän seurauksena tunnin kuluttua hän loukkaantui siitä, että olin töissä enkä juonut olutta hänen kanssaan, ja lähti. Classic - Olin Devopsin ystävä.

Klo 6 mennessä loin taulukon uudelleen, ja tietoja alkoi tulvii. Kaikki toimi ilman tappioita.

Sitten oli vaikeaa. Kaikki syyttivät toisiaan tietojen katoamisesta. Jos uusi bugi olisi tapahtunut, olisin varma, että ammuskelu olisi tapahtunut

Näissä taisteluissa aloimme vihdoin ymmärtää - yritys luuli, että olimme tyyppejä, jotka työskentelevät tietojen kanssa ja valvovat taulukoiden rakennetta. He sekoittivat järjestelmänvalvojat jälleenmyyjiin. Ja he tulivat kysymään meiltä jotain muuta kuin ylläpitäjiltä.

Heidän päävalituksensa on - mitä helvettiä, olit vastuussa varmuuskopioista etkä tehnyt niitä kunnolla, jatkoit tietojen tuhlaamista. Ja kaikki tämä kelausmatoilla.

Halusin oikeutta. Kaivoin jokaisen kirjeenvaihdon ja liitin siihen kuvakaappauksia, joissa Leonid kaikin voimin pakottaa heidät tekemään tehdyn varmuuskopion. Heidän huoltoasemansa otti puolellamme puheluni jälkeen. Myöhemmin Lenya myönsi syyllisyytensä.

Yrityksen johtaja päinvastoin ei halunnut syyttää omia ihmisiä. Kuvakaappaukset ja sanat eivät vaikuttaneet häneen. Hän uskoi, että koska olimme täällä asiantuntijoita, meidän oli vakuutettava kaikki ja vaadittava päätöksemme. Ilmeisesti meidän tehtävämme oli opettaa Lenya ja lisäksi ohittaa hänet, joka nimitettiin projektipäälliköksi, pääsemään pääasiaan ja vuodattamaan hänelle henkilökohtaisesti kaikki epäilyksemme varmuuskopioiden käsitteestä.

Chat tihkui vihaa, piilotettua ja piilotettua aggressiota. En tiennyt mitä tehdä. Kaikki on pysähtynyt. Ja sitten he neuvoivat minua helpointa tapaa - kirjoittaa henkilökohtainen viesti johtajalle ja järjestää tapaaminen hänen kanssaan. Vasya, ihmiset tosielämässä eivät ole niin nopeita kuin chatissa. Pomo vastasi viestiini: tule, ei kysymystä.

Se oli urani pelottavin tapaaminen. Asiakkaani - STO - liittolaiseni ei löytänyt aikaa. Menin tapaamiseen pomon ja Lenan kanssa.

Toistan yhä uudelleen mahdollista dialogia päässäni. Saavuin hyvin aikaisin, puoli tuntia etukäteen. Aloin hermostua, poltin 10 tupakkaa. Ymmärsin, siinä se - olen vitun yksin. En pysty vakuuttamaan heitä. Ja hän astui hissiin.

Kun hän nousi ylös, hän löi sytyttimeen niin lujaa, että rikkoi sen.

Tämän seurauksena Lenya ei ollut kokouksessa. Ja meillä oli loistava keskustelu kaikesta pomon kanssa! Sergei kertoi minulle tuskastaan. Hän ei halunnut "automatisoida Clickhousea" - hän halusi "saa kyselyt toimimaan".

En nähnyt vuohia, mutta hyvä kaveri, joka oli huolissaan töistään 24/7. Chat houkuttelee meihin usein roistoja, roistoja ja tyhmiä ihmisiä. Mutta elämässä nämä ovat samanlaisia ​​ihmisiä kuin sinä.

Sergei ei tarvinnut paria devoppia vuokralle. Niiden ongelma osoittautui paljon suuremmiksi.

Sanoin, että voisin ratkaista hänen ongelmansa - se on vain täysin erilainen työ, ja minulla on ystävä, joka työskentelee sen eteen. Jos olisimme tienneet alusta asti, että tämä oli heille sopimus, olisimme välttäneet paljon. On myöhäistä, mutta tajusimme, että ongelma piilee huonossa tiedonhallinnassa, ei infrastruktuurissa.

Kätelimme, he korottivat palkkaamme kaksi ja puoli kertaa, mutta sillä ehdolla, että otan ehdottomasti koko sotkun heidän tietojensa ja Clickhousen kanssa itselleni. Hississä kommunikoin saman DI-miehen Maxin kanssa ja liitin hänet töihin. Oli tarpeen lapioida koko klusteri.

Hyväksytyssä hankkeessa oli paljon roskaa. Alkaen mainitusta "varmuuskopiosta". Kävi ilmi, että tätä samaa "varmuuskopio"-klusteria ei eristetty. He testasivat kaikkea siinä, joskus jopa laittoivat sen tuotantoon.

Omat kehittäjämme ovat luoneet oman mukautetun tiedonsyöttölaitteen. Hän työskenteli näin: hän ryhmitti tiedostot, suoritti skriptin ja yhdisti tiedot taulukkoon. Mutta suurin ongelma oli, että yhtä yksinkertaista pyyntöä varten hyväksyttiin valtava määrä dataa. Pyyntö liitettiin tiedot joka sekunti. Kaikki yhden numeron vuoksi - määrä päivässä.

Omat kehittäjät käyttivät analytiikkatyökalua väärin. He menivät grafanaan ja kirjoittivat kuninkaallisen pyyntönsä. Hän latasi tietoja 2 viikon ajan. Siitä tuli kaunis kaavio. Mutta todellisuudessa tietopyyntö oli 10 sekunnin välein. Kaikki tämä kasautui jonoon, koska Clickhouse ei yksinkertaisesti poistanut käsittelyä. Tässä piilotettiin tärkein syy. Mikään ei toiminut Grafanassa, pyynnöt seisoivat jonossa ja vanhaa, merkityksetöntä dataa saapui jatkuvasti.

Määritimme klusterin uudelleen, teimme lisäyksen uudelleen. Omat kehittäjät kirjoittivat "inserterinsä" uudelleen, ja se alkoi jakaa tietoja oikein.

Max suoritti täyden infrastruktuuritarkastuksen. Hän hahmotteli suunnitelman siirtymisestä täysimittaiseen taustajärjestelmään. Mutta tämä ei sopinut yritykselle. He odottivat Maxilta maagisen salaisuuden, joka antaisi heidän työskennellä vanhanaikaisesti, mutta vain tehokkaasti. Lenya oli edelleen vastuussa projektista, eikä hän oppinut mitään. Kaikesta tarjotusta hän valitsi jälleen vaihtoehdon. Kuten aina, tämä oli valikoivin... rohkea päätös. Lenya uskoi, että hänen yrityksellään oli erityinen polku. Piikkinen ja täynnä jäävuoria.

Itse asiassa erosimme siellä – teimme mitä pystyimme.

Täynnä tietoa ja viisautta tästä historiasta, avasimme oman yrityksen ja loimme itsellemme useita periaatteita. Emme koskaan aloita työtä samalla tavalla kuin silloin.

DJ Max liittyi meihin tämän projektin jälkeen, ja työskentelemme edelleen hyvin yhdessä. Clickhousen tapaus opetti minulle, kuinka tehdä täydellinen ja perusteellinen infrastruktuurin tarkastus ennen työn aloittamista. Ymmärrämme kuinka kaikki toimii ja vasta sitten hyväksymme tehtävät. Ja jos aiemmin kiirehdimme välittömästi ylläpitämään infrastruktuuria, niin nyt teemme ensin kertaluonteisen projektin, joka auttaa ymmärtämään, miten se saatetaan toimintakuntoon.

Ja kyllä, vältämme projekteja, joissa on huono infrastruktuuri. Vaikka suurella rahalla, vaikka ystävyydestä. Sairaiden projektien toteuttaminen on kannattamatonta. Tämän ymmärtäminen auttoi meitä kasvamaan. Joko kertaluonteinen infrastruktuurin kuntoon saaminen ja sitten huoltosopimus, tai sitten lennämme ohi. Toisen jäävuoren ohi.

PS Joten jos sinulla on kysyttävää infrastruktuuristasi, Voit vapaasti lähettää pyynnön.

Meillä on 2 ilmaista auditointia kuukaudessa, ehkä projektisi on yksi niistä.

Lähde: will.com

Lisää kommentti