Tra roedd pawb yn dathlu fy mhenblwydd, roeddwn yn trwsio’r clwstwr tan y bore – a’r datblygwyr yn beio eu camgymeriadau arnaf

Tra roedd pawb yn dathlu fy mhenblwydd, roeddwn yn trwsio’r clwstwr tan y bore – a’r datblygwyr yn beio eu camgymeriadau arnaf

Dyma stori a newidiodd fy agwedd at waith devops am byth. Yn ôl yn y cyfnod cyn-Covid, ymhell, ymhell o'u blaenau, pan oedd y dynion a minnau'n cynllunio ein busnes ein hunain ac yn gweithio'n llawrydd ar hap-archebion, syrthiodd un cynnig i'm cart.

Roedd y cwmni a ysgrifennodd hwn yn gwmni dadansoddi data. Roedd hi'n prosesu miloedd o geisiadau bob dydd. Daethant atom gyda'r geiriau: guys, mae gennym ClickHouse ac rydym am awtomeiddio ei ffurfweddiad a'i osod. Rydyn ni eisiau Ansible, Terraform, Docker ac i'r cyfan gael ei storio yn Git. Rydyn ni eisiau clwstwr o bedwar nod gyda dau atgynhyrchiad yr un.

Mae'n gais safonol, mae yna ddwsinau ohonyn nhw, ac mae angen datrysiad safonol yr un mor dda arnoch chi. Fe ddywedon ni “iawn”, ac ar ôl 2-3 wythnos roedd popeth yn barod. Fe wnaethon nhw dderbyn y swydd a dechrau symud i glwstwr Clickhouse newydd gan ddefnyddio ein cyfleustodau.

Doedd neb eisiau nac yn gwybod sut i tincian gyda Clickhouse. Yna roeddem yn meddwl mai dyma oedd eu prif broblem, ac felly rhoddodd gorsaf wasanaeth y cwmni ganiatâd i fy nhîm i awtomeiddio’r gwaith cymaint â phosibl, er mwyn peidio â mynd yno fy hun byth eto.

Aethom gyda'r symud, cododd tasgau eraill - sefydlu copïau wrth gefn a monitro. Ar yr un pryd, unodd gorsaf wasanaeth y cwmni hwn â phrosiect arall, gan adael un o'n rhai ni - Leonid - fel cadlywydd. Nid oedd Lenya yn foi dawnus iawn. Datblygwr syml a gafodd ei roi yng ngofal Clickhouse yn sydyn. Mae'n ymddangos mai hwn oedd ei aseiniad cyntaf i reoli rhywbeth, a gwnaeth yr anrhydedd llethol iddo deimlo'n seren.

Gyda'n gilydd aethom ati i wneud copïau wrth gefn. Fe wnes i awgrymu gwneud copi wrth gefn o'r data gwreiddiol ar unwaith. Cymerwch ef, sipiwch ef a'i daflu'n gain i ryw c3. Aur yw data crai. Roedd opsiwn arall - gwneud copi wrth gefn o'r byrddau eu hunain yn Clickhouse, gan ddefnyddio rhewi a chopïo. Ond lluniodd Lenya ei datrysiad ei hun.

Cyhoeddodd fod angen ail glwstwr Clickhouse arnom. Ac o hyn ymlaen byddwn yn ysgrifennu data i ddau glwstwr - y prif a'r copi wrth gefn. Rwy'n dweud wrtho, Lenya, nid copi wrth gefn fydd hwn, ond copi gweithredol. Ac os bydd data'n dechrau cael ei golli wrth gynhyrchu, bydd yr un peth yn digwydd ar eich copi wrth gefn.

Ond gafaelodd Lenya yn dynn yn y llyw a gwrthod gwrando ar fy nadleuon. Buom yn sgwrsio ag ef am amser hir yn y sgwrs, ond nid oedd dim i'w wneud - Lenya oedd yn gyfrifol am y prosiect, roeddem yn cyflogi plant o'r stryd yn unig.

Fe wnaethom fonitro cyflwr y clwstwr a chodi tâl am waith gweinyddwyr yn unig. Gweinyddiaeth Pur Clickhouse heb fynd i mewn i'r data. Roedd y clwstwr ar gael, roedd y disgiau'n iawn, roedd y nodau'n iawn.

Ychydig a wyddwn i ni dderbyn yr archeb hon oherwydd camddealltwriaeth ofnadwy o fewn eu tîm

Roedd y rheolwr yn anhapus bod Clickhouse yn araf a bod data'n cael ei golli weithiau. Gosododd ei orsaf wasanaeth y dasg o'i ddarganfod. Fe wnaeth y peth gorau y gallai a daeth i'r casgliad mai'r cyfan oedd angen i ni ei wneud oedd awtomeiddio'r Clickhouse - dyna i gyd. Ond fel y daeth yn amlwg yn fuan, nid oedd angen tîm o ddevops arnynt o gwbl.

Trodd hyn i gyd allan yn boenus iawn, iawn. A'r peth mwyaf sarhaus oedd ei fod ar fy mhen-blwydd.

nos Wener. Fe wnes i archeb yn fy hoff bar gwin a gwahodd yr homies.

Bron cyn gadael, rydym yn derbyn tasg i greu alter, rydym yn ei gwblhau, mae popeth yn iawn. Newid wedi'i basio, clickhouse wedi'i gadarnhau. Rydym eisoes yn mynd at y bar, ac maent yn ysgrifennu atom nad oes digon o ddata. Fe wnaethom gyfrifo ei bod yn ymddangos bod popeth yn ddigon. A dyma nhw'n gadael i ddathlu.

Roedd y bwyty yn swnllyd ar ddydd Gwener. Ar ôl archebu diodydd a bwyd, fe wnaethon ni lolfa ar y soffas. Yr holl amser hwn, roedd fy slac yn gorlifo'n araf â negeseuon. Fe wnaethon nhw ysgrifennu rhywbeth am ddiffyg data. Roeddwn i'n meddwl - mae'r bore yn ddoethach na'r hwyr. Yn enwedig heddiw.

Yn nes at un ar ddeg dechreuon nhw ffonio. Pennaeth y cwmni oedd e... “Mae'n debyg y penderfynais fy llongyfarch,” meddyliais yn betrusgar iawn, a chodais y ffôn.

A chlywais rywbeth fel: “Fe wnaethoch chi sgriwio ein data! Rwy'n talu i chi, ond does dim byd yn gweithio! Chi oedd yn gyfrifol am gopïau wrth gefn, ac ni wnaethoch unrhyw beth damn! Gadewch i ni ei drwsio!" - dim ond hyd yn oed anfoesgar.

- Rydych yn gwybod beth, cael y fuck allan! Heddiw yw fy mhen-blwydd, a nawr byddaf yn yfed, ac nid yn cymryd rhan yn eich cynhyrchion cartref Mehefin o crap a ffyn!

Dyna beth na ddywedais i. Yn lle hynny, cymerais fy ngliniadur allan a chyrraedd y gwaith.

Na, mi fomiodd, mi fomiodd fel uffern! Arllwysodd caustig “Dywedais wrthych felly” i'r sgwrs - oherwydd nid oedd y copi wrth gefn, nad oedd yn gefn o gwbl, - wrth gwrs, yn arbed dim.

Fe wnaeth y bechgyn a minnau ddarganfod sut i atal y recordiad â llaw a gwirio popeth. Gwnaethom yn siŵr mewn gwirionedd nad oedd rhywfaint o'r data wedi'i ysgrifennu.

Rhoesom y gorau i recordio a chyfrif nifer y digwyddiadau a oedd yno bob dydd. Fe wnaethon nhw uwchlwytho mwy o ddata, a dim ond traean ohono oedd heb ei gofnodi. Tri darn gyda 2 atgynhyrchiad yr un. Rydych chi'n mewnosod 100.000 o resi - mae 33.000 heb eu cofnodi.

Roedd dryswch llwyr. Dywedodd pawb wrth ei gilydd i ffwcio i ffwrdd yn eu tro: Lenya aeth yno yn gyntaf, ac yna fy hun a sylfaenydd y cwmni. Dim ond yr orsaf wasanaeth a ymunodd a geisiodd ddargyfeirio ein galwadau gweiddi a gohebiaeth tuag at ddod o hyd i ateb i'r broblem.

Doedd neb yn deall beth oedd yn digwydd mewn gwirionedd

Roedd y guys a minnau yn chwythu i ffwrdd yn syml pan sylweddolom fod traean o'r holl ddata nid yn unig yn cael ei gofnodi, ei fod yn colli! Mae'n troi allan bod y gorchymyn yn y cwmni fel a ganlyn: ar ôl mewnosod, y data ei ddileu yn ddi-alw'n ôl, y digwyddiadau yn cael eu gwastraffu mewn sypiau. Dychmygais sut y byddai Sergei yn trosi hyn i gyd yn rubles coll.

Cafodd fy mhen-blwydd ei daflu i'r sbwriel hefyd. Eisteddom wrth y bar a chynhyrchwyd syniadau, gan geisio datrys y pos a oedd wedi'i daflu atom. Nid oedd y rheswm dros gwymp Clickhouse yn amlwg. Efallai mai'r rhwydwaith ydyw, efallai mai'r gosodiadau Linux ydyw. Oes, beth bynnag a fynnoch, bu digon o ddamcaniaethau.

Wnes i ddim cymryd llw y datblygwr, ond roedd yn anonest cefnu ar y bois ar ben arall y llinell - hyd yn oed os ydyn nhw'n ein beio ni am bopeth. Roeddwn i 99% yn siŵr nad oedd y broblem yn gorwedd yn ein penderfyniadau ni, nid ar ein hochr ni. Roedd y siawns o 1% yr oeddem wedi'i chwalu yn llosgi â phryder. Ond ni waeth ar ba ochr yr oedd yr helynt, roedd yn rhaid ei drwsio. Mae gadael cwsmeriaid, ni waeth pwy ydyn nhw, gyda gollyngiad data mor ofnadwy yn rhy greulon.

Buom yn gweithio wrth fwrdd y bwyty tan dri y bore. Fe wnaethom ychwanegu digwyddiadau, mewnosod dewis, ac i ffwrdd aethom i lenwi'r bylchau. Pan fyddwch chi'n sgriwio'r data, dyma sut rydych chi'n ei wneud: rydych chi'n cymryd y data cyfartalog ar gyfer y dyddiau blaenorol ac yn eu mewnosod yn y rhai sydd wedi'u sgriwio.

Ar ôl tri y bore, aeth fy ffrind a minnau i fy nhŷ ac archebu cwrw o'r farchnad alcohol. Roeddwn i'n eistedd gyda gliniadur a phroblemau Clickhouse, roedd ffrind yn dweud rhywbeth wrthyf. O ganlyniad, ar ôl awr roedd yn tramgwyddo fy mod yn gweithio ac nid yn yfed cwrw gydag ef, a gadawodd. Clasur - roeddwn i'n ffrind i Devops.

Erbyn 6 am, ail-greais y bwrdd eto, a dechreuodd y data orlifo. Gweithiodd popeth heb unrhyw golledion.

Yna roedd yn anodd. Roedd pawb yn beio ei gilydd am golli data. Pe bai byg newydd wedi digwydd, rwy'n siŵr y byddai saethu allan

Yn yr ymladd hwn, dechreuon ni ddeall o'r diwedd - roedd y cwmni'n meddwl mai ni oedd y dynion sy'n gweithio gyda data ac yn monitro strwythur y tablau. Roeddent yn drysu gweinyddwyr gyda delwyr. A daethant i ofyn rhywbeth gwahanol i ni gan y gweinyddwyr.

Eu prif gŵyn yw - beth oedd y uffern, chi oedd yn gyfrifol am y copïau wrth gefn a heb eu gwneud yn iawn, fe wnaethoch chi barhau i wastraffu'r data. A hyn i gyd gyda matiau ailweindio.

Roeddwn i eisiau cyfiawnder. Cloddiais yr ohebiaeth a'r sgrinluniau atodedig o bawb, lle mae Leonid â'i holl allu yn eu gorfodi i wneud y copi wrth gefn a wnaethpwyd. Cymerodd eu gorsaf wasanaeth ein hochr ni ar ôl fy ngalwad ffôn. Yn ddiweddarach cyfaddefodd Lenya ei euogrwydd.

I'r gwrthwyneb, nid oedd pennaeth y cwmni am feio ei bobl ei hun. Ni chafodd sgrinluniau a geiriau unrhyw effaith arno. Credai, gan ein bod yn arbenigwyr yma, fod yn rhaid inni argyhoeddi pawb a mynnu ein penderfyniad. Yn ôl pob tebyg, ein tasg oedd dysgu Lenya ac, ar ben hynny, osgoi iddo, a benodwyd yn rheolwr prosiect, i gyrraedd y prif beth ac yn bersonol arllwys ein holl amheuon am y cysyniad o gopïau wrth gefn iddo.

Roedd y sgwrs yn gyforiog o gasineb, ymddygiad ymosodol cudd a heb ei guddio. Doeddwn i ddim yn gwybod beth i'w wneud. Mae popeth wedi dod i stop. Ac yna fe wnaethon nhw fy nghynghori ar y ffordd hawsaf - ysgrifennu neges bersonol at y rheolwr a threfnu cyfarfod ag ef. Vasya, nid yw pobl mewn bywyd go iawn mor gyflym ag y maent wrth sgwrsio. Atebodd y bos fy neges: dewch, dim cwestiwn.

Hwn oedd y cyfarfod mwyaf brawychus yn fy ngyrfa. Ni allai fy nghynghreiriad o'r cleient - STO - ddod o hyd i'r amser. Es i i'r cyfarfod gyda'r bos a Lena.

Dro ar ôl tro fe wnes i ailchwarae ein deialog bosibl yn fy mhen. Llwyddais i gyrraedd yn gynnar iawn, hanner awr ymlaen llaw. Dechreuais i fynd yn nerfus, nes i ysmygu 10 sigarét.Roeddwn i'n deall, dyna ni - dwi'n ffycin unig. Ni fyddaf yn gallu eu hargyhoeddi. Ac efe a gamodd i mewn i'r elevator.

Tra yr oedd yn codi, tarawodd y taniwr mor galed fel y torrodd.

O ganlyniad, nid oedd Lenya yn y cyfarfod. A chawsom sgwrs wych am bopeth gyda'r bos! Dywedodd Sergei wrthyf am ei boen. Nid oedd eisiau "awtomataidd Clickhouse" - roedd eisiau "gwneud i ymholiadau weithio."

Ni welais gafr, ond dyn da, yn poeni am ei fusnes, wedi ymgolli mewn gwaith 24/7. Mae sgwrsio'n aml yn denu dihirod, twyllwyr a phobl dwp. Ond mewn bywyd mae'r rhain yn bobl yn union fel chi.

Nid oedd angen ychydig o ddefops ar Sergei i'w llogi. Roedd y broblem y maent wedi troi allan i fod yn llawer mwy.

Dywedais y gallwn i ddatrys ei broblemau - dim ond swydd hollol wahanol ydyw, ac mae gen i ffrind sy'n gweithio iddi. Pe byddem wedi gwybod o'r dechrau mai bargen iddynt hwy oedd hon, byddem wedi osgoi llawer. Mae'n hwyr, ond sylweddolom mai rheoli data crappy oedd y broblem, nid yn y seilwaith.

Fe wnaethon ni ysgwyd llaw, fe wnaethon nhw godi ein cyflog ddwywaith a hanner, ond ar yr amod fy mod yn cymryd y llanast llwyr gyda'u data a Clickhouse i mi fy hun. Yn yr elevator, fe wnes i gyfathrebu â'r un dyn DI Max hwnnw a'i gysylltu â'r gwaith. Roedd angen rhawio'r clwstwr cyfan.

Roedd llawer o sbwriel yn y prosiect a fabwysiadwyd. Gan ddechrau gyda'r "wrth gefn" a grybwyllwyd. Daeth i'r amlwg nad oedd yr un clwstwr “wrth gefn” hwn yn ynysig. Fe wnaethon nhw brofi popeth arno, weithiau hyd yn oed ei roi i mewn i gynhyrchu.

Mae ein datblygwyr mewnol wedi creu eu mewnosodwr data personol eu hunain. Gweithiodd fel hyn: bu'n sypynnu'r ffeiliau, yn rhedeg y sgript ac yn cyfuno'r data i mewn i dabl. Ond y brif broblem oedd bod swm enfawr o ddata wedi'i dderbyn ar gyfer un cais syml. Roedd y cais yn ymuno â'r data bob eiliad. Y cyfan er mwyn un rhif - y swm y dydd.

Defnyddiodd datblygwyr mewnol yr offeryn dadansoddi yn anghywir. Aethant at y grafana ac ysgrifennu eu cais brenhinol. Fe uwchlwythodd ddata am 2 wythnos. Trodd allan i fod yn graff hardd. Ond mewn gwirionedd, roedd y cais am ddata bob 10 eiliad. Roedd hyn i gyd yn pentyrru mewn ciw oherwydd yn syml, ni chymerodd Clickhouse y prosesu. Dyma lle cuddiwyd y prif reswm. Nid oedd dim yn gweithio yn Grafana, roedd ceisiadau yn sefyll mewn ciw, ac roedd hen ddata amherthnasol yn cyrraedd yn gyson.

Fe wnaethom ail-ffurfweddu'r clwstwr, ail-wneud y mewnosodiad. Ailysgrifennodd y datblygwyr mewnol eu “mewnosodwr”, a dechreuodd rannu data yn gywir.

Cynhaliodd Max archwiliad seilwaith llawn. Amlinellodd gynllun ar gyfer trosglwyddo i gefndir cyflawn. Ond nid oedd hyn yn gweddu i'r cwmni. Roeddent yn disgwyl cyfrinach hudol gan Max a fyddai'n caniatáu iddynt weithio'r ffordd hen ffasiwn, ond dim ond yn effeithlon. Roedd Lenya yn dal i fod yn gyfrifol am y prosiect, ac ni ddysgodd unrhyw beth. O'r hyn oll a gynnygiwyd, efe a ddewisodd drachefn ei amgen. Fel bob amser, hwn oedd y penderfyniad mwyaf dethol... beiddgar. Credai Lenya fod gan ei gwmni lwybr arbennig. Yn bigog ac yn llawn mynyddoedd iâ.

A dweud y gwir, dyna lle wnaethon ni wahanu - fe wnaethon ni beth allwn ni.

Yn llawn gwybodaeth a doethineb o'r hanes hwn, fe wnaethom agor ein busnes ein hunain a ffurfio sawl egwyddor i ni ein hunain. Ni fyddwn byth yn dechrau gweithio yr un ffordd yn awr ag y gwnaethom bryd hynny.

Ymunodd DJ Max â ni ar ôl y prosiect hwn, ac rydym yn dal i weithio'n wych gyda'n gilydd. Dysgodd achos Clickhouse i mi sut i gynnal archwiliad seilwaith cyflawn a thrylwyr cyn dechrau ar y gwaith. Rydym yn deall sut mae popeth yn gweithio a dim ond wedyn yn derbyn y tasgau. Ac os yn gynharach y byddem yn rhuthro ar unwaith i gynnal y seilwaith, nawr rydym yn gwneud prosiect un-amser yn gyntaf, sy'n ein helpu i ddeall sut i ddod ag ef i gyflwr gweithio.

Ac ie, rydym yn osgoi prosiectau gyda seilwaith crappy. Hyd yn oed os am lawer o arian, hyd yn oed os allan o gyfeillgarwch. Mae rhedeg prosiectau salwch yn amhroffidiol. Roedd sylweddoli hyn wedi ein helpu i dyfu. Naill ai prosiect un-amser i gael trefn ar y seilwaith ac yna contract cynnal a chadw, neu rydym yn hedfan heibio. Heibio mynydd iâ arall.

PS Felly os oes gennych gwestiynau am eich seilwaith, croeso i chi adael cais.

Mae gennym 2 archwiliad rhad ac am ddim y mis, efallai y bydd eich prosiect yn un ohonynt.

Ffynhonnell: hab.com

Ychwanegu sylw