4 peiriannydd, 7000 o weinyddion ac un pandemig byd-eang

Hei Habr! Cyflwynaf i'ch sylw gyfieithiad yr erthygl "4 Peiriannydd, 7000 o weinyddion, Ac Un Pandemig Byd-eang" gan Adib Daw.

Os nad yw'r pennawd hwnnw'n anfon cryndod bach i lawr eich asgwrn cefn, dylech fynd i'r paragraff nesaf neu ymweld â'n tudalen sy'n ymroddedig i gyrfa yn y cwmni - hoffem siarad.

Pwy ydym ni

Tîm o bedwar pengwin ydyn ni sy'n dwlu ar godio a gweithio gyda chaledwedd. Yn ein hamser hamdden, rydyn ni'n gyfrifol am leoli, cynnal a gweithredu fflyd o dros 7000 o weinyddion ffisegol. Linux, wedi'i ddosbarthu ar draws 3 chanolfan ddata wahanol ar draws yr Unol Daleithiau.

Cawsom hefyd y cyfle i wneud hyn 10 km i ffwrdd o safleoedd, o gysur ein swyddfa ein hunain, sydd wedi'i lleoli ychydig mewn car o'r traeth ar y Môr Canoldir.

Problemau maint

Er ei bod yn gwneud synnwyr i gwmni cychwynnol ddechrau trwy gynnal ei seilwaith yn y cwmwl oherwydd y buddsoddiad cychwynnol cymharol isel, fe benderfynon ni yn Outbrain ddefnyddio ein gweinyddwyr ein hunain. Gwnaethom hyn oherwydd bod costau seilwaith cwmwl yn llawer uwch na chostau gweithredu ein hoffer ein hunain a leolir mewn canolfannau data ar ôl datblygu i lefel benodol. Yn ogystal, mae eich gweinydd yn darparu'r lefel uchaf o alluoedd rheoli a datrys problemau.

Wrth i ni ddatblygu, mae problemau bob amser gerllaw. Ar ben hynny, maent fel arfer yn dod mewn grwpiau. Mae rheoli cylch bywyd gweinydd yn gofyn am hunan-wella cyson er mwyn gallu gweithredu'n iawn yng nghyd-destun y cynnydd cyflym yn nifer y gweinyddwyr. Mae dulliau meddalwedd ar gyfer rheoli grwpiau gweinyddwyr mewn canolfannau data yn dod yn anhylaw yn gyflym. Mae canfod, datrys problemau, a lliniaru methiannau wrth fodloni safonau QoS yn dod yn fater o jyglo amrywiaeth eang iawn o galedwedd, llwythi gwaith amrywiol, amseroedd uwchraddio, a phethau braf eraill nad oes neb eisiau poeni amdanynt.

Meistrolwch eich Parthau

Er mwyn datrys llawer o'r problemau hyn, gwnaethom dorri cylch bywyd y gweinydd yn Outbrain i'w brif gydrannau a'u galw'n barthau. Er enghraifft, mae un parth yn cwmpasu gofynion offer, mae un arall yn ymdrin â logisteg sy'n gysylltiedig â chylch bywyd y rhestr, ac mae trydydd yn ymdrin â chyfathrebu â phersonél maes. Mae un arall yn ymwneud ag arsylwi caledwedd, ond ni fyddwn yn disgrifio'r holl bwyntiau. Ein nod oedd astudio a diffinio parthau fel y gellid eu tynnu gan ddefnyddio cod. Unwaith y bydd tyniad gweithredol yn cael ei ddatblygu, caiff ei drosglwyddo i broses â llaw sy'n cael ei ddefnyddio, ei brofi a'i fireinio. Yn olaf, mae'r parth wedi'i ffurfweddu i integreiddio â pharthau eraill trwy APIs, gan ffurfio system cylch bywyd caledwedd cyfannol, deinamig sy'n esblygu'n barhaus y gellir ei defnyddio, ei phrofi, ac y gellir ei gweld. Yn union fel ein holl systemau cynhyrchu eraill.

Roedd mabwysiadu'r dull hwn yn ein galluogi i ddatrys llawer o broblemau'n gywir - trwy greu offer ac awtomeiddio.

Angen Parth

Er bod e-bost a thaenlenni yn ffordd ymarferol o ateb y galw yn y dyddiau cynnar, nid oedd yn ateb llwyddiannus, yn enwedig pan gyrhaeddodd nifer y gweinyddwyr a nifer y ceisiadau a ddaeth i mewn lefel benodol. Er mwyn trefnu a blaenoriaethu ceisiadau a oedd yn dod i mewn yn well yn wyneb ehangu cyflym, roedd yn rhaid i ni ddefnyddio system docynnau a allai gynnig:

  • Y gallu i addasu golygfa o feysydd perthnasol yn unig (syml)
  • Agor APIs (estynadwy)
  • Yn hysbys i'n tîm (deallwyd)
  • Integreiddio â'n llifoedd gwaith presennol (unedig)

Gan ein bod yn defnyddio Jira i reoli ein sbrintiau a thasgau mewnol, fe wnaethom benderfynu creu prosiect arall a fyddai'n helpu ein cleientiaid i gyflwyno tocynnau ac olrhain eu canlyniadau. Roedd defnyddio Jira ar gyfer ceisiadau a ddaeth i mewn ac ar gyfer rheoli tasgau mewnol yn ein galluogi i greu un bwrdd Kanban a oedd yn caniatáu inni edrych ar yr holl brosesau yn eu cyfanrwydd. Dim ond ceisiadau am offer a welodd ein “cleientiaid” mewnol, heb ymchwilio i fanylion llai arwyddocaol tasgau ychwanegol (fel gwella offer, trwsio bygiau).

4 peiriannydd, 7000 o weinyddion ac un pandemig byd-eang
Bwrdd Kanban yn Jira

Fel bonws, roedd y ffaith bod ciwiau a blaenoriaethau bellach yn weladwy i bawb yn ei gwneud hi’n bosibl deall “ble yn y ciw” oedd cais penodol a beth oedd yn ei ragflaenu. Roedd hyn yn galluogi perchnogion i ailflaenoriaethu eu ceisiadau eu hunain heb orfod cysylltu â ni. Llusgwch e a dyna ni. Roedd hefyd yn caniatáu inni fonitro a gwerthuso ein CLGau yn ôl mathau o geisiadau yn seiliedig ar y metrigau a gynhyrchwyd yn Jira.

Parth Cylch Bywyd Offer

Ceisiwch ddychmygu cymhlethdod rheoli'r caledwedd a ddefnyddir ym mhob rac gweinydd. Yr hyn sydd hyd yn oed yn waeth yw y gellir symud llawer o ddarnau o galedwedd (RAM, ROM) o'r warws i'r ystafell weinydd ac yn ôl. Maent hefyd yn methu neu'n cael eu dileu a'u disodli a'u dychwelyd i'r cyflenwr i'w hadnewyddu/atgyweirio. Rhaid cyfathrebu hyn i gyd i weithwyr y gwasanaeth cydleoli sy'n ymwneud â chynnal a chadw ffisegol yr offer. I ddatrys y problemau hyn, rydym wedi creu teclyn mewnol o'r enw Floppy. Ei dasg yw:

  • Rheoli cyfathrebiadau â phersonél maes, gan agregu'r holl wybodaeth;
  • Diweddaru'r data “warws” ar ôl pob gwaith cynnal a chadw offer wedi'i gwblhau a'i ddilysu.

Mae'r warws, yn ei dro, yn cael ei ddelweddu gan ddefnyddio Grafana, a ddefnyddiwn i blotio ein holl fetrigau. Felly, rydym yn defnyddio'r un offeryn ar gyfer delweddu warws ac ar gyfer anghenion cynhyrchu eraill.

4 peiriannydd, 7000 o weinyddion ac un pandemig byd-eangPanel rheoli offer warws yn Grafana

Ar gyfer dyfeisiau gweinydd sydd o dan warant, rydyn ni'n defnyddio offeryn arall rydyn ni'n ei alw'n Dispatcher. Ef:

  • Yn casglu logiau system;
  • Cynhyrchu adroddiadau yn y fformat sy'n ofynnol gan y gwerthwr;
  • Yn creu cais gan y gwerthwr trwy API;
  • Yn derbyn ac yn storio dynodwr y rhaglen er mwyn olrhain ei gynnydd ymhellach.

Unwaith y bydd ein hawliad yn cael ei dderbyn (fel arfer o fewn oriau busnes), anfonir y rhan sbâr i'r ganolfan ddata briodol a'i dderbyn gan staff.

4 peiriannydd, 7000 o weinyddion ac un pandemig byd-eang
Allbwn consol Jenkins

Parth Cyfathrebu

Er mwyn cadw i fyny â thwf cyflym ein busnes, sy’n gofyn am allu cynyddol, bu’n rhaid inni addasu’r ffordd yr ydym yn gweithio gydag arbenigwyr technegol mewn canolfannau data lleol. Pe bai cynyddu'n golygu prynu gweinyddwyr newydd ar y dechrau, yna ar ôl prosiect cydgrynhoi (yn seiliedig ar y newid i Kubernetes) daeth yn rhywbeth hollol wahanol. Ein hesblygiad o “ychwanegu raciau” i “ailbwrpasu gweinyddwyr.”

Roedd defnyddio dull newydd hefyd yn gofyn am offer newydd a oedd yn ei gwneud hi'n bosibl rhyngweithio'n fwy cyfforddus â phersonél y ganolfan ddata. Roedd angen yr offer hyn i:

  • Symlrwydd;
  • Ymreolaeth;
  • Effeithlonrwydd;
  • Dibynadwyedd.

Roedd yn rhaid i ni eithrio ein hunain o'r gadwyn a strwythuro'r gwaith fel y gallai technegwyr weithio'n uniongyrchol gydag offer gweinydd. Heb ein hymyrraeth a heb godi’r holl faterion hyn yn rheolaidd ynghylch llwyth gwaith, oriau gwaith, argaeledd offer, ac ati.

I gyflawni hyn, fe wnaethom osod iPads ym mhob canolfan ddata. Ar ôl cysylltu â'r gweinydd, bydd y canlynol yn digwydd:

  • Mae'r ddyfais yn cadarnhau bod y gweinydd hwn yn wir angen rhywfaint o waith;
  • Mae cymwysiadau sy'n rhedeg ar y gweinydd ar gau (os oes angen);
  • Mae set o gyfarwyddiadau gwaith yn cael ei bostio ar sianel Slack yn esbonio'r camau sydd eu hangen;
  • Ar ôl cwblhau'r gwaith, mae'r ddyfais yn gwirio cywirdeb cyflwr terfynol y gweinydd;
  • Yn ailgychwyn ceisiadau os oes angen.

Yn ogystal, fe wnaethom hefyd baratoi bot Slack i helpu'r technegydd. Diolch i ystod eang o alluoedd (roeddem yn ehangu'r ymarferoldeb yn gyson), gwnaeth y bot eu gwaith yn haws, a gwneud ein bywyd yn llawer haws. Fel hyn, gwnaethom optimeiddio'r rhan fwyaf o'r broses o ailbwrpasu a chynnal gweinyddwyr, gan ddileu ein hunain o'r llif gwaith.

4 peiriannydd, 7000 o weinyddion ac un pandemig byd-eang
iPad yn un o'n canolfannau data

Parth Caledwedd

Mae graddio ein seilwaith canolfan ddata yn ddibynadwy yn gofyn am welededd da i bob cydran, er enghraifft:

  • Canfod methiant caledwedd
  • Cyflyrau gweinydd (gweithredol, lletyol, zombie, ac ati)
  • Defnyddio Pŵer
  • Fersiwn cadarnwedd
  • Dadansoddeg ar gyfer y busnes cyfan hwn

Mae ein hatebion yn ein galluogi i wneud penderfyniadau ynghylch sut, ble a phryd i brynu offer, weithiau hyd yn oed cyn bod ei angen mewn gwirionedd. Hefyd, trwy bennu lefel y llwyth ar wahanol offer, roeddem yn gallu cyflawni gwell dyraniad adnoddau. Yn benodol, defnydd o ynni. Gallwn nawr wneud penderfyniadau gwybodus am leoliad gweinydd cyn iddo gael ei osod yn y rac a'i gysylltu â ffynhonnell pŵer, trwy gydol ei gylch bywyd a hyd nes iddo ymddeol yn y pen draw.

4 peiriannydd, 7000 o weinyddion ac un pandemig byd-eang
Dangosfwrdd Ynni yn Grafana

Ac yna ymddangosodd COVID-19...

Mae ein tîm yn creu technolegau sy'n grymuso cwmnïau cyfryngau a chyhoeddwyr ar-lein ac yn helpu ymwelwyr i ddod o hyd i gynnwys, cynhyrchion a gwasanaethau perthnasol a allai fod o ddiddordeb iddynt. Mae ein seilwaith wedi'i gynllunio i wasanaethu traffig a gynhyrchir pan fydd rhywfaint o newyddion cyffrous yn cael ei ryddhau.

Roedd y sylw dwys yn y cyfryngau ynghylch COVID-19, ynghyd â’r cynnydd mewn traffig, yn golygu bod angen i ni ddysgu ar frys sut i ymdopi â’r pwysau hyn. Ar ben hynny, roedd yn rhaid gwneud hyn i gyd yn ystod argyfwng byd-eang, pan amharwyd ar gadwyni cyflenwi ac roedd y rhan fwyaf o'r staff gartref.

Ond, fel y dywedasom, mae ein model eisoes yn tybio:

  • Mae'r offer yn ein canolfannau data, ar y cyfan, yn gorfforol anhygyrch i ni;
  •  Rydym yn gwneud bron pob gwaith corfforol o bell;
  • Perfformir y gwaith yn anghydamserol, yn annibynnol ac ar raddfa fawr;
  • Rydym yn cwrdd â'r galw am offer gan ddefnyddio'r dull "adeiladu o rannau" yn hytrach na phrynu offer newydd;
  • Mae gennym warws sy'n ein galluogi i greu rhywbeth newydd, ac nid dim ond gwneud atgyweiriadau arferol.

Felly, ni chafodd y cyfyngiadau byd-eang a rwystrodd llawer o gwmnïau rhag cael mynediad corfforol i'w canolfannau data fawr o effaith arnom ni Ac o ran rhannau sbâr a gweinyddwyr, do, fe wnaethom geisio sicrhau gweithrediad sefydlog yr offer. Ond gwnaed hyn gyda'r nod o atal digwyddiadau posibl pan ddaw'n sydyn nad yw rhyw ddarn o galedwedd ar gael. Sicrhawyd bod ein cronfeydd wrth gefn yn cael eu llenwi heb anelu at ateb y galw presennol.

I grynhoi, hoffwn ddweud bod ein hymagwedd at weithio yn y diwydiant canolfannau data yn profi ei bod yn bosibl cymhwyso egwyddorion dylunio cod da i reolaeth ffisegol canolfan ddata. Ac efallai y byddwch yn ei chael yn ddiddorol.

Gwreiddiol: tyts

Ffynhonnell: hab.com

Prynu gwesteio dibynadwy ar gyfer gwefannau sydd â diogelwch DDoS, gweinyddwyr VPS VDS 🔥 Prynu cynnal gwefannau dibynadwy gyda diogelwch DDoS, gweinyddion VPS VDS | ProHoster