4 nga mga inhenyero, 7000 nga mga server ug usa ka global nga pandemya

Hoy Habr! Gipresentar ko sa imong pagtagad ang hubad sa artikulo "4 Engineers, 7000 Servers, Ug Usa ka Global Pandemic" ni Adib Daw.

Kung kana nga headline wala magpadala usa ka gamay nga pagkurog sa imong taludtod, kinahanglan nimong laktawan ang sunod nga parapo o bisitaha ang among panid nga gipahinungod sa karera sa kompanya - ganahan mi magstorya.

Kinsa kami

Kami usa ka team sa 4 nga mga penguin nga nahigugma sa pagsulat sa code ug nagtrabaho sa hardware. Sa among libre nga oras, kami ang responsable sa pag-deploy, pagmentinar ug pag-operate sa usa ka panon sa mga 7000 ka pisikal nga server nga nagpadagan sa Linux, nga giapod-apod sa 3 nga lainlaing mga sentro sa datos sa tibuuk Estados Unidos.

Nakahigayon usab kami sa pagbuhat niini 10 km ang gilay-on gikan sa mga site, gikan sa kaharuhay sa among kaugalingong opisina, nga nahimutang sa usa ka mubo nga biyahe gikan sa baybayon sa Dagat Mediteranyo.

Mga problema sa timbangan

Samtang makatarunganon nga magsugod ang usa ka pagsugod pinaagi sa pag-host sa imprastraktura niini sa panganod tungod sa medyo ubos nga pasiunang pagpamuhunan, kami sa Outbrain nakahukom nga gamiton ang among kaugalingon nga mga server. Gibuhat namo kini tungod kay ang mga gasto sa imprastraktura sa panganod labaw pa sa gasto sa pag-operate sa among kaugalingong kagamitan nga nahimutang sa mga sentro sa datos human sa pagpalambo sa usa ka lebel. Dugang pa, ang imong server naghatag sa labing taas nga lebel sa pagkontrol ug mga kapabilidad sa pag-troubleshoot.

Samtang nag-uswag kita, ang mga problema kanunay nga duol. Dugang pa, kasagaran sila moabut sa mga grupo. Ang pagdumala sa siklo sa kinabuhi sa server nanginahanglan kanunay nga pag-uswag sa kaugalingon aron mahimo’g maayo ang paglihok sa konteksto sa paspas nga pagtaas sa gidaghanon sa mga server. Ang mga pamaagi sa software alang sa pagdumala sa mga grupo sa server sa mga sentro sa datos dali nga nahimong dili magamit. Ang pag-ila, pag-troubleshoot, ug pagpagaan sa mga kapakyasan samtang nagtagbo sa mga sumbanan sa QoS nahimong usa ka butang sa pag-juggling sa hilabihan ka lainlain nga han-ay sa hardware, lain-laing mga workloads, pag-upgrade sa mga deadline, ug uban pang nindot nga mga butang nga walay usa nga gustong mabalaka.

Pag-master sa imong mga Domain

Aron masulbad ang daghan niini nga mga problema, among gibungkag ang siklo sa kinabuhi sa server sa Outbrain ngadto sa mga nag-unang sangkap niini ug gitawag kini nga mga domain. Pananglitan, ang usa ka domain nagsakup sa mga kinahanglanon sa kagamitan, ang lain nagsakup sa logistik nga may kalabotan sa siklo sa kinabuhi sa imbentaryo, ug ang ikatulo naglangkob sa mga komunikasyon sa mga kawani sa uma. Adunay usa pa bahin sa pag-obserbar sa hardware, apan dili namon ihulagway ang tanan nga mga punto. Ang among tumong mao ang pagtuon ug paghubit sa mga dominyo aron kini makuha gamit ang code. Sa diha nga ang usa ka nagtrabaho abstraction maugmad, kini gibalhin ngadto sa usa ka manwal nga proseso nga gipakatap, gisulayan, ug gipino. Sa katapusan, ang domain gi-configure aron ma-integrate sa ubang mga dominyo pinaagi sa mga API, nga nagporma sa usa ka holistic, dinamiko, ug kanunay nga nag-uswag nga sistema sa lifecycle sa hardware nga ma-deploy, masulayan, ug maobserbahan. Sama sa tanan namong ubang mga sistema sa produksiyon.

Ang pagsagop niini nga pamaagi nagtugot kanamo sa pagsulbad sa daghang mga problema sa husto - pinaagi sa paghimo og mga himan ug automation.

Kinahanglan ang Domain

Bisan kung ang email ug mga spreadsheet usa ka praktikal nga paagi aron matubag ang panginahanglan sa unang mga adlaw, dili kini usa ka malampuson nga solusyon, labi na kung ang gidaghanon sa mga server ug ang gidaghanon sa mga umaabot nga hangyo nakaabot sa usa ka lebel. Aron mas maayo nga ma-organisar ug ma-prioritize ang umaabot nga mga hangyo atubangan sa paspas nga pagpalapad, kinahanglan namon nga mogamit usa ka sistema sa pagtiket nga mahimo’g magtanyag:

  • Abilidad sa pagpahiangay sa pagtan-aw sa mga may kalabutan lamang nga mga natad (yano)
  • Open APIs (extensible)
  • Nahibal-an sa among team (nasabtan)
  • Paghiusa sa among kasamtangan nga mga workflow (naghiusa)

Tungod kay gigamit namo ang Jira sa pagdumala sa among mga sprint ug internal nga mga buluhaton, nakahukom kami sa paghimo og laing proyekto nga makatabang sa among mga kliyente sa pagsumite sa mga tiket ug pagsubay sa ilang mga resulta. Ang paggamit sa Jira alang sa umaabot nga mga hangyo ug alang sa pagdumala sa mga internal nga buluhaton nagtugot kanamo sa paghimo og usa ka Kanban board nga nagtugot kanamo sa pagtan-aw sa tanan nga mga proseso sa kinatibuk-an. Ang among internal nga "mga kliyente" nakakita lamang sa mga hangyo alang sa mga ekipo, nga wala magsusi sa dili kaayo mahinungdanon nga mga detalye sa dugang nga mga buluhaton (sama sa pagpaayo sa mga himan, pag-ayo sa mga bug).

4 nga mga inhenyero, 7000 nga mga server ug usa ka global nga pandemya
Kanban board sa Jira

Isip usa ka bonus, ang kamatuoran nga ang mga pila ug mga prayoridad makita na karon sa tanan nagpaposible nga masabtan "diin sa pila" ang usa ka partikular nga hangyo ug unsa ang nag-una niini. Gitugotan niini ang mga tag-iya nga unahon ang ilang kaugalingon nga mga hangyo nga dili kinahanglan nga makontak kami. I-drag kini ug mao na. Gitugotan usab kami niini sa pag-monitor ug pagtimbang-timbang sa among mga SLA sumala sa mga tipo sa hangyo base sa mga sukatan nga nahimo sa Jira.

Equipment Lifecycle Domain

Sulayi paghanduraw ang pagkakomplikado sa pagdumala sa hardware nga gigamit sa matag server rack. Ang mas grabe pa mao nga daghang mga piraso sa hardware (RAM, ROM) mahimong ibalhin gikan sa bodega ngadto sa lawak sa server ug balik. Sila usab napakyas o giwagtang ug gipulihan ug gibalik sa supplier alang sa pag-ilis/pag-ayo. Kining tanan kinahanglang ipahibalo sa mga empleyado sa serbisyo sa colocation nga nalambigit sa pisikal nga pagmentinar sa mga ekipo. Aron masulbad kini nga mga problema, naghimo kami usa ka internal nga himan nga gitawag Floppy. Ang iyang tahas mao ang:

  • Pagdumala sa mga komunikasyon sa mga kawani sa uma, paghiusa sa tanan nga kasayuran;
  • Pag-update sa datos sa "bodega" pagkahuman sa matag nahuman ug gipamatud-an nga trabaho sa pagpadayon sa kagamitan.

Ang bodega, sa baylo, gihulagway gamit ang Grafana, nga among gigamit sa pagplano sa tanan namon nga mga sukatan. Sa ingon, gigamit namon ang parehas nga himan alang sa pagtan-aw sa bodega ug alang sa uban pang mga panginahanglanon sa produksiyon.

4 nga mga inhenyero, 7000 nga mga server ug usa ka global nga pandemyaPanel sa pagkontrol sa kagamitan sa bodega sa Grafana

Para sa mga device sa server nga ubos sa warranty, naggamit mi og laing himan nga gitawag namo og Dispatcher. Siya:

  • Pagkolekta sa mga log sa sistema;
  • Naghimo og mga taho sa format nga gikinahanglan sa vendor;
  • Naghimo usa ka hangyo gikan sa vendor pinaagi sa API;
  • Nakadawat ug nagtipig sa identifier sa aplikasyon alang sa dugang nga pagsubay sa pag-uswag niini.

Kung madawat na ang among pag-angkon (kasagaran sulod sa mga oras sa negosyo), ang ekstrang bahin ipadala sa tukma nga sentro sa datos ug gidawat sa mga kawani.

4 nga mga inhenyero, 7000 nga mga server ug usa ka global nga pandemya
Jenkins console output

Domain sa Komunikasyon

Aron mapadayon ang paspas nga pag-uswag sa among negosyo, nga nanginahanglan kanunay nga pagtaas sa kapasidad, kinahanglan namon nga ipahiangay ang paagi sa among pagtrabaho kauban ang mga teknikal nga espesyalista sa lokal nga mga sentro sa datos. Kung ang una nga pag-scale nagpasabut sa pagpalit sa bag-ong mga server, pagkahuman pagkahuman sa usa ka proyekto sa pagkonsolida (base sa pagbalhin sa Kubernetes) nahimo kini nga usa ka butang nga hingpit nga lahi. Ang among ebolusyon gikan sa "pagdugang racks" ngadto sa "pag-usab sa mga server."

Ang paggamit sa usa ka bag-ong pamaagi nanginahanglan usab og bag-ong mga himan nga nagpaposible nga makig-uban nga mas komportable sa mga kawani sa data center. Kini nga mga himan gikinahanglan aron:

  • Kayano;
  • awtonomiya;
  • Episyente;
  • Kasaligan

Kinahanglan namon nga dili iapil ang among kaugalingon gikan sa kadena ug istruktura ang trabaho aron ang mga teknisyan direktang makatrabaho sa kagamitan sa server. Kung wala ang among interbensyon ug wala kanunay nga gipataas ang tanan nga mga isyu bahin sa gibug-aton sa trabaho, oras sa pagtrabaho, pagkaanaa sa kagamitan, ug uban pa.

Aron makab-ot kini, among gi-install ang mga iPad sa matag data center. Human makonektar sa server, mahitabo ang mosunod:

  • Gipamatud-an sa aparato nga kini nga server nanginahanglan gyud ug trabaho;
  • Ang mga aplikasyon nga nagdagan sa server sirado (kung gikinahanglan);
  • Usa ka hugpong sa mga instruksyon sa trabaho ang gibutang sa usa ka Slack channel nga nagpatin-aw sa mga lakang nga gikinahanglan;
  • Pagkahuman sa trabaho, gisusi sa aparato ang katukma sa katapusan nga kahimtang sa server;
  • I-restart ang mga aplikasyon kung gikinahanglan.

Dugang pa, nag-andam usab kami usa ka Slack bot aron matabangan ang technician. Salamat sa usa ka halapad nga mga kapabilidad (kanunay namon nga gipalapdan ang pagpaandar), gipasayon ​​sa bot ang ilang trabaho, ug gipasayon ​​ang among kinabuhi. Niining paagiha among na-optimize ang kadaghanan sa proseso sa pag-repurpos ug pagmentinar sa mga server, nga giwagtang ang among kaugalingon gikan sa workflow.

4 nga mga inhenyero, 7000 nga mga server ug usa ka global nga pandemya
iPad sa usa sa among mga data center

Domain sa Hardware

Ang kasaligan nga pag-scale sa among imprastraktura sa data center nanginahanglan maayong panan-aw sa matag sangkap, pananglitan:

  • Detection sa pagkapakyas sa hardware
  • Mga estado sa server (aktibo, host, zombie, ug uban pa)
  • Pag-konsumo sa Kuryente
  • Firmware nga bersyon
  • Analitika alang niining tibuok negosyo

Gitugotan kami sa among mga solusyon sa paghimog mga desisyon kung giunsa, asa ug kanus-a mopalit ug kagamitan, usahay bisan sa wala pa kini kinahanglan. Usab, pinaagi sa pagtino sa lebel sa load sa lain-laing mga ekipo, kita nakahimo sa pagkab-ot sa mas maayo nga resource alokasyon. Sa partikular, konsumo sa enerhiya. Makahimo na kami og mga desisyon nga nahibal-an bahin sa pagbutang sa usa ka server sa wala pa kini ma-install sa rack ug konektado sa usa ka gigikanan sa kuryente, sa tibuuk nga siklo sa kinabuhi niini ug hangtod sa katapusan nga pagretiro.

4 nga mga inhenyero, 7000 nga mga server ug usa ka global nga pandemya
Energy Dashboard sa Grafana

Ug unya ang COVID-19 nagpakita ...

Naghimo ang among team og mga teknolohiya nga naghatag gahum sa mga kompanya sa media ug mga magmamantala online aron matabangan ang mga bisita nga makit-an ang may kalabutan nga sulud, produkto ug serbisyo nga mahimo’g makapainteres kanila. Ang among imprastraktura gidesinyo sa pagserbisyo sa trapiko nga namugna kung ang pipila ka makapahinam nga balita gipagawas.

Ang grabe nga pagsakup sa media nga naglibot sa COVID-19, inubanan sa pagtaas sa trapiko, nagpasabut nga kinahanglan namon nga mahibal-an kung giunsa ang pagsagubang sa kini nga mga pagpit-os. Dugang pa, kining tanan kinahanglan buhaton sa panahon sa usa ka global nga krisis, kung ang mga kadena sa suplay nabalda ug kadaghanan sa mga kawani naa sa balay.

Apan, sama sa among giingon, ang among modelo naghunahuna na nga:

  • Ang mga kagamitan sa among mga sentro sa datos, sa kasagaran, dili ma-access sa among lawas;
  •  Gihimo namo ang halos tanang pisikal nga trabaho sa layo;
  • Ang trabaho gihimo nga asynchronously, awtonomiya ug sa dako nga sukod;
  • Atong matubag ang panginahanglan alang sa mga ekipo gamit ang "pagtukod gikan sa mga bahin" nga pamaagi imbes nga mopalit ug bag-ong kagamitan;
  • Kami adunay usa ka bodega nga nagtugot kanamo sa paghimo og bag-o nga butang, ug dili lamang sa paghimo sa naandan nga pag-ayo.

Busa, ang global nga mga pagdili nga nagpugong sa daghang mga kompanya sa pag-angkon sa pisikal nga pag-access sa ilang mga sentro sa datos gamay ra ang epekto kanamo. Apan kini gihimo sa tumong nga mapugngan ang posibleng mga insidente sa dihang kalit lang nga adunay pipila ka mga hardware nga wala magamit. Among gisiguro nga ang among mga reserba napuno nga walay tumong nga matubag ang kasamtangang panginahanglan.

Sa katingbanan, gusto nakong isulti nga ang among pamaagi sa pagtrabaho sa industriya sa data center nagpamatuod nga posible nga magamit ang mga prinsipyo sa maayong disenyo sa code sa pisikal nga pagdumala sa usa ka sentro sa datos. Ug tingali makit-an nimo kini nga makapaikag.

Orihinal: mga tyts

Source: www.habr.com

Idugang sa usa ka comment