Níl fáil ar iarbháis ar Quay.io

Nóta. aistrigh.: go luath i mí Lúnasa, labhair Red Hat go poiblí faoi fhadhbanna inrochtaineachta a réiteach a bhí ag úsáideoirí a sheirbhíse sna míonna roimhe seo cé.io (tá sé bunaithe ar chlár le haghaidh íomhánna coimeádáin, a fuair an chuideachta chomh maith le ceannach CoreOS). Beag beann ar do spéis sa tseirbhís seo mar sin, tá an cosán a ghlac innealtóirí SRE na cuideachta chun cúiseanna na tionóisce a dhiagnóiseadh agus deireadh a chur le teagascach.

Níl fáil ar iarbháis ar Quay.io

Ar an 19 Bealtaine, go luath ar maidin (Eastern Daylight Time, EDT), tháinig timpiste ar an tseirbhís quay.io. Chuir an timpiste isteach ar thomhaltóirí quay.io agus ar thionscadail Foinse Oscailte ag baint úsáide as quay.io mar ardán chun bogearraí a thógáil agus a dháileadh. Is mór ag Red Hat muinín an dá rud.

Ghlac foireann innealtóirí SRE páirt láithreach agus rinne siad iarracht seirbhís na Cé a chobhsú chomh luath agus ab fhéidir. Mar sin féin, cé go raibh sé seo á dhéanamh acu, chaill na cliaint an cumas íomhánna nua a bhrú, agus ní raibh ach ó am go chéile in ann na cinn a bhí ann cheana a tharraingt. Ar chúis éigin anaithnid, cuireadh bac ar bhunachar sonraí quay.io tar éis an tseirbhís a scála go lánacmhainneacht.

«Cad atá athraithe?" - is é seo an chéad cheist a chuirtear de ghnáth i gcásanna den sórt sin. Thugamar faoi deara go gairid roimh an eisiúint, gur thosaigh an braisle Tiomnaithe OpenShift (a ritheann quay.io) ag nuashonrú go leagan 4.3.19. Ós rud é go ritheann quay.io ar Red Hat OpenShift Tiomnaithe (OSD), ba ghnáthamh a bhí nuashonruithe rialta agus níor chruthaigh siad fadhbanna riamh. Ina theannta sin, le sé mhí anuas, tá uasghrádú déanta againn arís agus arís eile ar bhraislí na Cé gan aon bhriseadh sa tseirbhís.

Cé go raibh muid ag iarraidh an tseirbhís a athbhunú, thosaigh innealtóirí eile ag ullmhú braisle OSD nua leis an leagan roimhe seo de na bogearraí, ionas go bhféadfadh siad gach rud a imscaradh air dá dtarlódh rud éigin.

Anailís ar Fhréamhchúis

Ba é príomhchomhartha na teipe ná masla de na mílte nasc bunachar sonraí, rud a d’fhág nach raibh an cás MySQL inoibrithe go héifeachtach. Rinne sé seo deacair an fhadhb a dhiagnóiseadh. Tá teorainn socraithe againn ar an líon uasta nasc ó chliaint chun cabhrú leis an bhfoireann SRE an cheist a mheas. Níor thugamar faoi deara aon trácht neamhghnách chuig an mbunachar sonraí: i ndáiríre, léadh formhór na n-iarratas, agus ní raibh ach cúpla scríobh.

Rinneamar iarracht freisin patrún a aithint sa trácht bunachar sonraí a d'fhéadfadh a bheith ina chúis leis an avalanche seo. Mar sin féin, ní raibh muid in ann teacht ar aon patrúin sna logs. Agus muid ag fanacht leis an mbraisle nua le OSD 4.3.18 a bheith réidh, leanamar ar aghaidh ag iarraidh pods quay.io a sheoladh. Gach uair a shroich an braisle lánacmhainneacht, reofaí an bunachar sonraí. Chiallaigh sé seo go raibh sé riachtanach an sampla RDS a atosú chomh maith le gach pod quay.io.

Faoin tráthnóna, rinneamar an tseirbhís a chobhsú i mód inléite amháin agus díchumasaíodh an oiread feidhmeanna neamhriachtanacha agus is féidir (mar shampla, bailiú truflais ainmspáis) chun an t-ualach ar an mbunachar sonraí a laghdú. Stoptar reo ach ní bhfuarthas an chúis riamh. Bhí an braisle OSD nua réidh, agus d’aistrigh muid an tseirbhís, nasc tráchta agus monatóireacht leanúnach.

D'oibrigh Quay.io go cobhsaí ar an mbraisle OSD nua, agus mar sin chuaigh muid ar ais go dtí logaí an bhunachair shonraí, ach níorbh fhéidir teacht ar chomhghaol a mhíneodh na bacainní. D'oibrigh innealtóirí OpenShift linn chun a thuiscint an bhféadfadh athruithe i Red Hat OpenShift 4.3.19 fadhbanna a chruthú le Quay. Mar sin féin, ní bhfuarthas aon rud, agus Níorbh fhéidir an fhadhb a atáirgeadh i gcoinníollacha saotharlainne.

An dara teip

Ar an 28 Bealtaine, go gairid roimh meán lae EDT, thuairteáil quay.io arís leis an symptom céanna: cuireadh bac ar an mbunachar sonraí. Agus arís chaitheamar ár n-iarrachtaí go léir isteach san imscrúdú. Gcéad dul síos, bhí sé riachtanach a chur ar ais ar an tseirbhís. ach an uair seo rebooting RDS agus atosú quay.io pods raibh faic: tá avalanche eile de naisc sáraithe ag an mbonn. Ach cén fáth?

Tá Quay scríofa i Python agus feidhmíonn gach pod mar choimeádán monolithic amháin. Ritheann an t-am rite coimeádán go leor tascanna comhthreomhara ag an am céanna. Bainimid úsáid as an leabharlann gevent faoi gunicorn chun iarratais gréasáin a phróiseáil. Nuair a thagann iarratas isteach sa Ché (trínár n-API féin, nó trí API Docker), sanntar oibrí gevent dó. Go hiondúil ba cheart don oibrí seo dul i dteagmháil leis an mbunachar sonraí. Tar éis an chéad teip, fuaireamar amach go raibh oibrithe gevent ag nascadh leis an mbunachar sonraí ag baint úsáide as socruithe réamhshocraithe.

Mar gheall ar an líon suntasach pods Cé agus na mílte iarratas ag teacht isteach in aghaidh an tsoicind, d'fhéadfadh líon mór nasc bunachar sonraí an cás MySQL a shárú go teoiriciúil. A bhuí le monatóireacht, bhí a fhios go bpróiseálann Quay 5 mhíle iarratas in aghaidh an tsoicind ar an meán. Bhí líon na nasc leis an mbunachar sonraí tuairim is mar a chéile. Bhí 5 mhíle nasc go maith laistigh d'acmhainní ár gcás RDS (nach féidir a rá faoi na mílte). Ar chúis éigin bhí spikes gan choinne i líon na nasc, áfach, níor thugamar faoi deara aon chomhghaol le hiarratais a tháinig isteach.

An uair seo bhíomar meáite ar fhoinse na faidhbe a aimsiú agus deireadh a chur léi, agus gan muid féin a theorannú d’atosú. Go dtí an Quay codebase rinneadh athruithe chun teorainn a chur le líon na nasc leis an mbunachar sonraí do gach oibrí gevent. Tháinig an uimhir seo ina pharaiméadar sa chumraíocht: bhí sé indéanta é a athrú ar an eitilt gan íomhá coimeádán nua a thógáil. Chun a fháil amach cé mhéad nasc a d'fhéadfaí a láimhseáil go réalaíoch, rinneamar roinnt tástálacha i dtimpeallacht stáitse, ag socrú luachanna éagsúla chun a fheiceáil conas a chuirfeadh sé seo isteach ar chásanna tástála ualaigh. Mar thoradh air sin, fuarthas amach go Tosaíonn Cé ag caitheamh 502 earráid nuair a sháraíonn líon na gceangal 10.

Rinneamar an leagan nua seo a imscaradh láithreach chuig an táirgeadh agus thosaíomar ag déanamh monatóireachta ar an sceideal nasctha bunachar sonraí. San am atá caite, cuireadh an bonn faoi ghlas tar éis thart ar 20 nóiméad. Tar éis 30 nóiméad saor ó thrioblóid bhí dóchas againn, agus uair an chloig ina dhiaidh sin bhí muinín againn. Rinneamar an trácht ar an suíomh a athchóiriú agus chuireamar tús le hanailís iarbháis.

Tar éis duit an fhadhb a sheachaint as a dtagann bac, ní bhfuaireamar amach na fíorchúiseanna atá leis. Deimhníodh nach bhfuil baint aige le haon athruithe ar OpenShift 4.3.19, ó tharla an rud céanna ar leagan 4.3.18, a d'oibrigh roimhe seo le Quay gan aon fhadhbanna.

Is léir go raibh rud éigin eile ag lurking sa bhraisle.

Staidéar Mionsonraithe

D'úsáid Quay.io na socruithe réamhshocraithe chun ceangal leis an mbunachar sonraí ar feadh sé bliana gan aon fhadhbanna. Cad a d'athraigh? Is léir go bhfuil an trácht ar quay.io ag fás go seasta an t-am seo. Inár gcás, bhí an chuma air go rabhthas tar éis luach tairsí éigin a bhaint amach, rud a d'fheidhmigh mar spreagadh do líontán nasc. Leanamar ar aghaidh ag déanamh staidéir ar logaí an bhunachair shonraí tar éis an dara teip, ach níor aimsíodh aon phatrúin nó caidreamh soiléir.

Idir an dá linn, tá an fhoireann SRE ag obair ar fheabhsúcháin ar inbhraiteacht iarratais Quay agus ar shláinte iomlán na seirbhíse. Tá méadracht agus deais nua curtha i bhfeidhm, ag taispeáint cé na codanna den Ché is mó éileamh ó chustaiméirí.

D'oibrigh Quay.io go breá go dtí an 9 Meitheamh. Ar maidin (EDT) chonaiceamar méadú suntasach arís ar líon na nasc bunachar sonraí. An uair seo ní raibh aon downtime, ós rud é gur chuir an paraiméadar nua teorainn lena n-uimhir agus níor lig sé dóibh dul thar tréchur MySQL. Mar sin féin, ar feadh thart ar leath uair an chloig, thug go leor úsáideoirí faoi deara feidhmíocht mall quay.io. Bhailíomar na sonraí go léir a d’fhéadfadh a bheith againn go tapa ag baint úsáide as na huirlisí monatóireachta breise. Go tobann tháinig patrún chun cinn.

Díreach roimh an ardú ar naisc, rinneadh líon mór iarratas chuig App Registry API. Is gné bheag ar a dtugtar Clárlann App de quay.io. Ligeann sé duit rudaí cosúil le cairteacha Helm agus coimeádáin a stóráil le meiteashonraí saibhir. Ní oibríonn an chuid is mó d'úsáideoirí quay.io leis an ngné seo, ach úsáideann Red Hat OpenShift go gníomhach é. Stórálann OperatorHub mar chuid de OpenShift na hoibreoirí go léir sa Chlárlann Aipe. Tá na hoibreoirí seo mar bhunús don éiceachóras ualach oibre OpenShift agus don tsamhail oibriúcháin atá dírithe ar chomhpháirtí (oibríochtaí an dara lá).

Úsáideann gach braisle OpenShift 4 oibreoirí ón OperatorHub ionsuite chun catalóg oibreoirí atá ar fáil le suiteáil a fhoilsiú agus nuashonruithe a sholáthar dóibh siúd atá suiteáilte cheana féin. Le méadú ar an éileamh atá ar OpenShift 4, tá méadú tagtha freisin ar líon na mbraislí atá air ar fud an domhain. Íoslódálann gach ceann de na braislí seo ábhar oibreora chun an OperatorHub ionsuite a reáchtáil, ag baint úsáide as an App Registry taobh istigh quay.io mar inneall. Agus muid ag cuardach foinse na faidhbe, níor mhór dúinn an fhíric, de réir mar a tháinig méadú ar an éileamh ar OpenShift de réir a chéile, gur mhéadaigh an t-ualach ar cheann de na feidhmeanna quay.io is annamh a úsáidtear freisin..

Rinneamar roinnt anailíse ar thrácht iarratais Chlárlann na nAipe agus d’fhéachamar ar an gcód clárlainne. Ar an bpointe boise, nochtadh easnaimh, agus mar gheall ar sin níor cruthaíodh fiosruithe chuig an mbunachar sonraí go barrmhaith. Nuair a bhí an t-ualach íseal, níor chuir siad faoi deara aon trioblóid, ach nuair a mhéadaigh an t-ualach, tháinig siad ina fhoinse fadhbanna. Bhí dhá chríochphointe fhadhbacha ag App Registry nár fhreagair go maith don ualach méadaitheach: chuir an chéad cheann liosta ar fáil de na pacáistí go léir sa stór, thug an dara ceann gach blob don phacáiste ar ais.

Deireadh a chur le cúiseanna

Thar na seachtaine seo chugainn chaitheamar barrfheabhsú ar chód na App Registry féin agus a timpeallacht. Is léir go raibh fiosruithe SQL neamhéifeachtacha athoibrithe agus cuireadh deireadh le glaonna ordaithe neamhriachtanach tar (ritheadh ​​​​sé gach uair a fuarthas blobaí), cuireadh taisceadh leis nuair ab fhéidir. Rinneamar tástáil feidhmíochta fhairsing ansin agus rinneamar comparáid idir luas Chlárlann na nAipeanna roimh na hathruithe agus ina ndiaidh.

Tá iarratais API a thóg suas le leath nóiméad roimhe seo críochnaithe anois i milleasoicindí. An tseachtain seo chugainn rinneamar na hathruithe ar tháirgeadh a imscaradh, agus ó shin i leith tá quay.io ag obair go cobhsaí. Le linn an ama seo, bhí roinnt spící géara sa trácht ar chríochphointe Chlárlann na nAipeanna, ach chuir na feabhsuithe cosc ​​​​ar bhriseadh bunachar sonraí.

Cad atá foghlamtha againn?

Is léir go ndéanann seirbhís ar bith iarracht am aga a sheachaint. Inár gcás, creidimid gur chuidigh na bristeacha le déanaí le quay.io a dhéanamh níos fearr. Tá cúpla príomhcheacht foghlamtha againn ba mhaith linn a roinnt:

  1. Ní bhíonn sonraí faoi cé a úsáideann do sheirbhís agus conas a bhíonn iomarcach riamh. Mar gheall go bhfuil Quay “díreach ag obair,” ní raibh orainn am a chaitheamh ag barrfheabhsú tráchta agus ag bainistiú ualach. Chruthaigh sé seo go léir braistint bhréagach slándála a d’fhéadfadh an tseirbhís a scála ar feadh tréimhse éiginnte.
  2. Nuair a théann an tseirbhís síos, tosaíocht is ea é a fháil ar ais agus a rith.. Toisc gur lean Quay ag fulaingt ó bhunachar sonraí faoi ghlas le linn na chéad bhriseadh, ní raibh an éifeacht a bhí beartaithe ag ár ngnáthnósanna imeachta agus níorbh fhéidir linn an tseirbhís a athbhunú agus iad á n-úsáid. Ba é an toradh a bhí air seo ná go gcaithfí am a chaitheamh ag anailísiú agus ag bailiú sonraí le súil an bhunchúis a aimsiú - in ionad gach iarracht a dhíriú ar fheidhmiúlacht a athchóiriú.
  3. Déan tionchar gach gné seirbhíse a mheas. Is annamh a bhain cliaint úsáid as App Registry, mar sin ní raibh sé mar thosaíocht ag ár bhfoireann. Nuair is ar éigean a úsáidtear roinnt gnéithe táirge, is annamh a bhíonn a gcuid fabhtanna le feiceáil, agus stopann na forbróirí monatóireacht a dhéanamh ar an gcód. Tá sé éasca a bheith creiche ar an míthuiscint gurb é seo an bealach ar cheart dó a bheith - go dtí go tobann go mbíonn an fheidhm sin i gceartlár mórtheagmhais.

Cad atá romhainn?

Ní thagann deireadh leis an obair chun cobhsaíocht na seirbhíse a chinntiú agus táimid ag feabhsú i gcónaí í. De réir mar a leanann méideanna tráchta ag fás ar quay.io, aithnímid go bhfuil freagracht orainn gach rud is féidir linn a dhéanamh chun muinín ár gcustaiméirí a chomhlíonadh. Mar sin, táimid ag obair ar na tascanna seo a leanas faoi láthair:

  1. Úsáid macasamhla bunachar sonraí inléite amháin chun cabhrú leis an tseirbhís trácht cuí a láimhseáil i gcás fadhbanna leis an bpríomhshampla RDS.
  2. Sampla RDS á nuashonrú. Ní hé an leagan reatha féin an fhadhb. Ina ionad sin, ba mhaith linn go simplí a bhaint as an rian bréagach (a lean muid le linn an teip); Má choinnítear na bogearraí cothrom le dáta, cuirfear deireadh le fachtóir eile i gcás briseadh amach anseo.
  3. Taiscí breise ar fud an bhraisle ar fad. Leanaimid ag lorg réimsí inar féidir le taisceadh an t-ualach ar an mbunachar sonraí a laghdú.
  4. Ag cur balla dóiteáin feidhmchlár gréasáin (WAF) leis féachaint cé atá ag nascadh le quay.io agus cén fáth.
  5. Ag tosú leis an gcéad scaoileadh eile, tréigfidh braislí Red Hat OpenShift Clárlann App i bhfabhar Catalóga Oibreoirí bunaithe ar íomhánna coimeádáin atá ar fáil ar quay.io.
  6. D’fhéadfadh tacaíocht a thabhairt do shonraíochtaí déantán an Tionscnaimh Coimeádán Oscailte (OCI) a chur in ionad Chlárlann na nAipeanna go fadtéarmach. Tá sé curtha i bhfeidhm faoi láthair mar fheidhmiúlacht Cé Dúchais agus beidh sé ar fáil d'úsáideoirí nuair a bheidh an tsonraíocht féin tugtha chun críche.

Tá gach ceann díobh thuas mar chuid d'infheistíocht leanúnach Red Hat i quay.io agus muid ag bogadh ó fhoireann bheag "stíl tosaithe" go ardán aibí atá tiomáinte ag SRE. Tá a fhios againn go mbíonn go leor dár gcustaiméirí ag brath ar quay.io ina gcuid oibre laethúil (lena n-áirítear Red Hat!) agus déanaimid iarracht a bheith chomh trédhearcach agus is féidir maidir le briseadh amach le déanaí agus iarrachtaí leanúnacha chun feabhas a chur ar.

PS ó aistritheoir

Léigh freisin ar ár mblag:

Foinse: will.com

Add a comment