Nā Pahuhopu Papa Hana - Google Experience (unuhi o ka mokuna puke Google SRE)

Nā Pahuhopu Papa Hana - Google Experience (unuhi o ka mokuna puke Google SRE)

ʻO SRE (Site Reliability Engineering) kahi ala e hōʻoia ai i ka loaʻa ʻana o nā papahana pūnaewele. Manaʻo ʻia he ʻano hana no DevOps a kamaʻilio e pili ana i ke ʻano e hoʻokō ai i ka kūleʻa i ka hoʻohana ʻana i nā hana DevOps. Unuhi ma kēia ʻatikala Mokuna 4 Nā Pahuhopu Hana Hana nā puke Paena hilinaʻi 'enekinia mai Google mai. Ua hoʻomākaukau au i kēia unuhi a hilinaʻi i koʻu ʻike ponoʻī i ka hoʻomaopopo ʻana i nā kaʻina hana nānā. Ma ke ala telegrama monitorim_it и pou hope loa ma Habré Ua paʻi pū wau i kahi unuhi o ka Mokuna 6 o ka puke like e pili ana i nā pahuhopu pae lawelawe.

Unuhi na ka popoki. Nanea i ka heluhelu!

ʻAʻole hiki ke hoʻokele i kahi lawelawe inā ʻaʻole maopopo i nā mea hōʻailona maoli a pehea e ana a loiloi iā lākou. No kēia hopena, wehewehe mākou a hāʻawi i kahi pae o ka lawelawe i kā mākou mea hoʻohana, me ka nānā ʻole inā hoʻohana lākou i kekahi o kā mākou API kūloko a i ʻole kahi huahana lehulehu.

Hoʻohana mākou i kā mākou intuition, ʻike, a me ka ʻike i ka makemake o nā mea hoʻohana e hoʻomaopopo i nā Service Level Indicators (SLIs), Service Level Objectives (SLOs), a me Service Level Agreements (SLAs). Hōʻike kēia mau ana i nā ana nui a mākou e makemake ai e nānā a e pane mākou inā ʻaʻole hiki iā mākou ke hāʻawi i ka maikaʻi o ka lawelawe. ʻO ka hope loa, ʻo ke koho ʻana i nā anana kūpono e kōkua i ke alakaʻi ʻana i nā hana kūpono inā hewa kekahi mea, a hāʻawi pū i ka hui SRE i ka hilinaʻi i ke olakino o ka lawelawe.

Hōʻike kēia mokuna i ke ala a mākou e hoʻohana ai no ka hakakā ʻana i nā pilikia o ka hoʻohālike metric, koho metric, a me ka nānā ʻana metric. ʻO ka hapa nui o ka wehewehe ʻana ʻaʻohe laʻana, no laila e hoʻohana mākou i ka lawelawe ʻo Shakespeare i wehewehe ʻia i kāna hiʻohiʻona hoʻokō (ʻimi i nā hana a Shakespeare) e hōʻike i nā kumu nui.

Nā huaʻōlelo pae lawelawe

He nui ka poʻe heluhelu i kamaʻāina i ka manaʻo o SLA, akā pono nā huaʻōlelo SLI a me SLO i ka wehewehe pono ʻana no ka mea ma ke ʻano maʻamau ʻoi aku ka nui o ka huaʻōlelo SLA a he nui nā manaʻo e pili ana i ka pōʻaiapili. No ka akaka, makemake mākou e hoʻokaʻawale i kēia mau waiwai.

Nā Hōʻike

ʻO ka SLI kahi hōʻailona pae lawelawe—he ana i wehewehe pono ʻia o kekahi ʻano o ka pae o ka lawelawe i hāʻawi ʻia.

No ka hapa nui o nā lawelawe, ua manaʻo ʻia ke kī SLI he latency noi - pehea ka lōʻihi o ka hoʻihoʻi ʻana i kahi pane i kahi noi. ʻO nā SLI maʻamau ʻē aʻe e pili ana i ka helu hapa, i hōʻike pinepine ʻia ma ke ʻano he hapa o nā noi a pau i loaʻa, a me ka throughput ʻōnaehana, maʻamau i ana ʻia i nā noi i kekona. Hoʻohui pinepine ʻia nā ana: ʻohi mua ʻia ka ʻikepili maka a laila hoʻololi ʻia i ka nui o ka hoʻololi, mean, a i ʻole percentile.

ʻO ke kūpono, ana pololei ʻo SLI i ka pae lawelawe o ka hoihoi, akā i kekahi manawa he metric pili wale nō i loaʻa no ke ana ʻana no ka mea paʻakikī ke kiʻi a wehewehe paha i ka mea kumu. No ka laʻana, ʻoi aku ka maikaʻi o ka latency ʻaoʻao o ka mea kūʻai aku, akā aia kekahi manawa hiki ke ana ʻia ka latency ma ke kikowaena.

ʻO kekahi ʻano SLI i mea nui i nā SRE ka loaʻa, a i ʻole ka hapa o ka manawa e hiki ai ke hoʻohana ʻia kahi lawelawe. I wehewehe pinepine ʻia ʻo ia ka helu o nā noi kūleʻa, i kapa ʻia i kekahi manawa he hua. (ʻO ke ola-ʻo ka likelika e mālama ʻia ka ʻikepili no kahi manawa lōʻihi-he mea nui nō hoʻi no nā ʻōnaehana mālama ʻikepili.) ʻOiai ʻaʻole hiki ke loaʻa ka 100%, hiki ke loaʻa ma kahi kokoke i 100%; hōʻike ʻia nā waiwai loaʻa ka helu o "nines" » pākēneka o ka loaʻa. No ka laʻana, 99% a me 99,999% hiki ke kapa ʻia ʻo "2 nines" a me "5 nines". ʻO ka pahuhopu loaʻa o Google Compute Engine i kēia manawa he "ʻekolu a me ka hapa nines" a i ʻole 99,95%.

Nń Pahuhopu

ʻO kahi SLO kahi pahuhopu pae lawelawe: kahi waiwai pahuhopu a i ʻole ka nui o nā waiwai no kahi pae lawelawe i ana ʻia e ka SLI. ʻO kahi waiwai maʻamau no SLO ʻo "SLI ≤ Target" a i ʻole "Lower Limit ≤ SLI ≤ Upper Limit". No ka laʻana, hiki iā mākou ke hoʻoholo e hoʻihoʻi mākou i nā hualoaʻa ʻo Shakespeare "wikiwiki" ma ka hoʻonohonoho ʻana i ka SLO i ka awelika hulina hulina ma lalo o 100 milliseconds.

He hana paʻakikī ke koho ʻana i ka SLO kūpono. ʻO ka mea mua, ʻaʻole hiki iā ʻoe ke koho i kahi waiwai kikoʻī. No nā noi HTTP komo waho i kāu lawelawe, ʻo ka Query Per Second (QPS) metric i hoʻoholo mua ʻia e ka makemake o kāu mea hoʻohana e kipa i kāu lawelawe, a ʻaʻole hiki iā ʻoe ke hoʻonohonoho i kahi SLO no ia.

Ma ka ʻaoʻao ʻē aʻe, hiki iā ʻoe ke ʻōlelo e makemake ʻoe i ka latency awelika no kēlā me kēia noi ma lalo o 100 milliseconds. ʻO ka hoʻonohonoho ʻana i kahi pahuhopu e koi ai iā ʻoe e kākau i kāu ʻaoʻao mua me ka haʻahaʻa haʻahaʻa a kūʻai paha i nā lako e hāʻawi ana i kēlā latency. (ʻO ka 100 milliseconds he helu kūʻokoʻa, akā ʻoi aku ka maikaʻi o ka loaʻa ʻana o nā helu latency haʻahaʻa. mai kāu lawelawe.)

Eia hou, ʻoi aku ka kānalua o kēia ma mua o ka nānā mua ʻana: ʻaʻole pono ʻoe e haʻalele loa i ka QPS mai ka helu ʻana. ʻO ka ʻoiaʻiʻo, pili paʻa ka QPS a me ka latency i kekahi i kekahi: alakaʻi pinepine ka QPS kiʻekiʻe i nā latencies kiʻekiʻe, a ʻike pinepine nā lawelawe i ka emi ʻana o ka hana ke hiki lākou i kahi paepae ukana.

ʻO ke koho ʻana a me ka paʻi ʻana i kahi SLO e hoʻonohonoho i nā manaʻolana o ka mea hoʻohana e pili ana i ka hana o ka lawelawe. Hiki i kēia hoʻolālā ke hōʻemi i nā hoʻopiʻi kumu ʻole i ka mea nona ka lawelawe, e like me ka hana lohi. Me ka loaʻa ʻole o kahi SLO kikoʻī, hana pinepine nā mea hoʻohana i kā lākou mau manaʻo ponoʻī e pili ana i ka hana i makemake ʻia, ʻaʻohe mea pili i ka manaʻo o ka poʻe e hoʻolālā a hoʻokele i ka lawelawe. Hiki i kēia kūlana ke alakaʻi i nā manaʻo inflated mai ka lawelawe, ke kuhi hewa nā mea hoʻohana e ʻoi aku ka maʻalahi o ka lawelawe ma mua o ka mea maoli, a ke kumu i ka hilinaʻi i ka wā e manaʻoʻiʻo ai nā mea hoʻohana ʻaʻole i hilinaʻi ʻia ka ʻōnaehana ma mua o ka mea maoli.

Nā ʻaelike

ʻO ka ʻaelike pae lawelawe he ʻaelike kikoʻī a i ʻole me kāu mau mea hoʻohana e pili ana i nā hopena o ka hālāwai ʻana (a i ʻole ka hālāwai ʻana) i nā SLO i loaʻa iā lākou. Hiki ke ʻike maʻalahi ʻia nā hopena inā he kālā lākou - he hoʻemi a i ʻole ka uku - akā hiki iā lākou ke lawe i nā ʻano ʻē aʻe. ʻO kahi ala maʻalahi e kamaʻilio e pili ana i ka ʻokoʻa ma waena o nā SLO a me nā SLA ʻo ka nīnau ʻana "he aha ka mea inā ʻaʻole i hoʻokō ʻia nā SLO?" Inā ʻaʻohe hopena maopopo, kokoke ʻoe e nānā i kahi SLO.

ʻAʻole maʻamau ka SRE i ka hana ʻana i nā SLA no ka mea pili pili nā SLA i nā ʻoihana a me nā hoʻoholo huahana. Ke komo nei ka SRE i ke kōkua ʻana i ka hoʻēmi ʻana i nā hopena o nā SLO hāʻule. Hiki iā lākou ke kōkua i ka hoʻoholo ʻana i ka SLI: ʻOiaʻiʻo, pono e loaʻa kahi ala kūpono e ana i ka SLO ma ka ʻaelike a i ʻole e kū ʻole.

He laʻana ka Huli Google o kahi lawelawe koʻikoʻi ʻaʻohe SLA lehulehu: makemake mākou e hoʻohana nā kānaka a pau iā Huli me ka maikaʻi loa, akā ʻaʻole mākou i kau inoa i kahi ʻaelike me ka honua. Eia nō naʻe, aia nō nā hopena inā loaʻa ʻole ka ʻimi - ʻo ka loaʻa ʻole ka hopena i ka hāʻule ʻana o ko mākou inoa a me ka hōʻemi ʻana i ka loaʻa kālā hoʻolaha. Nui nā lawelawe Google ʻē aʻe, e like me Google for Work, loaʻa nā kuʻikahi pae lawelawe me nā mea hoʻohana. ʻOiai inā he SLA kekahi lawelawe, he mea nui e wehewehe i ka SLI a me SLO a hoʻohana iā lākou e mālama i ka lawelawe.

Nui ka manaʻo - i kēia manawa e ʻike.

Nā hōʻailona ma ka hana

Ma muli o ko mākou hoʻoholo ʻana he mea nui ke koho ʻana i nā anana kūpono e ana i ka pae lawelawe, pehea ʻoe e ʻike ai i kēia manawa i nā metric e pili ana i kahi lawelawe a ʻōnaehana paha?

He aha kāu e mālama ai a me kāu mea hoʻohana?

ʻAʻole pono ʻoe e hoʻohana i kēlā me kēia metric ma ke ʻano he SLI hiki iā ʻoe ke hahai i kahi ʻōnaehana nānā; ʻO ka hoʻomaopopo ʻana i ka mea e makemake ai nā mea hoʻohana mai kahi ʻōnaehana e kōkua iā ʻoe e koho i kekahi mau ana. ʻO ke koho ʻana i nā mea hōʻailona he mea paʻakikī ke nānā aku i nā hōʻailona koʻikoʻi, ʻoiai ke koho ʻana i kahi helu liʻiliʻi hiki ke waiho i nā ʻāpana nui o kāu ʻōnaehana me ka mālama ʻole ʻia. Hoʻohana maʻamau mākou i kekahi mau hōʻailona koʻikoʻi e loiloi a hoʻomaopopo i ke olakino o kahi ʻōnaehana.

Hiki ke hoʻokaʻawale ʻia nā lawelawe i kekahi mau ʻāpana e pili ana i ka SLI e pili ana iā lākou:

  • ʻO nā ʻōnaehana mua maʻamau, e like me nā loulou hulina no ka lawelawe ʻo Shakespeare mai kā mākou hiʻohiʻona. Pono lākou e loaʻa, ʻaʻohe lohi a lawa ka bandwidth. No laila, hiki ke nīnau ʻia nā nīnau: hiki iā mākou ke pane i ka noi? Pehea ka lōʻihi o ka pane ʻana i ke noi? Ehia mau noi e hiki ke hana?
  • Pūnaehana mālama. Hāʻawi lākou i ka latency pane haʻahaʻa, loaʻa, a me ka lōʻihi. Nā nīnau pili: Pehea ka lōʻihi o ka heluhelu a kākau ʻana i ka ʻikepili? Hiki iā mākou ke komo i ka ʻikepili ma ke noi? Loaʻa ka ʻikepili i ka wā e pono ai mākou? E ʻike i ka Mokuna 26 ʻIke Pono: ʻO ka mea āu e heluhelu ai ʻo ia kāu e kākau ai no kahi kūkākūkā kikoʻī o kēia mau pilikia.
  • ʻO nā ʻōnaehana ʻikepili nui e like me nā pipeline hoʻoili ʻikepili e hilinaʻi i ka throughput a me ka latency processing query. Nā nīnau pili: ʻEhia ka nui o ka ʻikepili i hana ʻia? Pehea ka lōʻihi o ka hele ʻana o ka ʻikepili mai ka loaʻa ʻana o kahi noi i ka hoʻopuka ʻana i kahi pane? (He lohi paha kekahi mau ʻāpana o ka ʻōnaehana i kekahi mau pae.)

ʻOhi o nā hōʻailona

Nui nā hōʻailona pae lawelawe i hōʻiliʻili maoli ʻia ma ka ʻaoʻao kikowaena, me ka hoʻohana ʻana i kahi ʻōnaehana nānā e like me Borgmon (e ʻike i lalo). Mokuna 10 Nā ʻŌlelo Hoʻomaʻamaʻa Ma muli o ka ʻikepili Time Series) a i ʻole Prometheus, a i ʻole ka nānā ʻana i nā lāʻau i kēlā me kēia manawa, e ʻike ana i nā pane HTTP me ke kūlana 500. Eia naʻe, pono e hoʻolako ʻia kekahi mau ʻōnaehana me ka hōʻiliʻili ʻana i ka ʻaoʻao o ka mea kūʻai aku, no ka mea, ʻo ka nele o ka nānā ʻana i ka ʻaoʻao o ka mea kūʻai aku hiki ke alakaʻi i nā pilikia he nui mea hoʻohana, akā, ʻaʻole pili i nā metric ʻaoʻao server. No ka laʻana, ʻo ka nānā ʻana i ka latency pane hope o kā mākou palapala hoʻāʻo ʻimi iā Shakespeare hiki ke hopena i ka latency ma ka ʻaoʻao mea hoʻohana ma muli o nā pilikia JavaScript: i kēia hihia, ʻoi aku ka maikaʻi o ke ana ʻana i ka lōʻihi o ka polokalamu kele pūnaewele e hoʻoponopono i ka ʻaoʻao.

Huihui

No ka maʻalahi a me ka maʻalahi o ka hoʻohana, hoʻohui pinepine mākou i nā ana maka. Pono e hana pono kēia.

He mea maʻalahi kekahi mau ana, e like me nā noi i kēlā me kēia kekona, akā naʻe, ʻo kēia ana maʻalahi e hōʻuluʻulu i ka ʻikepili i ka manawa. Loaʻa ʻia ke ana i hoʻokahi manawa i kēlā me kēia kekona a i ʻole ke ana ʻana ma luna o ka helu o nā noi i kēlā me kēia minuke? Hiki i ke koho hope ke hūnā i ka helu ʻoi aku ka kiʻekiʻe o nā noi i mau kekona wale nō. E noʻonoʻo i kahi ʻōnaehana e lawelawe ana i nā noi 200 i kēlā me kēia kekona me nā helu like a me 0 i ke koena o ka manawa. ʻO ka mea mau ma ke ʻano o ka waiwai awelika o 100 noi i kekona a ʻelua ʻelua o ka ukana koke ʻaʻole like. Pēlā nō, ʻo ka awelika o ka huli ʻana i nā hulina he nani paha, akā hūnā ia i kahi kikoʻī koʻikoʻi: hiki ke wikiwiki ka hapa nui o nā nīnau, akā nui nā nīnau lohi.

ʻOi aku ka maikaʻi o ka nānā ʻana i ka hapa nui o nā hōʻailona ma ke ʻano he mahele ma mua o nā awelika. No ka laʻana, no ka SLI latency, e hana wikiwiki ʻia kekahi mau noi, ʻoiai e lōʻihi mau kekahi, a ʻoi aku ka lōʻihi o kekahi. Hiki i ka awelika maʻalahi ke hūnā i kēia mau lohi lōʻihi. Hōʻike ke kiʻi i kahi laʻana: ʻoiai ʻo kahi noi maʻamau e lawe ma kahi o 50 ms e lawelawe ai, ʻo 5% o nā noi he 20 mau manawa lohi! ʻAʻole hōʻike ka nānā ʻana a me ka makaʻala ma muli o ka latency awelika i nā loli i ka hana a puni ka lā, ʻoiai aia nā loli i ʻike ʻia i ka manawa hana o kekahi mau noi (laina kiʻekiʻe loa).

Nā Pahuhopu Papa Hana - Google Experience (unuhi o ka mokuna puke Google SRE)
50, 85, 95, a me 99 percentile system latency. Aia ke koʻi Y ma ke ʻano logarithmic.

ʻO ka hoʻohana ʻana i nā pākēneka no nā hōʻailona e hiki ai iā ʻoe ke ʻike i ke ʻano o ka puʻunaue a me kona mau hiʻohiʻona: ke kiʻekiʻe o ka pākēneka kiʻekiʻe, e like me 99 a i ʻole 99,9, e hōʻike ana i ka waiwai ʻino loa, aʻo ka 50 percentile (ʻike ʻia ʻo ka median) e hōʻike ana i ka mokuʻāina pinepine ka metric. ʻOi aku ka nui o ka hoʻopuehu ʻana o ka manawa pane, ʻoi aku ka nui o nā noi lōʻihi e pili ana i ka ʻike mea hoʻohana. Hoʻonuiʻia ka hopena ma lalo o ka ukana kiʻekiʻe a ma ke alo o nā queues. Ua hōʻike ʻia ka noiʻi ʻike mea hoʻohana e makemake nā kānaka i kahi ʻōnaehana lohi me ka nui o ka manawa pane, no laila ke nānā wale nei kekahi mau pūʻulu SRE i nā helu pākēneka kiʻekiʻe, ma ke kumu inā maikaʻi ke ʻano o ka metric ma ka 99,9 percentile, ʻaʻole pilikia ka hapa nui o nā mea hoʻohana. .

Nānā i nā hewa helu helu

Makemake mākou e hana me nā pākēneka ma mua o ka mean (mean arithmetic) o kahi pūʻulu waiwai. ʻO kēia ka mea e hiki ai iā mākou ke noʻonoʻo i nā waiwai i hoʻopuehu pinepine ʻia, ʻoi aku ka nui o nā ʻano like ʻole (a ʻoi aku ka hoihoi) ma mua o ka awelika. Ma muli o ke ʻano kūlohelohe o nā ʻōnaehana computing, hoʻololi pinepine ʻia nā waiwai metric, no ka laʻana, ʻaʻole hiki ke loaʻa kahi pane ma lalo o 0 ms, a ʻo kahi manawa o 1000 ms ʻaʻole hiki ke loaʻa nā pane kūleʻa me nā waiwai nui aʻe. ma mua o ka manawa pau. ʻO ka hopena, ʻaʻole hiki iā mākou ke ʻae i ka like a i ʻole kokoke i ka mean a me ka waena!

Me ka ʻole o ka hoʻāʻo mua ʻana, a inā ʻaʻole paʻa kekahi mau manaʻo maʻamau a me nā hoʻohālikelike, makaʻala mākou ʻaʻole e manaʻo ua puʻunaue ʻia kā mākou ʻikepili. Inā ʻaʻole like ka hāʻawi ʻana i ka mea i manaʻo ʻia, ʻo ke kaʻina hana automation e hoʻoponopono ai i ka pilikia (no ka laʻana, ke ʻike ʻo ia i nā mea i waho, hoʻomaka hou ia i ka server me nā latencies hoʻoponopono noi kiʻekiʻe) e hana pinepine a ʻaʻole lawa paha (ʻaʻole ia mau mea ʻelua. maikaʻi loa).

Hoʻohālikelike i nā hōʻailona

Paipai mākou i ka hoʻohālikelike ʻana i nā ʻano maʻamau no SLI i ʻole ʻoe e noʻonoʻo e pili ana iā lākou i kēlā me kēia manawa. Hiki ke hoʻokaʻawale ʻia kekahi hiʻohiʻona e hoʻokō i nā kumu maʻamau mai ka kikoʻī o kahi SLI pākahi, no ka laʻana:

  • ʻO nā manawa hoʻohui: "ʻawelika ma luna o 1 minuke"
  • Nā ʻāpana hui: "Nā hana a pau i ka hui"
  • ʻEhia mau ana e lawe ʻia: "ʻO kēlā me kēia 10 kekona"
  • He aha nā noi i hoʻokomo ʻia: "HTTP GET mai nā hana nānā pahu ʻeleʻele"
  • Pehea e loaʻa ai ka ʻikepili: "Mahalo i kā mākou nānā ʻana i ana ʻia ma ke kikowaena"
  • Ka lōʻihi o ka ʻike ʻikepili: "Ka manawa no ka byte hope"

No ka mālama ʻana i ka hoʻoikaika ʻana, hana i kahi hoʻonohonoho o nā hoʻohālike SLI hiki ke hoʻohana hou ʻia no kēlā me kēia metric maʻamau; maʻalahi hoʻi lākou i ka hoʻomaopopo ʻana i ke ʻano o kekahi SLI.

Pahuhopu ma ka hana

E hoʻomaka me ka noʻonoʻo (a i ʻole ka ʻimi ʻana!) i ka mea e mālama ai kāu mea hoʻohana, ʻaʻole i ka mea hiki iā ʻoe ke ana. ʻO ka manawa pinepine he paʻakikī a hiki ʻole paha ke ana ʻana i kāu mea hoʻohana, no laila e hoʻopau ʻoe i ka hoʻokokoke ʻana i kā lākou pono. Eia naʻe, inā hoʻomaka ʻoe me ka mea maʻalahi ke ana ʻana, e hoʻopau ʻoe me nā SLO liʻiliʻi. ʻO ka hopena, ua ʻike mākou i kekahi manawa ʻoi aku ka maikaʻi o ka ʻike mua ʻana i nā pahuhopu i makemake ʻia a laila hana me nā hōʻailona kikoʻī ma mua o ke koho ʻana i nā hōʻailona a laila hoʻokō i nā pahuhopu.

Wehewehe i nā pahuhopu

No ka maopopo loa, pono e wehewehe ʻia pehea e ana ʻia ai nā SLO a me nā kūlana i kūpono ai lākou. No ka laʻana, hiki iā mākou ke ʻōlelo i kēia aʻe (ʻo ka laina ʻelua e like me ka mea mua, akā hoʻohana i ka SLI default):

  • 99% (awelika ma luna o 1 minuke) o Loaʻa nā kelepona RPC e hoʻopau ʻia ma lalo o 100ms (ana ʻia ma nā kikowaena backend āpau).
  • 99% o Loaʻa nā kelepona RPC e hoʻopau ma lalo o 100ms.

Inā he mea nui ke ʻano o nā pihi hana, hiki iā ʻoe ke kuhikuhi i nā SLO he nui:

  • 90% o Loaʻa nā kelepona RPC i hoʻopau ʻia ma lalo o 1 ms.
  • 99% o Loaʻa nā kelepona RPC i hoʻopau ʻia ma lalo o 10 ms.
  • 99.9% o Loaʻa nā kelepona RPC i hoʻopau ʻia ma lalo o 100 ms.

Inā hoʻohana kāu mea hoʻohana i nā haʻahaʻa hana like ʻole: ka hana nui (no ka mea he mea nui ka throughput) a me ka hoʻoili pānaʻi (no ka mea nui ka latency), pono paha e wehewehe i nā pahuhopu kaʻawale no kēlā me kēia papa ukana:

  • Pono ka 95% o nā noi mea kūʻai aku i ka throughput. E hoʻonoho i ka helu o nā kelepona RPC i hoʻokō ʻia <1 s.
  • 99% o nā mea kūʻai aku e mālama i ka latency. E hoʻonoho i ka helu o nā kelepona RPC me ke kaʻa <1 KB a me ka holo ʻana <10 ms.

He mea kūpono ʻole a makemake ʻole e koi ʻia e hoʻokō ʻia nā SLO 100% o ka manawa: hiki i kēia ke hoʻemi i ka wikiwiki o ka hoʻokomo ʻana i nā hana hou a me ka hoʻolālā ʻana, a koi aku i nā hopena kumukūʻai. Akā, ʻoi aku ka maikaʻi o ka ʻae ʻana i kahi kālā hewa - ka pākēneka o ka manawa haʻahaʻa o ka ʻōnaehana i ʻae ʻia - a nānā i kēia waiwai i kēlā me kēia lā a i kēlā me kēia pule. Makemake paha nā luna kiʻekiʻe i nā loiloi o ka mahina a i ʻole ka hapaha. (He SLO wale nō ka waihona hewa no ka hoʻohālikelike ʻana me kekahi SLO.)

Hiki ke hoʻohālikelike ʻia ka pākēneka o nā hewa SLO me ka waihona kālā hewa (e nānā i ka Mokuna 3 a me ka pauku "Hoʻoikaika no nā kālā hewa"), me ka waiwai ʻokoʻa i hoʻohana ʻia ma ke ʻano he hoʻokomo i ke kaʻina hana e hoʻoholo ai i ka wā e kau ai i nā mea hou.

Ke koho ʻana i nā kumu waiwai

ʻO ke koho ʻana i nā waiwai hoʻolālā (SLOs) ʻaʻole ia he hana ʻenehana maʻemaʻe ma muli o ka huahana a me nā pono ʻoihana e pono e ʻike ʻia i nā SLI i koho ʻia, nā SLO (a me nā SLA paha). Pēlā nō, pono e hoʻololi ʻia ka ʻike e pili ana i nā pilikia e pili ana i nā limahana, ka manawa i ka mākeke, ka loaʻa ʻana o nā lako, a me ke kālā. Pono ʻo SRE i ʻāpana o kēia kamaʻilio ʻana a kōkua i ka hoʻomaopopo ʻana i nā pilikia a me ka hiki ʻana o nā koho like ʻole. Ua loaʻa iā mākou kekahi mau nīnau e hiki ke kōkua i ka hoʻopaʻa ʻana i kahi kūkākūkā ʻoi aku ka maikaʻi:

Mai koho i kahi pahu hopu ma muli o ka hana o kēia manawa.
ʻOiai ʻo ka hoʻomaopopo ʻana i nā ikaika a me nā palena o kahi ʻōnaehana he mea nui, hiki i ka hoʻololi ʻana i nā metric me ka noʻonoʻo ʻole ke pale iā ʻoe mai ka mālama ʻana i ka ʻōnaehana: pono ia i nā hana koa e hoʻokō i nā pahuhopu hiki ʻole ke hoʻokō me ka ʻole o ka hoʻolālā hou ʻana.

E mālama maʻalahi
Hiki i nā helu SLI paʻakikī ke hūnā i nā loli i ka hana ʻōnaehana a paʻakikī i ka ʻimi ʻana i ke kumu o ka pilikia.

Hōʻalo i nā mea kūʻokoʻa
ʻOiai e hoʻowalewale ʻia ka loaʻa ʻana o kahi ʻōnaehana hiki ke mālama i ka ukana ulu mau me ka hoʻonui ʻole ʻana i ka latency, ʻaʻole kūpono kēia koi. ʻO kahi ʻōnaehana e hoʻokokoke ana i ia mau manaʻo pono paha e koi nui i ka manawa e hoʻolālā a kūkulu ʻia, e uku nui ʻia ka hana, a maikaʻi loa no ka manaʻo o nā mea hoʻohana e hana me nā mea ʻuʻuku.

E hoʻohana i nā SLO liʻiliʻi e like me ka hiki
E koho i ka helu kūpono o nā SLO e hōʻoia i ka uhi maikaʻi ʻana o nā ʻano ʻōnaehana. Palekana i nā SLO āu e koho ai: Inā ʻaʻole hiki iā ʻoe ke lanakila i ka hoʻopaʻapaʻa e pili ana i nā mea nui ma ka wehewehe ʻana i kahi SLO kikoʻī, ʻaʻole pono paha e noʻonoʻo i kēlā SLO. Eia naʻe, ʻaʻole hiki i nā SLO nā ʻano ʻōnaehana āpau: paʻakikī ke helu i ka pae o ka hauʻoli o ka mea hoʻohana me ka hoʻohana ʻana i nā SLO.

Mai alualu i ka hemolele
Hiki iā ʻoe ke hoʻomaʻemaʻe mau i nā wehewehe a me nā pahuhopu o nā SLO i ka wā e aʻo hou ai ʻoe e pili ana i ke ʻano o ka ʻōnaehana ma lalo o ka ukana. ʻOi aku ka maikaʻi o ka hoʻomaka ʻana me kahi pahuhopu lana e hoʻomaʻemaʻe ai ʻoe i ka manawa ma mua o ke koho ʻana i kahi pahuhopu koʻikoʻi e hoʻomaha ʻia ke ʻike ʻoe ʻaʻole hiki ke loaʻa.

Hiki i nā SLO ke lilo i mea hoʻokele koʻikoʻi i ka hana mua ʻana no nā SRE a me nā mea hoʻomohala huahana no ka mea e hōʻike ana lākou i kahi hopohopo no nā mea hoʻohana. ʻO kahi SLO maikaʻi kahi mea hana hoʻokō pono no kahi hui hoʻomohala. Akā, hiki i ka SLO hoʻolālā maikaʻi ʻole ke alakaʻi i ka hana ʻino inā hoʻoikaika ka hui e hoʻokō i kahi SLO koʻikoʻi loa, a i ʻole kahi huahana maikaʻi ʻole inā haʻahaʻa loa ka SLO. He lever ikaika ʻo SLO, e hoʻohana me ke akamai.

E mālama i kāu mau ana

ʻO SLI a me SLO nā mea nui i hoʻohana ʻia e hoʻokele i nā ʻōnaehana:

  • Nānā a ana i nā ʻōnaehana SLI.
  • E hoʻohālikelike iā SLI me SLO a hoʻoholo inā pono ka hana.
  • Inā makemake ʻia ka hana, e noʻonoʻo i nā mea e pono ai e hoʻokō i ka pahuhopu.
  • E hoʻopau i kēia hana.

No ka laʻana, inā hōʻike ka ʻanuʻu 2 ua pau ka noi a e uhaʻi i ka SLO i kekahi mau hola inā ʻaʻohe mea i hana ʻia, hiki i ka hana 3 ke komo i ka hoʻāʻo ʻana i ke kuhiakau e pili ana nā kikowaena i ka CPU a me ka hoʻohui ʻana i nā kikowaena hou e puʻunaue i ka ukana. Inā ʻaʻole he SLO, ʻaʻole ʻoe e ʻike inā (a i ka wā) e hana ai.

E hoʻonoho iā SLO - a laila e hoʻonohonoho ʻia nā mea hoʻohana
ʻO ka hoʻopuka ʻana i kahi SLO e hoʻonohonoho i nā manaʻolana o ka mea hoʻohana no ka ʻōnaehana ʻōnaehana. Makemake pinepine nā mea hoʻohana (a me nā mea hoʻohana paha) e ʻike i ka mea e manaʻo ai mai kahi lawelawe e maopopo ai inā kūpono ia no ka hoʻohana. No ka laʻana, makemake paha ka poʻe e makemake e hoʻohana i kahi pūnaewele kaʻana like kiʻi e hōʻole i ka hoʻohana ʻana i kahi lawelawe e hoʻohiki ai i ka lōʻihi o ke ola a me ke kumu kūʻai haʻahaʻa no ka liʻiliʻi liʻiliʻi o ka loaʻa ʻana, ʻoiai ua kūpono paha ka lawelawe like no kahi ʻōnaehana hoʻokele waihona waihona.

No ka hoʻonohonoho ʻana i nā manaʻolana kūpono no kāu mea hoʻohana, e hoʻohana i hoʻokahi a i ʻole nā ​​​​mea ʻelua o kēia mau hana:

  • E mālama i kahi palena o ka palekana. E hoʻohana i kahi SLO kūloko ʻoi aku ka ikaika ma mua o ka mea i hoʻolaha ʻia i nā mea hoʻohana. Hāʻawi kēia iā ʻoe i ka manawa e pane ai i nā pilikia ma mua o ka ʻike ʻia ma waho. Hāʻawi ka SLO buffer iā ʻoe e loaʻa kahi palena palekana i ka wā e hoʻokomo ai i nā hoʻokuʻu e pili ana i ka hana ʻōnaehana a hōʻoia i ka maʻalahi o ka ʻōnaehana me ka ʻole e hoʻonāukiuki i nā mea hoʻohana me ka downtime.
  • Mai hoʻonui i ka manaʻo o ka mea hoʻohana. Hoʻokumu ʻia nā mea hoʻohana ma ka mea āu e hāʻawi ai, ʻaʻole ka mea āu e ʻōlelo ai. Inā ʻoi aku ka maikaʻi o ka hana maoli o kāu lawelawe ma mua o ka SLO i ʻōlelo ʻia, e hilinaʻi nā mea hoʻohana i ka hana o kēia manawa. Hiki iā ʻoe ke pale i ka hilinaʻi nui ʻana ma ke pani ʻana i ka ʻōnaehana a i ʻole ka palena ʻana i ka hana ma lalo o nā haʻahaʻa māmā.

ʻO ka hoʻomaopopo ʻana i ka maikaʻi o ka hoʻokō ʻana o kahi ʻōnaehana i nā mea i manaʻo ʻia e kōkua i ka hoʻoholo ʻana inā e hoʻopukapuka kālā i ka wikiwiki ʻana i ka ʻōnaehana a hiki ke maʻalahi a paʻa. ʻO kahi ʻē aʻe, inā ʻoi aku ka maikaʻi o kahi lawelawe, pono e hoʻohana ʻia kekahi manawa o nā limahana ma nā mea nui ʻē aʻe, e like me ka uku ʻana i ka ʻaiʻē ʻenehana, hoʻohui i nā hiʻohiʻona hou, a i ʻole ka hoʻolauna ʻana i nā huahana hou.

Nā ʻaelike ma ka hana

Pono ka hana ʻana i kahi SLA i nā hui ʻoihana a me ke kānāwai e wehewehe i nā hopena a me nā hoʻopaʻi no ka uhai ʻana. ʻO ka hana a ka SRE ke kōkua iā lākou e hoʻomaopopo i nā pilikia e pili ana i ka hālāwai ʻana i nā SLO i loko o ka SLA. ʻO ka hapa nui o nā ʻōlelo aʻoaʻo no ka hana ʻana i nā SLO pili pū kekahi i nā SLA. He mea naʻauao ka mālama ʻana i nā mea āu i hoʻohiki ai i nā mea hoʻohana no ka mea ʻoi aku ka nui o kāu, ʻoi aku ka paʻakikī o ka hoʻololi a i ʻole ka wehe ʻana i nā SLA i ʻike ʻole ʻia a paʻakikī paha ke hālāwai.

Mahalo iā ʻoe no ka heluhelu ʻana i ka unuhi a hiki i ka hopena. E kau inoa i kaʻu channel telegram e pili ana i ka nānā ʻana monitorim_it и blog ma Medium.

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka