నేను SRE ఇంజనీర్ ఇంటర్న్‌గా ఒక వారం ఎలా గడిపాను. సాఫ్ట్‌వేర్ ఇంజనీర్ దృష్టిలో డ్యూటీ

నేను SRE ఇంజనీర్ ఇంటర్న్‌గా ఒక వారం ఎలా గడిపాను. సాఫ్ట్‌వేర్ ఇంజనీర్ దృష్టిలో డ్యూటీ

SRE ఇంజనీర్ - ట్రైనీ

ముందుగా, నన్ను నేను పరిచయం చేసుకోనివ్వండి. నేను - @tristan.చదవండి, సమూహంలో ఫ్రంట్-ఎండ్ ఇంజనీర్ మానిటర్:: ఆరోగ్యం GitLab. గత వారం మా ఆన్-కాల్ SRE ఇంజనీర్‌లలో ఒకరితో ఇంటర్నింగ్ చేసే గౌరవం నాకు లభించింది. విధి నిర్వహణలో ఉన్న అధికారి రోజువారీ సంఘటనలపై ఎలా స్పందిస్తాడో గమనించడం మరియు ఉద్యోగంలో నిజ జీవిత అనుభవాన్ని పొందడం లక్ష్యం. మా ఇంజనీర్లు వినియోగదారు అవసరాలను బాగా అర్థం చేసుకోవాలని మేము కోరుకుంటున్నాము ఫంక్షన్ మానిటర్:: ఆరోగ్యం.

నేను ఒక వారం పాటు ప్రతిచోటా SRE ఇంజనీర్‌ని అనుసరించాల్సి వచ్చింది. అంటే, నేను హ్యాండ్‌ఓవర్‌లో ఉన్నాను, అదే హెచ్చరిక ఛానెల్‌లను పర్యవేక్షించాను మరియు సంఘటనలు జరిగినప్పుడు మరియు అవి సంభవించినప్పుడు వాటికి ప్రతిస్పందించాను.

సంఘటనలు

వారం వ్యవధిలోనే 2 ఘటనలు జరిగాయి.

1. క్రిప్టోమినర్

GitLab.com బుధవారం నాడు వినియోగం పెరిగింది GitLab రన్నర్'a, మైన్ క్రిప్టోకరెన్సీకి రన్నర్ నిమిషాలను ఉపయోగించే ప్రయత్నాల వల్ల ఏర్పడింది. ఈ సంఘటన మా స్వంత ఉల్లంఘన తటస్థీకరణ సాధనాన్ని ఉపయోగించడం ద్వారా పరిష్కరించబడింది, ఇది రన్నర్ టాస్క్‌లను ఆపివేస్తుంది మరియు దానితో అనుబంధించబడిన ప్రాజెక్ట్ మరియు ఖాతాను తొలగిస్తుంది.

ఈ ఈవెంట్ గుర్తించబడకపోతే, ఆటోమేటెడ్ టూల్ దానిని పట్టుకుని ఉండేది, కానీ ఈ సందర్భంలో, SRE ఇంజనీర్ ఉల్లంఘనను ముందుగా గమనించారు. సంఘటన టాస్క్ సృష్టించబడింది, కానీ దానిపై సమాచారం మూసివేయబడింది.

2. కానరీ మరియు మెయిన్ అప్లికేషన్‌ల పనితీరు క్షీణత

Gitlab.comలో కానరీ మరియు ప్రధాన వెబ్ అప్లికేషన్‌లలో స్లోడౌన్‌లు మరియు ఎర్రర్‌ల ఫ్రీక్వెన్సీ పెరగడం వల్ల ఈ సంఘటన జరిగింది. అనేక అప్డెక్స్ విలువలు ఉల్లంఘించబడ్డాయి.

సంఘటన టాస్క్‌ని తెరవండి: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

కీ అన్వేషణలు

డ్యూటీలో ఉన్న వారంలో నేను నేర్చుకున్న కొన్ని విషయాలు ఇక్కడ ఉన్నాయి.

1. కట్టుబాటు నుండి వ్యత్యాసాలను గుర్తించేటప్పుడు హెచ్చరికలు చాలా ఉపయోగకరంగా ఉంటాయి.

హెచ్చరికలను అనేక రకాలుగా విభజించవచ్చు:

  • "సెకనుకు 10 5xx లోపాలు సంభవించాయి" వంటి నిర్దిష్ట థ్రెషోల్డ్ విలువ ఆధారంగా హెచ్చరికలు.
  • థ్రెషోల్డ్‌లో "ఇచ్చిన సమయంలో అభ్యర్థనల మొత్తం వాల్యూమ్‌లో 5%కి 10xx ఎర్రర్‌ల ఫ్రీక్వెన్సీ" వంటి శాతం విలువ ఉండే హెచ్చరికలు.
  • "5వ పర్సంటైల్ వద్ద 90xx లోపాలు" వంటి చారిత్రక సగటు ఆధారంగా హెచ్చరికలు.

సాధారణంగా చెప్పాలంటే, విధి నిర్వహణలో ఉన్న SREలకు 2 మరియు 3 రకాలు మరింత ఉపయోగకరంగా ఉంటాయి, ఎందుకంటే అవి ప్రక్రియలో కట్టుబాటు నుండి వ్యత్యాసాలను వెల్లడిస్తాయి.

2. అనేక హెచ్చరికలు ఎప్పుడూ సంఘటనలకు దారితీయవు.

SR ఇంజనీర్లు స్థిరమైన హెచ్చరికలతో వ్యవహరిస్తారు, వీటిలో చాలా వరకు క్లిష్టమైనవి కావు.

కాబట్టి మీ హెచ్చరికలను నిజంగా ముఖ్యమైన వాటికి మాత్రమే ఎందుకు పరిమితం చేయకూడదు? అయితే, ఈ విధానంతో, మీరు స్నోబాల్‌ని నిజమైన సమస్యగా మార్చే ప్రారంభ లక్షణాలను గుర్తించలేరు, అది పెద్ద నష్టాన్ని ముప్పుతిప్పలు పెడుతుంది.

ఆన్-కాల్ SRE యొక్క పని ఏమిటంటే, ఏ హెచ్చరికలు వాస్తవానికి ఏదైనా తీవ్రమైన విషయాన్ని సూచిస్తాయో మరియు వాటిని పెంచి పరిష్కరించాల్సిన అవసరం ఉందా అని నిర్ణయించడం. ఇది హెచ్చరికల యొక్క వశ్యత కారణంగా కూడా ఉందని నేను అనుమానిస్తున్నాను: పైన వివరించిన పరిస్థితికి అనుగుణంగా హెచ్చరికలను కాన్ఫిగర్ చేయడానికి అనేక స్థాయిలు లేదా "స్మార్ట్" మార్గాలు ఉంటే మంచిది.

ఫీచర్ సూచన: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. విధి నిర్వహణలో ఉన్న మా SREలు చాలా సాధనాలను ఉపయోగిస్తాయి.

అంతర్గత:

  • GitLab ఇన్‌ఫ్రా ప్రాజెక్ట్: రన్‌బుక్‌లు ఇక్కడ ఉన్నాయి, షిఫ్ట్/వారం అసైన్‌మెంట్‌లు, సంఘటన ప్రతిస్పందన పనులు.
  • GitLab సమస్యలు: సమస్యలలో పరిశోధనలు, సమీక్షలు మరియు నిర్వహణ కూడా ట్రాక్ చేయబడతాయి.
  • GitLab లేబుల్‌లు: టాస్క్ యాక్టివిటీని ట్రాక్ చేయడానికి బాట్‌లు ఉపయోగించే నిర్దిష్ట లేబుల్‌లను ఉపయోగించి ఆటోమేషన్ టాస్క్‌లు ప్రారంభించబడతాయి.

బాహ్య:

  • పేజర్‌డ్యూటీ: హెచ్చరికలు
  • స్లాక్: పేజర్‌డ్యూటీ/అలెర్ట్‌మేనేజర్ మెసేజ్ ఫ్లో ఇక్కడకు వెళుతుంది. హెచ్చరికను మూసివేయడం లేదా ఒక సంఘటనను పెంచడం వంటి అనేక రకాల పనులను నిర్వహించడానికి స్లాష్ ఆదేశాలతో ఏకీకరణ.
  • గ్రాఫానా: దీర్ఘకాలిక ట్రెండ్‌లపై దృష్టి సారించి మెట్రిక్‌ల విజువలైజేషన్.
  • కిబానా: విజువలైజేషన్/లాగ్ సెర్చ్, నిర్దిష్ట ఈవెంట్‌లను లోతుగా తీయగల సామర్థ్యాన్ని అందిస్తుంది.
  • జూమ్: జూమ్‌లో నిరంతరం నడుస్తున్న “బ్రేక్‌అవుట్ గది” ఉంది. ఇది SRE ఇంజనీర్‌లు ఒక గదిని సృష్టించడం మరియు పాల్గొనేవారిని లింక్ చేయడం ద్వారా విలువైన సమయాన్ని వృథా చేయకుండా ఈవెంట్‌లను త్వరగా చర్చించడానికి అనుమతిస్తుంది.

మరియు అనేక ఇతర.

4. GitLabతో GitLab.comని పర్యవేక్షించడం అనేది ఒక వైఫల్యం

GitLab.com ప్రధాన సేవా అంతరాయాన్ని అనుభవిస్తే, సమస్యను పరిష్కరించే మా సామర్థ్యాన్ని అది ప్రభావితం చేయకూడదనుకుంటున్నాము. GitLab.comని నిర్వహించడానికి రెండవ GitLab ఉదాహరణను ప్రారంభించడం ద్వారా దీన్ని నిలిపివేయవచ్చు. నిజానికి, ఇది ఇప్పటికే మాకు పని చేస్తుంది: https://ops.gitlab.net/.

5. GitLabకి జోడించడాన్ని పరిగణించవలసిన కొన్ని లక్షణాలు

  • బహుళ-వినియోగదారు విధి సవరణ, Google డాక్స్ మాదిరిగానే. ఇది ఈవెంట్ సమయంలో జరిగిన సంఘటనలపై టాస్క్‌లకు, అలాగే డిబ్రీఫింగ్‌పై టాస్క్‌లకు సహాయపడుతుంది. రెండు సందర్భాల్లో, పలువురు పాల్గొనేవారు నిజ సమయంలో ఏదైనా జోడించాల్సి రావచ్చు.
  • టాస్క్‌ల కోసం మరిన్ని వెబ్‌హుక్స్. వివిధ GitLab వర్క్‌ఫ్లో దశలను లోపల నుండి అమలు చేయగల సామర్థ్యం స్లాక్ ఇంటిగ్రేషన్‌లపై మీ ఆధారపడటాన్ని తగ్గించడంలో సహాయపడుతుంది. ఉదాహరణకు, GitLab సమస్యలో స్లాష్ కమాండ్ ద్వారా పేజర్‌డ్యూటీలో హెచ్చరికను అనుమతించే సామర్థ్యం.
    తీర్మానం

SRE ఇంజనీర్లు చాలా సంక్లిష్టతలతో చాలా కష్టంగా ఉన్నారు. ఈ సమస్యలను పరిష్కరించే మరిన్ని GitLab ఉత్పత్తులను చూడటం చాలా బాగుంది. పైన పేర్కొన్న వర్క్‌ఫ్లోలను సులభతరం చేసే ఉత్పత్తికి మేము ఇప్పటికే కొన్ని జోడింపులపై పని చేస్తున్నాము. వివరాలు అందుబాటులో ఉన్నాయి Ops ఉత్పత్తి విజన్ విభాగం.

ఈ గొప్ప ఫీచర్లన్నింటినీ ఒకచోట చేర్చేందుకు మేము 2020లో బృందాన్ని విస్తరిస్తున్నాము. ఆసక్తి ఉంటే, దయచేసి తనిఖీ చేయండి ఖాళీలు, మరియు ఏవైనా సందేహాలుంటే మా బృందంలోని ఎవరినైనా సంప్రదించడానికి సంకోచించకండి.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి