ప్రోహోస్టర్ > బ్లాగ్ > పరిపాలన > నేను SRE ఇంజనీర్ ఇంటర్న్గా ఒక వారం ఎలా గడిపాను. సాఫ్ట్వేర్ ఇంజనీర్ దృష్టిలో డ్యూటీ
నేను SRE ఇంజనీర్ ఇంటర్న్గా ఒక వారం ఎలా గడిపాను. సాఫ్ట్వేర్ ఇంజనీర్ దృష్టిలో డ్యూటీ
SRE ఇంజనీర్ - ట్రైనీ
ముందుగా, నన్ను నేను పరిచయం చేసుకోనివ్వండి. నేను - @tristan.చదవండి, సమూహంలో ఫ్రంట్-ఎండ్ ఇంజనీర్ మానిటర్:: ఆరోగ్యం GitLab. గత వారం మా ఆన్-కాల్ SRE ఇంజనీర్లలో ఒకరితో ఇంటర్నింగ్ చేసే గౌరవం నాకు లభించింది. విధి నిర్వహణలో ఉన్న అధికారి రోజువారీ సంఘటనలపై ఎలా స్పందిస్తాడో గమనించడం మరియు ఉద్యోగంలో నిజ జీవిత అనుభవాన్ని పొందడం లక్ష్యం. మా ఇంజనీర్లు వినియోగదారు అవసరాలను బాగా అర్థం చేసుకోవాలని మేము కోరుకుంటున్నాము ఫంక్షన్ మానిటర్:: ఆరోగ్యం.
నేను ఒక వారం పాటు ప్రతిచోటా SRE ఇంజనీర్ని అనుసరించాల్సి వచ్చింది. అంటే, నేను హ్యాండ్ఓవర్లో ఉన్నాను, అదే హెచ్చరిక ఛానెల్లను పర్యవేక్షించాను మరియు సంఘటనలు జరిగినప్పుడు మరియు అవి సంభవించినప్పుడు వాటికి ప్రతిస్పందించాను.
సంఘటనలు
వారం వ్యవధిలోనే 2 ఘటనలు జరిగాయి.
1. క్రిప్టోమినర్
GitLab.com బుధవారం నాడు వినియోగం పెరిగింది GitLab రన్నర్'a, మైన్ క్రిప్టోకరెన్సీకి రన్నర్ నిమిషాలను ఉపయోగించే ప్రయత్నాల వల్ల ఏర్పడింది. ఈ సంఘటన మా స్వంత ఉల్లంఘన తటస్థీకరణ సాధనాన్ని ఉపయోగించడం ద్వారా పరిష్కరించబడింది, ఇది రన్నర్ టాస్క్లను ఆపివేస్తుంది మరియు దానితో అనుబంధించబడిన ప్రాజెక్ట్ మరియు ఖాతాను తొలగిస్తుంది.
ఈ ఈవెంట్ గుర్తించబడకపోతే, ఆటోమేటెడ్ టూల్ దానిని పట్టుకుని ఉండేది, కానీ ఈ సందర్భంలో, SRE ఇంజనీర్ ఉల్లంఘనను ముందుగా గమనించారు. సంఘటన టాస్క్ సృష్టించబడింది, కానీ దానిపై సమాచారం మూసివేయబడింది.
2. కానరీ మరియు మెయిన్ అప్లికేషన్ల పనితీరు క్షీణత
Gitlab.comలో కానరీ మరియు ప్రధాన వెబ్ అప్లికేషన్లలో స్లోడౌన్లు మరియు ఎర్రర్ల ఫ్రీక్వెన్సీ పెరగడం వల్ల ఈ సంఘటన జరిగింది. అనేక అప్డెక్స్ విలువలు ఉల్లంఘించబడ్డాయి.
డ్యూటీలో ఉన్న వారంలో నేను నేర్చుకున్న కొన్ని విషయాలు ఇక్కడ ఉన్నాయి.
1. కట్టుబాటు నుండి వ్యత్యాసాలను గుర్తించేటప్పుడు హెచ్చరికలు చాలా ఉపయోగకరంగా ఉంటాయి.
హెచ్చరికలను అనేక రకాలుగా విభజించవచ్చు:
"సెకనుకు 10 5xx లోపాలు సంభవించాయి" వంటి నిర్దిష్ట థ్రెషోల్డ్ విలువ ఆధారంగా హెచ్చరికలు.
థ్రెషోల్డ్లో "ఇచ్చిన సమయంలో అభ్యర్థనల మొత్తం వాల్యూమ్లో 5%కి 10xx ఎర్రర్ల ఫ్రీక్వెన్సీ" వంటి శాతం విలువ ఉండే హెచ్చరికలు.
"5వ పర్సంటైల్ వద్ద 90xx లోపాలు" వంటి చారిత్రక సగటు ఆధారంగా హెచ్చరికలు.
సాధారణంగా చెప్పాలంటే, విధి నిర్వహణలో ఉన్న SREలకు 2 మరియు 3 రకాలు మరింత ఉపయోగకరంగా ఉంటాయి, ఎందుకంటే అవి ప్రక్రియలో కట్టుబాటు నుండి వ్యత్యాసాలను వెల్లడిస్తాయి.
2. అనేక హెచ్చరికలు ఎప్పుడూ సంఘటనలకు దారితీయవు.
SR ఇంజనీర్లు స్థిరమైన హెచ్చరికలతో వ్యవహరిస్తారు, వీటిలో చాలా వరకు క్లిష్టమైనవి కావు.
కాబట్టి మీ హెచ్చరికలను నిజంగా ముఖ్యమైన వాటికి మాత్రమే ఎందుకు పరిమితం చేయకూడదు? అయితే, ఈ విధానంతో, మీరు స్నోబాల్ని నిజమైన సమస్యగా మార్చే ప్రారంభ లక్షణాలను గుర్తించలేరు, అది పెద్ద నష్టాన్ని ముప్పుతిప్పలు పెడుతుంది.
ఆన్-కాల్ SRE యొక్క పని ఏమిటంటే, ఏ హెచ్చరికలు వాస్తవానికి ఏదైనా తీవ్రమైన విషయాన్ని సూచిస్తాయో మరియు వాటిని పెంచి పరిష్కరించాల్సిన అవసరం ఉందా అని నిర్ణయించడం. ఇది హెచ్చరికల యొక్క వశ్యత కారణంగా కూడా ఉందని నేను అనుమానిస్తున్నాను: పైన వివరించిన పరిస్థితికి అనుగుణంగా హెచ్చరికలను కాన్ఫిగర్ చేయడానికి అనేక స్థాయిలు లేదా "స్మార్ట్" మార్గాలు ఉంటే మంచిది.
3. విధి నిర్వహణలో ఉన్న మా SREలు చాలా సాధనాలను ఉపయోగిస్తాయి.
అంతర్గత:
GitLab ఇన్ఫ్రా ప్రాజెక్ట్: రన్బుక్లు ఇక్కడ ఉన్నాయి, షిఫ్ట్/వారం అసైన్మెంట్లు, సంఘటన ప్రతిస్పందన పనులు.
GitLab సమస్యలు: సమస్యలలో పరిశోధనలు, సమీక్షలు మరియు నిర్వహణ కూడా ట్రాక్ చేయబడతాయి.
GitLab లేబుల్లు: టాస్క్ యాక్టివిటీని ట్రాక్ చేయడానికి బాట్లు ఉపయోగించే నిర్దిష్ట లేబుల్లను ఉపయోగించి ఆటోమేషన్ టాస్క్లు ప్రారంభించబడతాయి.
బాహ్య:
పేజర్డ్యూటీ: హెచ్చరికలు
స్లాక్: పేజర్డ్యూటీ/అలెర్ట్మేనేజర్ మెసేజ్ ఫ్లో ఇక్కడకు వెళుతుంది. హెచ్చరికను మూసివేయడం లేదా ఒక సంఘటనను పెంచడం వంటి అనేక రకాల పనులను నిర్వహించడానికి స్లాష్ ఆదేశాలతో ఏకీకరణ.
గ్రాఫానా: దీర్ఘకాలిక ట్రెండ్లపై దృష్టి సారించి మెట్రిక్ల విజువలైజేషన్.
కిబానా: విజువలైజేషన్/లాగ్ సెర్చ్, నిర్దిష్ట ఈవెంట్లను లోతుగా తీయగల సామర్థ్యాన్ని అందిస్తుంది.
జూమ్: జూమ్లో నిరంతరం నడుస్తున్న “బ్రేక్అవుట్ గది” ఉంది. ఇది SRE ఇంజనీర్లు ఒక గదిని సృష్టించడం మరియు పాల్గొనేవారిని లింక్ చేయడం ద్వారా విలువైన సమయాన్ని వృథా చేయకుండా ఈవెంట్లను త్వరగా చర్చించడానికి అనుమతిస్తుంది.
మరియు అనేక ఇతర.
4. GitLabతో GitLab.comని పర్యవేక్షించడం అనేది ఒక వైఫల్యం
GitLab.com ప్రధాన సేవా అంతరాయాన్ని అనుభవిస్తే, సమస్యను పరిష్కరించే మా సామర్థ్యాన్ని అది ప్రభావితం చేయకూడదనుకుంటున్నాము. GitLab.comని నిర్వహించడానికి రెండవ GitLab ఉదాహరణను ప్రారంభించడం ద్వారా దీన్ని నిలిపివేయవచ్చు. నిజానికి, ఇది ఇప్పటికే మాకు పని చేస్తుంది: https://ops.gitlab.net/.
5. GitLabకి జోడించడాన్ని పరిగణించవలసిన కొన్ని లక్షణాలు
బహుళ-వినియోగదారు విధి సవరణ, Google డాక్స్ మాదిరిగానే. ఇది ఈవెంట్ సమయంలో జరిగిన సంఘటనలపై టాస్క్లకు, అలాగే డిబ్రీఫింగ్పై టాస్క్లకు సహాయపడుతుంది. రెండు సందర్భాల్లో, పలువురు పాల్గొనేవారు నిజ సమయంలో ఏదైనా జోడించాల్సి రావచ్చు.
టాస్క్ల కోసం మరిన్ని వెబ్హుక్స్. వివిధ GitLab వర్క్ఫ్లో దశలను లోపల నుండి అమలు చేయగల సామర్థ్యం స్లాక్ ఇంటిగ్రేషన్లపై మీ ఆధారపడటాన్ని తగ్గించడంలో సహాయపడుతుంది. ఉదాహరణకు, GitLab సమస్యలో స్లాష్ కమాండ్ ద్వారా పేజర్డ్యూటీలో హెచ్చరికను అనుమతించే సామర్థ్యం.
తీర్మానం
SRE ఇంజనీర్లు చాలా సంక్లిష్టతలతో చాలా కష్టంగా ఉన్నారు. ఈ సమస్యలను పరిష్కరించే మరిన్ని GitLab ఉత్పత్తులను చూడటం చాలా బాగుంది. పైన పేర్కొన్న వర్క్ఫ్లోలను సులభతరం చేసే ఉత్పత్తికి మేము ఇప్పటికే కొన్ని జోడింపులపై పని చేస్తున్నాము. వివరాలు అందుబాటులో ఉన్నాయి Ops ఉత్పత్తి విజన్ విభాగం.
ఈ గొప్ప ఫీచర్లన్నింటినీ ఒకచోట చేర్చేందుకు మేము 2020లో బృందాన్ని విస్తరిస్తున్నాము. ఆసక్తి ఉంటే, దయచేసి తనిఖీ చేయండి ఖాళీలు, మరియు ఏవైనా సందేహాలుంటే మా బృందంలోని ఎవరినైనా సంప్రదించడానికి సంకోచించకండి.