హబ్ర్ పోస్టుమార్టం నివేదిక: వార్తాపత్రికపై పడింది

వేసవి 2019 మొదటి మరియు రెండవ నెల ముగింపు కష్టంగా మారింది మరియు గ్లోబల్ ఐటి సేవల్లో అనేక పెద్ద తగ్గింపుల ద్వారా గుర్తించబడింది. గుర్తించదగిన వాటిలో: క్లౌడ్‌ఫ్లేర్ ఇన్‌ఫ్రాస్ట్రక్చర్‌లో రెండు తీవ్రమైన సంఘటనలు (మొదటిది - వంకర చేతులు మరియు USA నుండి కొంతమంది ISPలు BGP పట్ల నిర్లక్ష్య వైఖరితో; రెండవది - CF యొక్క వంకర విస్తరణతో, ఇది CFని ఉపయోగించే ప్రతి ఒక్కరినీ ప్రభావితం చేసింది. , మరియు ఇవి చాలా ముఖ్యమైన సేవలు) మరియు Facebook CDN అవస్థాపన యొక్క అస్థిర ఆపరేషన్ (Instagram మరియు WhatsAppతో సహా అన్ని FB ఉత్పత్తులను ప్రభావితం చేస్తుంది). ప్రపంచ నేపథ్యానికి వ్యతిరేకంగా మా అంతరాయాలు చాలా తక్కువగా గుర్తించబడినప్పటికీ, మేము కూడా పంపిణీ కిందకు రావాల్సి వచ్చింది. ఎవరో ఇప్పటికే బ్లాక్ హెలికాప్టర్లు మరియు "సార్వభౌమ" కుట్రలను లాగడం ప్రారంభించారు, కాబట్టి మేము మా సంఘటన యొక్క బహిరంగ పోస్ట్ మార్టంను విడుదల చేస్తున్నాము.

హబ్ర్ పోస్టుమార్టం నివేదిక: వార్తాపత్రికపై పడింది

03.07.2019, 16: 05
అంతర్గత నెట్‌వర్క్ కనెక్టివిటీలో విచ్ఛిన్నం వలె వనరులతో సమస్యలు నమోదు చేయడం ప్రారంభించబడ్డాయి. అన్నింటినీ పూర్తిగా తనిఖీ చేయని కారణంగా, వారు డేటాలైన్ వైపు బాహ్య ఛానెల్ యొక్క పనితీరుపై తప్పులు చేయడం ప్రారంభించారు, ఎందుకంటే సమస్య BGP సెషన్‌ను ఉంచే స్థాయికి ఇంటర్నెట్‌కు (NAT) అంతర్గత నెట్‌వర్క్ యాక్సెస్‌తో ఉందని స్పష్టమైంది. డేటాలైన్.

03.07.2019, 16: 35
నెట్‌వర్క్ చిరునామా అనువాదం మరియు సైట్ యొక్క స్థానిక నెట్‌వర్క్ నుండి ఇంటర్నెట్ (NAT)కి యాక్సెస్‌ను అందించే పరికరాలు విఫలమయ్యాయని స్పష్టమైంది. పరికరాలను రీబూట్ చేసే ప్రయత్నాలు దేనికీ దారితీయలేదు, కనెక్టివిటీని నిర్వహించడానికి ప్రత్యామ్నాయ ఎంపికల కోసం అన్వేషణ సాంకేతిక మద్దతు నుండి ప్రతిస్పందనను స్వీకరించడానికి ముందు ప్రారంభమైంది, ఎందుకంటే అనుభవం నుండి, ఇది చాలావరకు సహాయం చేయదు.

ఈ పరికరం క్లయింట్ VPN ఉద్యోగుల ఇన్‌కమింగ్ కనెక్షన్‌లను కూడా రద్దు చేయడంతో సమస్య కొంత తీవ్రతరం అయ్యింది మరియు రిమోట్ రికవరీ పనిని నిర్వహించడం మరింత కష్టమైంది.

03.07.2019, 16: 40
మేము ఇంతకు ముందు బాగా పనిచేసిన బ్యాకప్ NAT పథకాన్ని పునరుద్ధరించడానికి ప్రయత్నించాము. కానీ అనేక నెట్‌వర్క్ పునరుద్ధరణలు ఈ పథకాన్ని దాదాపు పూర్తిగా పనికిరాకుండా చేశాయని స్పష్టమైంది, ఎందుకంటే దాని పునరుద్ధరణ ఉత్తమంగా, పని చేయదు లేదా చెత్తగా, ఇప్పటికే పని చేస్తున్న వాటిని విచ్ఛిన్నం చేస్తుంది.

వెన్నెముకకు సేవలందించే కొత్త రౌటర్ల సెట్‌కు ట్రాఫిక్‌ను బదిలీ చేయడానికి మేము కొన్ని ఆలోచనలపై పని చేయడం ప్రారంభించాము, అయితే కోర్ నెట్‌వర్క్‌లోని మార్గాల పంపిణీ యొక్క ప్రత్యేకతల కారణంగా అవి పని చేయలేనివిగా అనిపించాయి.

03.07.2019, 17: 05
అదే సమయంలో, నేమ్ సర్వర్‌లలోని నేమ్ రిజల్యూషన్ మెకానిజంలో ఒక సమస్య గుర్తించబడింది, ఇది అప్లికేషన్‌లలో ఎండ్ పాయింట్‌లను పరిష్కరించడంలో లోపాలకు దారితీసింది మరియు వారు క్లిష్టమైన సేవల రికార్డులతో హోస్ట్‌ల ఫైల్‌లను త్వరగా పూరించడం ప్రారంభించారు.

03.07.2019, 17: 27
Habr యొక్క పరిమిత కార్యాచరణ పునరుద్ధరించబడింది.

03.07.2019, 17: 43
కానీ చివరికి, సరిహద్దు రౌటర్లలో ఒకదాని ద్వారా ట్రాఫిక్ను నిర్వహించడానికి సాపేక్షంగా సురక్షితమైన పరిష్కారం కనుగొనబడింది, ఇది త్వరగా వ్యవస్థాపించబడింది. ఇంటర్నెట్ కనెక్టివిటీ పునరుద్ధరించబడింది.

తదుపరి కొన్ని నిమిషాల్లో, మానిటరింగ్ ఏజెంట్ల కార్యాచరణను పునరుద్ధరించడం గురించి పర్యవేక్షణ వ్యవస్థల నుండి చాలా నోటిఫికేషన్‌లు వచ్చాయి, అయితే నేమ్ సర్వర్‌లలో (dns) పేరు రిజల్యూషన్ మెకానిజం విచ్ఛిన్నమైనందున కొన్ని సేవలు పనికిరానివిగా మారాయి.

హబ్ర్ పోస్టుమార్టం నివేదిక: వార్తాపత్రికపై పడింది

03.07.2019, 17: 52
NS పునఃప్రారంభించబడింది మరియు కాష్ క్లియర్ చేయబడింది. పరిష్కారం పునరుద్ధరించబడింది.

03.07.2019, 17: 55
MK, Freelansim మరియు Toaster మినహా అన్ని సేవలు పని చేయడం ప్రారంభించాయి.

03.07.2019, 18: 02
MK మరియు Freelansim పని చేయడం ప్రారంభించారు.

03.07.2019, 18: 07
DataLineతో అమాయక BGP సెషన్‌ను తిరిగి పొందండి.

03.07.2019, 18: 25
వారు వనరులతో సమస్యలను రికార్డ్ చేయడం ప్రారంభించారు, ఇది NAT పూల్ యొక్క బాహ్య చిరునామాలో మార్పు మరియు అనేక సేవల యొక్క aclలో లేకపోవడం వలన, ఇది వెంటనే సరిదిద్దబడింది. టోస్టర్ వెంటనే పని చేయడం ప్రారంభించింది.

03.07.2019, 20: 30
మేము టెలిగ్రామ్ బాట్‌లకు సంబంధించిన లోపాలను గమనించాము. వారు బాహ్య చిరునామాను రెండు acl (ప్రాక్సీ సర్వర్లు) లో నమోదు చేయడం మర్చిపోయారని తేలింది, అది వెంటనే సరిదిద్దబడింది.

హబ్ర్ పోస్టుమార్టం నివేదిక: వార్తాపత్రికపై పడింది

కనుగొన్న

  • ఇంతకుముందు దాని అనుకూలతపై సందేహాలను నాటిన పరికరాలు విఫలమయ్యాయి. ఇది నెట్‌వర్క్ అభివృద్ధికి ఆటంకం కలిగిస్తుంది మరియు అనుకూలత సమస్యలను కలిగి ఉన్నందున దానిని పని నుండి తొలగించే ప్రణాళికలు ఉన్నాయి, కానీ అదే సమయంలో ఇది క్లిష్టమైన పనితీరును నిర్వహించింది, అందుకే సేవలకు అంతరాయం కలిగించకుండా ఏదైనా భర్తీ చేయడం సాంకేతికంగా కష్టం. ఇప్పుడు మీరు కొనసాగవచ్చు.
  • DNS సమస్యను NAT నెట్‌వర్క్ వెలుపల ఉన్న కొత్త బ్యాక్‌బోన్ నెట్‌వర్క్‌కు దగ్గరగా తరలించడం ద్వారా నివారించవచ్చు మరియు అనువాదం లేకుండానే గ్రే నెట్‌వర్క్‌కు పూర్తి కనెక్టివిటీని కలిగి ఉంటుంది (ఇది సంఘటనకు ముందు ప్రణాళిక).
  • RDBMS క్లస్టర్‌లను అసెంబ్లింగ్ చేసేటప్పుడు మీరు డొమైన్ పేర్లను ఉపయోగించకూడదు, ఎందుకంటే IP చిరునామాను పారదర్శకంగా మార్చే సౌలభ్యం ప్రత్యేకంగా అవసరం లేదు, ఎందుకంటే ఇటువంటి అవకతవకలకు ఇప్పటికీ క్లస్టర్‌ను పునర్నిర్మించాల్సిన అవసరం ఉంది. ఈ నిర్ణయం చారిత్రక కారణాలతో నిర్దేశించబడింది మరియు అన్నింటిలో మొదటిది, RDBMS కాన్ఫిగరేషన్‌లలో పేరు ద్వారా ముగింపు బిందువుల యొక్క స్పష్టత ద్వారా నిర్దేశించబడింది. సాధారణంగా, ఒక క్లాసిక్ ఉచ్చు.
  • సూత్రప్రాయంగా, "రునెట్ యొక్క సార్వభౌమాధికారం" తో పోల్చదగిన వ్యాయామాలు నిర్వహించబడ్డాయి, స్వయంప్రతిపత్త మనుగడ యొక్క సామర్థ్యాలను బలోపేతం చేయడం గురించి ఆలోచించాల్సిన అవసరం ఉంది.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి