Letar efter ett problem på fel ställe

Det här är en novell från verklig praktik, när ett litet problem, väl förtäckt av feltolerans, förvandlas till huvudvärk.

Liten disposition:

En liten gren, den har sin egen PBX (asterisk + FreePBX) baserad på skrivbordshårdvara och samma lokala terminalserver med 1C, en fildump och en virtuell RO-domänkontrollant. Internet distribuerar Mikrotik. Grenen är liten, det räcker för dem.
Allt började med övervakning (på grund av tidsbrist och lättja övervakas inte allt), som rapporterade överhettning av en server (med en PBX) i filialen. Medan lokalbefolkningen löste problemet frös den gamle mannen och bröt MySQL-databasen något.

Många saker förebådade problem, men inte den här...

Inga problem, basen är reparerad, allt ska fungera. Men lokalbefolkningen klagar, samtal släpps. Okej - det finns problem i FreePBX, jag tar en säkerhetskopia, distribuerar den, allt är OK.
Men problemet är där, lokalbefolkningen klagar fortfarande, samtal går inte igenom normalt. Före dem verkar samtalet gå igenom normalt, men när de ringer sig själva, eller ringer upp varandra, blir det en fördröjning på flera sekunder. Jag börjar titta på de omfattande och obegripliga loggarna för Asterisk och FreePBX, men jag kan inte upptäcka problemet i dem. Jag minns att det var ett problem med STUN och ICE, vilket gav en liknande fördröjning. Jag stänger av allt åt helvete, resultatet är noll.

Uppgivenhet är vägen till att fatta dåliga beslut:

Jag håller på att bli deprimerad, att pyssla med ATS i många timmar leder inte till något bra, det är redan sent på natten, och problemet är inte löst.
Jag lämnade problemet till morgonen i hopp om ett friskt huvud. På morgonen togs ett annat misslyckat beslut: eftersom systemet var trasigt (även om beroendet inte kunde ha varit så destruktivt), försökte jag fixa systemet genom att installera om alla paket. Resultatet är något mer än noll, fördröjningen har minskat (inte nämnvärt, men redan en framgång).
Jag tar ett annat dåligt beslut: om partiell reparation av operativsystemet (och databasen från säkerhetskopian) hade liten framgång, och roten till problemet fortfarande inte är klar, och mycket tid har redan lagts ner på att söka efter orsaken, då bestämmer jag mig för att agera radikalt: vi demolerar OS och vi rullar över allt från grunden (lyckligtvis gör automatiseringen av processen detta på en acceptabel tid). Jag rullar upp FreePBX-konfigurationen från en kopia. Ännu ett misslyckande. Resultatet är noll!

Förtvivlan – sinnet grumlas, besluten blir ännu värre

Jag håller på att bli förtvivlad. Mycket dåliga tankar börjar komma tänker jag: kanske conf i backupen är sned (det hände mig efter ett antal uppdateringar att det inte fungerade efter dem, och jag kunde inte hitta orsaken), det finns inget kvar : Jag måste rulla över allt från grunden med händerna. Vilken skam! Resultatet är strikt noll, och mycket tid bortkastad!

Acceptans är vägen till medvetenhet

I desperata försök att förstå vad som händer börjar jag noggrant studera loggarna. Jag märker ett mönster. Ett anknytningssamtal sker på exakt 5 sekunder, och för en grupp av samtal på 3 anknytningar på 15! Jag börjar googla om samtalsfördröjning, men anger redan en specifik fördröjning. Och jag stöter på svaret som jag redan har hittat, folk säger att problemet ligger i DNS, men jag vet med säkerhet att det inte är några problem, alla adresser är lösta!

Uppenbart - inte troligt

Det finns inget att göra, jag plockar upp nslookup och bingo (jag önskar att jag kunde göra det här direkt)! Den primära DNS finns där (virtuell maskin med en kontroller), men jag märkte inte ens! Om det bara fanns en DNS skulle det vara ett fel 😉

Totalt

Ett elementärt problem som kunde ha setts genom övervakning (som bör konfigureras för alla noder), maskerat av DNS-feltolerans, ledde till att nästan två arbetsdagar försvann för att lösa en dum situation. Lathet är jobbigt, att sätta upp övervakning tar en minut och att leta efter ett problem där det inte finns tar två dagar.

Endast registrerade användare kan delta i undersökningen. Logga in, Snälla du.

Har detta någonsin hänt dig?

  • Ja, väldigt sällan

  • Ja, sällan

  • Ofta

  • Väldigt ofta

  • Nej, med vem som helst, bara inte med mig!

  • Nej, jag är ofelbar!

2 användare röstade. 1 användare avstod från att rösta.

Källa: will.com

Lägg en kommentar