Iskanje težave na napačnem mestu

To je kratka zgodba iz resnične prakse, ko se majhna težava, dobro prikrita s toleranco napak, spremeni v glavobol.

Majhna dispozicija:

Majhna podružnica ima lastno telefonsko centralo (zvezdica + FreePBX), ki temelji na namizni strojni opremi in istem lokalnem terminalskem strežniku z 1C, izpisom datoteke in virtualnim krmilnikom domene RO. Internet distribuira Mikrotik. Podružnica je majhna, to jim je dovolj.
Vse se je začelo z monitoringom (zaradi pomanjkanja časa in lenobe se ne spremlja vse), ki je javil pregrevanje enega strežnika (s PBX) v poslovalnici. Medtem ko so domačini reševali težavo, je starec zmrznil in nekoliko pokvaril bazo MySQL.

Marsikaj je napovedovalo težave, le ta ne ...

Ni problema, baza je bila popravljena, vse bi moralo delovati. Toda domačini se pritožujejo, klici odpadejo. V redu - v FreePBX so težave, naredim varnostno kopijo, jo namestim, vse je OK.
A problem je tu, krajani se še vedno pritožujejo, klici ne potekajo normalno. Pred njimi se zdi, da klic poteka normalno, ko pa pokličejo sami ali drug drugega, pride do nekajsekundnega zamika. Začnem gledati obsežne in nerazumljive dnevnike Asterisk in FreePBX, vendar v njih ne opazim težave. Spomnim se, da je bila težava s STUN in ICE, ki sta povzročila podobno zamudo. Vse ugasnem, rezultat nič.

Potrtost je pot do slabih odločitev:

Postajam depresiven, večurno tarnanje z ATS ne vodi v nič dobrega, ura je že pozna noč, problem pa se ne reši.
Težavo sem pustil do jutra v upanju na svežo glavo. Zjutraj je padla še ena neuspešna odločitev: ker je bil sistem pokvarjen (čeprav odvisnost ni mogla biti tako uničujoča), sem poskušal popraviti sistem s ponovno namestitvijo vseh paketov. Rezultat je malo več kot nič, zamuda se je zmanjšala (ne bistveno, a že uspeh).
Sprejel sem še eno slabo odločitev: če je bilo delno popravilo operacijskega sistema (in baze podatkov iz varnostne kopije) malo uspešno in koren težave še vedno ni jasen in je bilo že veliko časa porabljenega za iskanje vzroka, potem se odločim za radikalno ukrepanje: porušimo OS in vse prestavimo iz nič (na srečo avtomatizacija procesa to naredi v sprejemljivem času). Konfiguracijo FreePBX zvijam iz kopije. Še en neuspeh. Rezultat je nula!

Obup - um se zamegli, odločitve postanejo še hujše

padam v obup. Začnejo prihajati zelo slabe misli, pomislim: mogoče je conf v varnostni kopiji pokvarjen (se mi je zgodilo po številnih posodobitvah, da po njih ni delovalo in nisem našel razloga), ni ostalo ničesar : Vse moram z rokami prevrniti iz nič. Kakšna sramota! Rezultat je ničelni rezultat in veliko izgubljenega časa!

Sprejemanje je pot do zavedanja

V obupanih poskusih razumeti, kaj se dogaja, začnem natančno preučevati dnevnike. Opazim vzorec. Interni klic se zgodi v točno 5 sekundah, za skupino klicev 3 internih številk pa v 15! Začnem googlati o zakasnitvi klica, vendar že navajam določeno zakasnitev. In naletim na odgovor, ki sem ga že našel, ljudje pravijo, da je problem v DNS-ju, jaz pa zagotovo vem, da ni problema, vsi naslovi so rešeni!

Očitno - ni verjetno

Ničesar ni za narediti, izberem nslookup in bingo (želel bi si, da bi lahko to naredil takoj)! Primarni DNS je tam (virtualni stroj s krmilnikom), vendar sploh nisem opazil! Če bi bil samo en DNS, bi prišlo do napake 😉

Skupaj

Elementarni problem, ki bi ga lahko opazili z nadzorom (ki bi moral biti konfiguriran za vsa vozlišča), prikrit s toleranco napak DNS, je povzročil izgubo skoraj dveh delovnih dni za reševanje neumne situacije. Lenoba je huda bolečina, vzpostavitev monitoringa traja minuto, iskanje problema tam, kjer ga ni, traja dva dni.

V anketi lahko sodelujejo samo registrirani uporabniki. Prijaviti se, prosim.

Se vam je to kdaj zgodilo?

  • Da, zelo redko

  • Da, redko

  • pogosto

  • Zelo pogosto

  • Ne, z nikomer, samo z mano ne!

  • Ne, jaz sem nezmotljiv!

Glasovali so 2 uporabniki. 1 uporabnik se je vzdržal.

Vir: www.habr.com

Dodaj komentar