Tražite problem na pogrešnom mjestu

Ovo je kratka priča iz stvarne prakse, kada se mali problem, dobro prikriven tolerancijom greške, pretvori u glavobolju.

Mala dispozicija:

Mala podružnica, ima vlastitu telefonsku centralu (zvjezdica + FreePBX) temeljenu na desktop hardveru i istom lokalnom terminalskom poslužitelju s 1C, izmetom datoteke i virtualnim RO kontrolerom domene. Internet distribuira Mikrotik. Grana je mala, to im je dovoljno.
Sve je počelo s monitoringom (zbog nedostatka vremena i lijenosti ne prati se sve), koji je prijavio pregrijavanje jednog servera (sa PBX-om) u poslovnici. Dok su mještani rješavali problem, starac se smrznuo i malo pokvario MySQL bazu podataka.

Mnogo toga je nagoviještalo nevolje, ali ne i ova...

Nema problema, baza je popravljena, sve bi trebalo raditi. No, mještani se žale, pozivi se prekidaju. U redu - ima problema u FreePBX-u, napravim sigurnosnu kopiju, postavim je, sve je u redu.
No, problem je tu, mještani se i dalje žale, pozivi ne prolaze normalno. Prije njih se čini da poziv ide normalno, ali kada se sami jave, ili se jave, postoji kašnjenje od nekoliko sekundi. Počeo sam gledati voluminozne i nerazumljive zapise Asteriska i FreePBX-a, ali ne mogu uočiti problem u njima. Sjećam se da je postojao problem sa STUN i ICE, koji su uzrokovali slično kašnjenje. Gasim sve kvragu, rezultat nula.

Potištenost je put do donošenja loših odluka:

Postajem depresivan, višesatno petljanje s ATS-om ne vodi ničemu dobrom, već je kasna noć, a problem se ne rješava.
Ostavila sam problem do jutra, nadajući se svježoj glavi. Ujutro je pala još jedna neuspješna odluka: budući da je sustav bio pokvaren (iako ovisnost nije mogla biti toliko destruktivna), pokušavao sam popraviti sustav ponovnom instalacijom svih paketa. Rezultat je malo veći od nule, kašnjenje se smanjilo (ne značajno, ali već uspjeh).
Donosim još jednu lošu odluku: ako djelomični popravak OS-a (i baze podataka iz sigurnosne kopije) nije imao uspjeha, a korijen problema još uvijek nije jasan, a već je potrošeno puno vremena na traženje uzroka, tada odlučujem djelovati radikalno: rušimo OS i vraćamo sve iz početka (srećom, automatizacija procesa to čini u prihvatljivom roku). Umotavam FreePBX konfiguraciju iz kopije. Još jedan neuspjeh. Rezultat je nula!

Očaj - um se zamagljuje, odluke postaju još gore

padam u očaj. Počinju dolaziti jako loše misli, mislim: možda je conf u backupu kriv (dogodilo mi se nakon niza ažuriranja da nije radilo nakon njih, a nisam mogao pronaći razlog), nema više ničega : Sve moram rukama ispočetka motati. Kakva sramota! Rezultat je striktno nula, a puno izgubljenog vremena!

Prihvaćanje je put do svjesnosti

U očajničkim pokušajima da shvatim što se događa, počinjem pažljivo proučavati dnevnike. Primjećujem uzorak. Interni poziv odvija se za točno 5 sekundi, a za grupu poziva od 3 lokala za 15! Počinjem guglati o kašnjenju poziva, ali već naznačujem konkretno kašnjenje. I naiđem na odgovor koji sam već našao, ljudi kažu da je problem u DNS-u, ali ja sigurno znam da nema problema, sve su adrese riješene!

Očito - nije vjerojatno

Nema se što raditi, uzimam nslookup i bingo (volio bih da to mogu učiniti odmah)! Primarni DNS postoji (virtualni stroj s kontrolerom), ali nisam ni primijetio! Da postoji samo jedan DNS, došlo bi do greške 😉

Ukupan

Elementarni problem koji se mogao uočiti monitoringom (koji bi trebao biti konfiguriran za sve čvorove), maskiran DNS fault tolerance, doveo je do gubitka gotovo dva radna dana na rješavanje glupe situacije. Lijenost je gnjavaža, postavljanje monitoringa traje minutu, a traženje problema tamo gdje ga nema dva dana.

U anketi mogu sudjelovati samo registrirani korisnici. Prijaviti se, molim.

Je li vam se ovo ikada dogodilo?

  • Da, vrlo rijetko

  • Da, rijetko

  • Često

  • Vrlo često

  • Ne, ni sa kim, samo ne sa mnom!

  • Ne, ja sam nepogrešiv!

2 korisnika je glasalo. 1 korisnik je bio suzdržan.

Izvor: www.habr.com

Dodajte komentar