Paano kontrolin ang iyong imprastraktura ng network. Chapter muna. Hawakan

Ang artikulong ito ay ang una sa isang serye ng mga artikulo na "Paano Kontrolin ang Iyong Imprastraktura ng Network." Ang mga nilalaman ng lahat ng mga artikulo sa serye at mga link ay matatagpuan dito.

Lubos kong inaamin na mayroong sapat na bilang ng mga kumpanya kung saan ang downtime ng network na isang oras o kahit isang araw ay hindi kritikal. Sa kasamaang palad o sa kabutihang palad, hindi ako nagkaroon ng pagkakataong magtrabaho sa mga ganoong lugar. Ngunit, siyempre, ang mga network ay iba, ang mga kinakailangan ay iba, ang mga diskarte ay iba, at gayon pa man, sa isang anyo o iba pa, ang listahan sa ibaba sa maraming mga kaso ay talagang isang "dapat gawin."

Kaya, ang mga paunang kondisyon.

Ikaw ay nasa isang bagong trabaho, nakatanggap ka ng promosyon, o nagpasya kang tingnan muli ang iyong mga responsibilidad. Ang network ng kumpanya ay ang iyong lugar ng responsibilidad. Para sa iyo, ito ay isang hamon at bago sa maraming paraan, na medyo nagbibigay-katwiran sa tono ng pag-mentoring ng artikulong ito :). Ngunit umaasa ako na ang artikulo ay maaari ding maging kapaki-pakinabang sa sinumang network engineer.

Ang iyong unang madiskarteng layunin ay ang matutong labanan ang entropy at mapanatili ang antas ng serbisyong ibinigay.

Marami sa mga problemang inilarawan sa ibaba ay maaaring malutas sa pamamagitan ng iba't ibang paraan. Hindi ko sinasadyang itaas ang paksa ng teknikal na pagpapatupad, dahil... sa prinsipyo, kadalasan ay hindi gaanong mahalaga kung paano mo nalutas ito o ang problemang iyon, ngunit ang mahalaga ay kung paano mo ito ginagamit at kung gagamitin mo man ito. Halimbawa, ang iyong sistema ng pagmamanman na binuo ng propesyonal ay hindi gaanong pakinabang kung hindi mo ito titingnan at hindi tumugon sa mga alerto.

ΠžΠ±ΠΎΡ€ΡƒΠ΄ΠΎΠ²Π°Π½ΠΈΠ΅

Una kailangan mong maunawaan kung saan ang pinakamalaking panganib.

Muli, maaaring iba ito. Inaamin ko na sa isang lugar, halimbawa, ito ay magiging mga isyu sa seguridad, at sa isang lugar, mga isyu na may kaugnayan sa pagpapatuloy ng serbisyo, at sa isang lugar, marahil, iba pa. Bakit hindi?

Ipagpalagay natin, para maging malinaw, na ito pa rin ang pagpapatuloy ng serbisyo (ganito ang kaso sa lahat ng kumpanyang pinagtatrabahuhan ko).

Pagkatapos ay kailangan mong magsimula sa kagamitan. Narito ang isang listahan ng mga paksang dapat bigyang pansin:

  • pag-uuri ng kagamitan ayon sa antas ng pagiging kritikal
  • backup ng mga kritikal na kagamitan
  • suporta, mga lisensya

Kailangan mong pag-isipan ang mga posibleng senaryo ng pagkabigo, lalo na sa mga kagamitan sa tuktok ng iyong pag-uuri ng pagiging kritikal. Karaniwan, ang posibilidad ng dobleng mga problema ay napapabayaan, kung hindi, ang iyong solusyon at suporta ay maaaring maging hindi makatwirang mahal, ngunit sa kaso ng mga tunay na kritikal na elemento ng network, ang pagkabigo nito ay maaaring makabuluhang makaapekto sa negosyo, dapat mong isipin ito.

Halimbawa

Sabihin nating pinag-uusapan natin ang root switch sa isang data center.

Dahil napagkasunduan namin na ang pagpapatuloy ng serbisyo ay ang pinakamahalagang pamantayan, makatwirang magbigay ng "mainit" na backup (kalabisan) ng kagamitang ito. Ngunit hindi lang iyon. Kailangan mo ring magpasya kung gaano katagal, kung masira ang unang switch, katanggap-tanggap ba para sa iyo na mabuhay na may isang natitirang switch, dahil may panganib na masira din ito.

Mahalaga! Hindi mo kailangang magdesisyon sa isyung ito sa iyong sarili. Dapat mong ilarawan ang mga panganib, posibleng solusyon at gastos sa pamamahala o pamamahala ng kumpanya. Dapat silang gumawa ng mga desisyon.

Kaya, kung napagpasyahan na, dahil sa maliit na posibilidad ng isang dobleng kabiguan, ang pagtatrabaho ng 4 na oras sa isang switch ay, sa prinsipyo, katanggap-tanggap, kung gayon maaari mo lamang kunin ang naaangkop na suporta (ayon sa kung saan ang kagamitan ay papalitan sa loob ng 4 oras).

Ngunit may panganib na hindi sila maghahatid. Sa kasamaang palad, minsan napunta kami sa ganoong sitwasyon. Sa halip na apat na oras, isang linggo ang biyahe ng mga kagamitan!!!

Samakatuwid, ang panganib na ito ay kailangan ding talakayin at, marahil, mas tama para sa iyo na bumili ng isa pang switch (ikatlo) at itago ito sa isang pakete ng mga ekstrang bahagi ("malamig" na backup) o gamitin ito para sa mga layunin ng laboratoryo.

Mahalaga! Gumawa ng spreadsheet ng lahat ng suporta na mayroon ka na may mga petsa ng pag-expire at idagdag ito sa iyong kalendaryo upang makakuha ka ng email nang hindi bababa sa isang buwan nang maaga na dapat mong simulan ang pag-aalala tungkol sa pag-renew ng iyong suporta.

Hindi ka mapapatawad kung nakalimutan mong i-renew ang iyong suporta at sa araw pagkatapos nito ay masira ang iyong hardware.

Emergency na trabaho

Anuman ang mangyari sa iyong network, dapat mong panatilihin ang access sa iyong network equipment.

Mahalaga! Dapat ay mayroon kang console access sa lahat ng kagamitan at ang access na ito ay hindi dapat nakadepende sa functionality ng user data network.

Dapat mo ring mahulaan nang maaga ang mga posibleng negatibong senaryo at idokumento ang mga kinakailangang aksyon. Ang pagkakaroon ng dokumentong ito ay kritikal din, kaya hindi lamang ito dapat na mai-post sa isang nakabahaging mapagkukunan para sa departamento, ngunit i-save din nang lokal sa mga computer ng mga inhinyero.

Dapat meron

  • impormasyong kinakailangan upang magbukas ng tiket na may suporta sa vendor o integrator
  • impormasyon kung paano makarating sa anumang kagamitan (console, pamamahala)

Siyempre, maaari rin itong maglaman ng anumang iba pang kapaki-pakinabang na impormasyon, halimbawa, isang paglalarawan ng pamamaraan ng pag-upgrade para sa iba't ibang kagamitan at kapaki-pakinabang na diagnostic command.

Mga Kaakibat

Ngayon ay kailangan mong tasahin ang mga panganib na nauugnay sa mga kasosyo. Kadalasan ito

  • Mga tagapagbigay ng Internet at mga palitan ng trapiko (IX)
  • mga tagapagbigay ng channel ng komunikasyon

Anong mga tanong ang dapat mong itanong sa iyong sarili? Tulad ng mga kagamitan, dapat isaalang-alang ang iba't ibang mga sitwasyong pang-emergency. Halimbawa, para sa mga Internet provider, maaaring ito ay katulad ng:

  • ano ang mangyayari kung ang Internet provider X ay huminto sa pagbibigay sa iyo ng serbisyo para sa ilang kadahilanan?
  • Magkakaroon ba ng sapat na bandwidth ang ibang mga provider para sa iyo?
  • Gaano kahusay mananatili ang pagkakakonekta?
  • Gaano ka independyente ang iyong mga tagapagbigay ng Internet at magdudulot ba ng mga problema sa iba ang malubhang pagkawala ng isa sa kanila?
  • ilang optical inputs sa iyong data center?
  • ano ang mangyayari kung ang isa sa mga input ay ganap na nawasak?

Tungkol sa mga input, sa aking pagsasanay sa dalawang magkaibang kumpanya, sa dalawang magkaibang data center, isang excavator ang sumisira sa mga balon at sa pamamagitan lamang ng himala ay hindi naapektuhan ang aming mga optika. Hindi ito isang bihirang kaso.

At, siyempre, kailangan mong hindi lamang itanong ang mga tanong na ito, ngunit, muli, sa suporta ng pamamahala, upang magbigay ng isang katanggap-tanggap na solusyon sa anumang sitwasyon.

Backup

Ang susunod na priyoridad ay maaaring isang backup ng mga configuration ng kagamitan. Sa anumang kaso, ito ay isang napakahalagang punto. Hindi ko ilista ang mga kasong iyon kapag maaari mong mawala ang pagsasaayos; mas mahusay na gumawa ng mga regular na backup at huwag isipin ang tungkol dito. Bilang karagdagan, ang mga regular na backup ay maaaring maging lubhang kapaki-pakinabang sa pagsubaybay sa mga pagbabago.

Mahalaga! Gumawa ng mga backup araw-araw. Ito ay hindi isang malaking halaga ng data upang i-save dito. Sa umaga, ang engineer na naka-duty (o ikaw) ay dapat makatanggap ng isang ulat mula sa system, na malinaw na nagpapahiwatig kung ang backup ay matagumpay o hindi, at kung ang backup ay hindi matagumpay, ang problema ay dapat na malutas o isang tiket ay dapat na nilikha ( tingnan ang mga proseso ng departamento ng network).

Mga bersyon ng software

Ang tanong kung ito ay nagkakahalaga ng pag-upgrade ng software ng kagamitan ay hindi masyadong malinaw. Sa isang banda, ang mga lumang bersyon ay kilala na mga bug at kahinaan, ngunit sa kabilang banda, ang bagong software ay, una, hindi palaging isang walang sakit na pamamaraan sa pag-upgrade, at pangalawa, mga bagong bug at kahinaan.

Dito kailangan mong hanapin ang pinakamahusay na pagpipilian. Ilang malinaw na rekomendasyon

  • i-install lamang ang mga stable na bersyon
  • Gayunpaman, hindi ka dapat mabuhay sa napakalumang bersyon ng software
  • gumawa ng sign na may impormasyon tungkol sa kung saan matatagpuan ang ilang software
  • pana-panahong basahin ang mga ulat tungkol sa mga kahinaan at mga bug sa mga bersyon ng software, at sa kaso ng mga kritikal na problema, dapat mong isipin ang tungkol sa pag-upgrade

Sa yugtong ito, ang pagkakaroon ng console access sa kagamitan, impormasyon tungkol sa suporta at isang paglalarawan ng pamamaraan ng pag-upgrade, sa prinsipyo, handa ka na para sa hakbang na ito. Ang perpektong opsyon ay kapag mayroon kang kagamitan sa laboratoryo kung saan maaari mong suriin ang buong pamamaraan, ngunit, sa kasamaang-palad, hindi ito madalas mangyari.

Sa kaso ng mga kritikal na kagamitan, maaari kang makipag-ugnayan sa suporta ng vendor na may kahilingang tulungan ka sa pag-upgrade.

Sistema ng tiket

Ngayon ay maaari kang tumingin sa paligid. Kailangan mong magtatag ng mga proseso para sa pakikipag-ugnayan sa ibang mga departamento at sa loob ng departamento.

Maaaring hindi ito kinakailangan (halimbawa, kung maliit ang iyong kumpanya), ngunit lubos kong inirerekomenda ang pag-aayos ng trabaho sa paraang ang lahat ng panlabas at panloob na gawain ay dumaan sa sistema ng tiket.

Ang sistema ng tiket ay mahalagang iyong interface para sa panloob at panlabas na mga komunikasyon, at dapat mong ilarawan ang interface na ito sa sapat na detalye.

Kumuha tayo ng isang halimbawa ng isang mahalaga at karaniwang gawain ng pagbubukas ng access. Ilalarawan ko ang isang algorithm na gumana nang perpekto sa isa sa mga kumpanya.

Halimbawa

Magsimula tayo sa katotohanan na madalas na na-access ng mga customer ang kanilang mga hangarin sa isang wikang hindi maintindihan ng isang network engineer, ibig sabihin, sa wika ng application, halimbawa, "bigyan mo ako ng access sa 1C."

Samakatuwid, hindi kami kailanman tumanggap ng mga kahilingan nang direkta mula sa mga naturang user.
At iyon ang unang kinakailangan

  • ang mga kahilingan para sa pag-access ay dapat magmula sa mga teknikal na departamento (sa aming kaso ito ay unix, windows, helpdesk engineer)

Ang pangalawang kinakailangan ay iyon

  • ang access na ito ay dapat na naka-log (ng teknikal na departamento kung saan namin natanggap ang kahilingang ito) at bilang isang kahilingan ay nakatanggap kami ng link sa naka-log na access na ito

Ang anyo ng kahilingang ito ay dapat na maunawaan sa amin, i.e.

  • ang kahilingan ay dapat maglaman ng impormasyon tungkol sa kung aling subnet at kung saan dapat bukas ang access sa subnet, pati na rin ang protocol at (sa kaso ng tcp/udp) na mga port

Dapat din itong ipahiwatig doon

  • paglalarawan kung bakit binuksan ang access na ito
  • pansamantala o permanente (kung pansamantala, hanggang anong petsa)

At ang isang napakahalagang punto ay ang mga pag-apruba

  • mula sa pinuno ng departamento na nagpasimula ng pag-access (halimbawa, accounting)
  • mula sa pinuno ng teknikal na departamento, kung saan dumating ang kahilingang ito sa departamento ng network (halimbawa, helpdesk)

Sa kasong ito, ang "may-ari" ng access na ito ay itinuturing na pinuno ng departamento na nagpasimula ng pag-access (accounting sa aming halimbawa), at siya ang may pananagutan sa pagtiyak na ang page na may naka-log na access para sa departamentong ito ay nananatiling napapanahon. .

Pagtotroso

Ito ay isang bagay na maaari mong malunod. Ngunit kung gusto mong magpatupad ng proactive na diskarte, kailangan mong matutunan kung paano haharapin ang data delubyo na ito.

Narito ang ilang praktikal na rekomendasyon:

  • kailangan mong suriin ang mga log araw-araw
  • sa kaso ng isang nakaplanong pagsusuri (at hindi isang emergency na sitwasyon), maaari mong limitahan ang iyong sarili sa mga antas ng kalubhaan 0, 1, 2 at magdagdag ng mga napiling pattern mula sa iba pang mga antas kung sa tingin mo ay kinakailangan
  • magsulat ng script na nag-parse ng mga log at binabalewala ang mga log na iyon na ang mga pattern ay idinagdag mo sa listahan ng hindi pansinin

Ang diskarte na ito ay magbibigay-daan sa iyo, sa paglipas ng panahon, na lumikha ng isang listahan ng balewalain ng mga log na hindi kawili-wili sa iyo at iwanan lamang ang mga talagang itinuturing mong mahalaga.
Naging mahusay ito para sa amin.

Pagsubaybay

Karaniwan para sa isang kumpanya na kulang sa isang sistema ng pagsubaybay. Maaari kang, halimbawa, umasa sa mga log, ngunit ang kagamitan ay maaaring "mamamatay" lamang nang walang oras na "magsabi" ng anuman, o ang udp syslog protocol packet ay maaaring mawala at hindi dumating. Sa pangkalahatan, siyempre, ang aktibong pagsubaybay ay mahalaga at kinakailangan.

Ang dalawang pinakasikat na halimbawa sa aking pagsasanay:

  • pagsubaybay sa pagkarga ng mga channel ng komunikasyon, mga kritikal na link (halimbawa, pagkonekta sa mga provider). Binibigyang-daan ka nilang proactive na makita ang potensyal na problema ng pagkasira ng serbisyo dahil sa pagkawala ng trapiko at, nang naaayon, iwasan ito.
  • mga graph batay sa NetFlow. Pinapadali nila ang paghahanap ng mga anomalya sa trapiko at lubhang kapaki-pakinabang para sa pag-detect ng ilang simple ngunit makabuluhang uri ng mga pag-atake ng hacker.

Mahalaga! I-set up ang mga SMS notification para sa mga pinaka-kritikal na kaganapan. Nalalapat ito sa parehong pagsubaybay at pag-log. Kung wala kang on-duty shift, dapat ding dumating ang sms sa labas ng oras ng trabaho.

Isipin ang proseso sa paraang hindi magising ang lahat ng mga inhinyero. Mayroon kaming engineer na naka-duty para dito.

Baguhin ang kontrol

Sa palagay ko, hindi kailangang kontrolin ang lahat ng pagbabago. Ngunit, sa anumang kaso, dapat mong magawa, kung kinakailangan, upang madaling mahanap kung sino ang gumawa ng ilang mga pagbabago sa network at kung bakit.

Ilang mga tip:

  • gumamit ng ticket system para i-detalye kung ano ang ginawa sa ticket na iyon, halimbawa sa pamamagitan ng pagkopya ng inilapat na configuration sa ticket
  • gumamit ng mga kakayahan ng komento sa kagamitan sa network (halimbawa, magkomento sa Juniper). Maaari mong isulat ang numero ng tiket
  • gumamit ng diff ng iyong mga backup na configuration

Maaari mong ipatupad ito bilang isang proseso, sinusuri ang lahat ng mga tiket araw-araw para sa mga pagbabago.

Ang mga proseso

Dapat mong gawing pormal at ilarawan ang mga proseso sa iyong koponan. Kung naabot mo na ang puntong ito, dapat na ang iyong koponan ay mayroon nang hindi bababa sa mga sumusunod na proseso na tumatakbo:

Pang-araw-araw na proseso:

  • nagtatrabaho sa mga tiket
  • nagtatrabaho sa mga log
  • baguhin ang kontrol
  • araw-araw na check sheet

Mga taunang proseso:

  • extension ng mga garantiya, lisensya

Asynchronous na mga proseso:

  • pagtugon sa iba't ibang sitwasyong pang-emergency

Konklusyon ng unang bahagi

Napansin mo ba na ang lahat ng ito ay hindi pa tungkol sa pagsasaayos ng network, hindi tungkol sa disenyo, hindi tungkol sa mga protocol ng network, hindi tungkol sa pagruruta, hindi tungkol sa seguridad... Ito ay isang bagay sa paligid. Ngunit ang mga ito, kahit na marahil ay mayamot, ay, siyempre, napakahalagang mga elemento ng gawain ng isang network division.

Sa ngayon, tulad ng nakikita mo, wala kang napabuti sa iyong network. Kung may mga kahinaan sa seguridad, nanatili sila; kung may masamang disenyo, nanatili ito. Hanggang sa nailapat mo ang iyong mga kakayahan at kaalaman bilang isang network engineer, kung saan malamang na gumugol ka ng malaking halaga ng oras, pagsisikap, at kung minsan ay pera. Ngunit kailangan mo munang lumikha (o palakasin) ang pundasyon, at pagkatapos ay simulan ang pagtatayo.

Sasabihin sa iyo ng mga sumusunod na bahagi kung paano hanapin at alisin ang mga error, at pagkatapos ay pagbutihin ang iyong imprastraktura.

Siyempre, hindi mo kailangang gawin ang lahat nang sunud-sunod. Ang oras ay maaaring maging kritikal. Gawin ito nang magkatulad kung pinahihintulutan ng mga mapagkukunan.

At isang mahalagang karagdagan. Makipag-usap, magtanong, kumunsulta sa iyong koponan. Sa huli, sila ang sumusuporta at gumagawa ng lahat ng ito.

Pinagmulan: www.habr.com

Magdagdag ng komento