Kuinka ottaa verkkoinfrastruktuurisi hallintaan. Luku ensimmäinen. Pidä

Tämä artikkeli on ensimmäinen artikkelisarjassa "Kuinka ottaa verkkoinfrastruktuurisi hallintaan". Sarjan kaikkien artikkeleiden sisältö ja linkit löytyvät täällä.

Myönnän täysin, että on olemassa riittävä määrä yrityksiä, joissa tunnin tai jopa yhden päivän verkkoseisokki ei ole kriittinen. Valitettavasti tai onneksi minulla ei ollut mahdollisuutta työskennellä sellaisissa paikoissa. Mutta tietysti verkostot ovat erilaisia, vaatimukset ovat erilaisia, lähestymistavat erilaisia, ja silti alla oleva luettelo on tavalla tai toisella monissa tapauksissa itse asiassa "pakollinen".

Eli alkuehdot.

Olet uudessa työpaikassa, olet saanut ylennyksen tai olet päättänyt tarkastella tehtäviäsi uudella tavalla. Yritysverkosto on sinun vastuualueesi. Sinulle tämä on monella tapaa haaste ja uusi, mikä oikeuttaa jonkin verran tämän artikkelin mentorointisävyä :). Mutta toivon, että artikkeli voi olla hyödyllinen myös kenelle tahansa verkkoinsinöörille.

Ensimmäinen strateginen tavoitteesi on oppia vastustamaan entropiaa ja ylläpitämään tarjotun palvelun tasoa.

Monet alla kuvatuista ongelmista voidaan ratkaista eri tavoin. En tietoisesti nosta teknisen toteutuksen aihetta, koska... periaatteessa ei useinkaan ole niin tärkeää miten ratkaisit tämän tai tuon ongelman, vaan tärkeää on se, miten käytät sitä ja käytätkö sitä ollenkaan. Esimerkiksi ammattimaisesti rakennetusta valvontajärjestelmästäsi on vähän hyötyä, jos et katso sitä etkä reagoi hälytyksiin.

Оборудование

Ensin sinun on ymmärrettävä, missä ovat suurimmat riskit.

Jälleen, se voi olla erilainen. Myönnän, että jossain nämä ovat esimerkiksi turvallisuuskysymyksiä, ja jossain palvelun jatkuvuuteen liittyviä asioita ja jossain ehkä jotain muuta. Miksi ei?

Oletetaan selvyyden vuoksi, että tämä on edelleen palvelun jatkuvuus (tämä oli tilanne kaikissa yrityksissä, joissa työskentelin).

Sitten sinun on aloitettava laitteista. Tässä on luettelo aiheista, joihin kannattaa kiinnittää huomiota:

  • laitteiden luokittelu kriittisyysasteen mukaan
  • kriittisten laitteiden varmuuskopiointi
  • tuki, lisenssit

Sinun on harkittava mahdollisia vikaskenaarioita, etenkin kun laitteet ovat kriittisyysluokituksen kärjessä. Yleensä kaksoisongelmien mahdollisuus jätetään huomiotta, muuten ratkaisusi ja tukisi voivat tulla kohtuuttoman kalliiksi, mutta todella kriittisten verkkoelementtien kohdalla, joiden epäonnistuminen voi vaikuttaa merkittävästi liiketoimintaan, kannattaa miettiä asiaa.

Esimerkki

Oletetaan, että puhumme juurikytkimestä datakeskuksessa.

Koska sovimme, että palvelun jatkuvuus on tärkein kriteeri, on järkevää tarjota tälle laitteelle "kuuma" varmuuskopio (redundanssi). Mutta siinä ei vielä kaikki. Sinun on myös päätettävä, kuinka kauan, jos ensimmäinen kytkin rikkoutuu, on hyväksyttävää elää vain yhden jäljellä olevan kytkimen kanssa, koska on olemassa riski, että sekin katkeaa.

Tärkeä! Sinun ei tarvitse päättää tätä asiaa itse. Sinun tulee kuvata riskit, mahdolliset ratkaisut ja kustannukset johdolle tai yrityksen johdolle. Heidän on tehtävä päätöksiä.

Joten jos päätettiin, että kaksinkertaisen vian pienen todennäköisyyden vuoksi 4 tunnin työskentely yhdellä kytkimellä on periaatteessa hyväksyttävää, voit yksinkertaisesti ottaa asianmukaisen tuen (jonka mukaan laite vaihdetaan 4:n sisällä tuntia).

Mutta on olemassa riski, että he eivät toimita. Valitettavasti jouduimme kerran tällaiseen tilanteeseen. Neljän tunnin sijasta varusteet matkustivat viikon!!!

Tästä syystä myös tästä riskistä on keskusteltava, ja ehkä on oikeampaa ostaa toinen kytkin (kolmas) ja säilyttää se varaosapakkauksessa ("kylmä" varmuuskopio) tai käyttää sitä laboratoriotarkoituksiin.

Tärkeä! Tee laskentataulukko kaikesta saamastasi tuesta ja lisää se kalenteriisi, jotta saat vähintään kuukautta etukäteen sähköpostin, jossa sinun pitäisi alkaa huolehtia tuen uusimisesta.

Sinulle ei anneta anteeksi, jos unohdat uusia tukisi ja seuraavana päivänä sen päättymisen jälkeen laitteistosi katkeaa.

Hätätyötä

Mitä tahansa verkossasi tapahtuu, ihannetapauksessa sinun tulisi säilyttää pääsy verkkolaitteisiisi.

Tärkeä! Sinulla on oltava konsolipääsy kaikkiin laitteisiin, eikä tämä pääsy saa riippua käyttäjän tietoverkon tilasta.

Sinun tulee myös ennakoida mahdolliset negatiiviset skenaariot etukäteen ja dokumentoida tarvittavat toimenpiteet. Tämän asiakirjan saatavuus on myös kriittinen, joten se ei tulisi vain julkaista osastolla jaetussa resurssissa, vaan myös tallentaa paikallisesti insinöörien tietokoneille.

Täytyy olla

  • tiedot, joita tarvitaan lipun avaamiseen toimittajan tai integraattorin tuella
  • tiedot siitä, miten päästään mihin tahansa laitteeseen (konsoli, hallinta)

Tietysti se voi sisältää myös muuta hyödyllistä tietoa, esimerkiksi kuvauksen eri laitteiden päivitysmenettelystä ja hyödyllisiä diagnostisia komentoja.

kumppanit

Nyt sinun on arvioitava kumppaneihin liittyvät riskit. Yleensä tämä

  • Internet-palveluntarjoajat ja liikenteen vaihtopisteet (IX)
  • viestintäkanavan tarjoajat

Mitä kysymyksiä sinun pitäisi kysyä itseltäsi? Kuten laitteiden kohdalla, erilaisia ​​hätätilanteita on harkittava. Esimerkiksi Internet-palveluntarjoajille se voi olla jotain tällaista:

  • mitä tapahtuu, jos Internet-palveluntarjoaja X lopettaa palvelun tarjoamisen sinulle jostain syystä?
  • Onko muilla palveluntarjoajilla tarpeeksi kaistanleveyttä sinulle?
  • Kuinka hyvänä yhteys säilyy?
  • Kuinka riippumattomia Internet-palveluntarjoajasi ovat ja aiheuttaako yhden niistä vakava katkos ongelmia muille?
  • kuinka monta optista tuloa datakeskuksessasi?
  • mitä tapahtuu, jos yksi tuloista tuhoutuu kokonaan?

Mitä tulee tuloihin, käytännössäni kahdessa eri yrityksessä, kahdessa eri palvelinkeskuksessa, kaivinkone tuhosi kaivoja ja vain ihmeen kautta optiikkamme ei vaikuttanut. Tämä ei ole niin harvinainen tapaus.

Ja tietysti sinun ei tarvitse vain kysyä näitä kysymyksiä, vaan jälleen kerran, johdon tuella, tarjota hyväksyttävä ratkaisu missä tahansa tilanteessa.

Varmuuskopioida

Seuraava prioriteetti voi olla laitekokoonpanojen varmuuskopiointi. Joka tapauksessa tämä on erittäin tärkeä seikka. En luettele niitä tapauksia, joissa voit menettää kokoonpanon; on parempi tehdä säännölliset varmuuskopiot ja olla ajattelematta sitä. Lisäksi säännölliset varmuuskopiot voivat olla erittäin hyödyllisiä muutosten seurannassa.

Tärkeä! Tee varmuuskopiot päivittäin. Tämä ei ole niin suuri määrä dataa säästääksesi tässä. Aamulla päivystävän insinöörin (tai sinun) pitäisi saada järjestelmästä raportti, josta käy selvästi ilmi onnistuiko varmuuskopiointi vai ei, ja jos varmuuskopiointi epäonnistui, tulee ongelma ratkaista tai luoda lippu ( katso verkkoosaston prosessit).

Ohjelmistoversiot

Kysymys siitä, kannattaako laitteiston ohjelmistoa päivittää vai ei, ei ole niin yksiselitteinen. Toisaalta vanhat versiot ovat tunnettuja bugeja ja haavoittuvuuksia, mutta toisaalta uudet ohjelmistot eivät ole aina kivuton päivitysprosessi, ja toiseksi uudet bugit ja haavoittuvuudet.

Täältä sinun on löydettävä paras vaihtoehto. Muutama selkeä suositus

  • asenna vain vakaat versiot
  • Sinun ei kuitenkaan pitäisi elää erittäin vanhoilla ohjelmistoversioilla
  • tehdä kyltti, jossa on tiedot ohjelmistojen sijainnista
  • lue säännöllisesti raportit ohjelmistoversioiden haavoittuvuuksista ja bugeista, ja kriittisten ongelmien sattuessa kannattaa harkita päivittämistä

Tässä vaiheessa olet periaatteessa valmis tähän vaiheeseen, kun sinulla on konsolin käyttöoikeus laitteisiin, tukitiedot ja päivitysprosessin kuvaus. Ihanteellinen vaihtoehto on, kun sinulla on laboratoriolaitteet, joilla voit tarkistaa koko toimenpiteen, mutta valitettavasti tätä ei tapahdu usein.

Kriittisten laitteiden tapauksessa voit ottaa yhteyttä toimittajan tukeen ja pyytää apua päivityksessä.

Lippujärjestelmä

Nyt voit katsoa ympärillesi. Sinun on luotava prosessit vuorovaikutusta varten muiden osastojen kanssa ja osaston sisällä.

Tämä ei välttämättä ole välttämätöntä (esimerkiksi jos yrityksesi on pieni), mutta suosittelen lämpimästi työn organisoimista siten, että kaikki ulkoiset ja sisäiset tehtävät menevät lippujärjestelmän kautta.

Lippujärjestelmä on olennaisesti käyttöliittymäsi sisäiseen ja ulkoiseen viestintään, ja sinun tulee kuvata tämä käyttöliittymä riittävän yksityiskohtaisesti.

Otetaan esimerkki tärkeästä ja yleisestä tehtävästä pääsyn avaaminen. Kuvaan algoritmia, joka toimi täydellisesti yhdessä yrityksessä.

Esimerkki

Aloitetaan siitä, että usein pääsyasiakkaat muotoilevat toiveensa verkkoinsinöörille käsittämättömällä kielellä, nimittäin sovelluksen kielellä esimerkiksi "anna minulle pääsy 1C:hen".

Siksi emme ole koskaan hyväksyneet pyyntöjä suoraan tällaisilta käyttäjiltä.
Ja se oli ensimmäinen vaatimus

  • käyttöoikeuspyyntöjen tulee tulla teknisiltä osastoilta (tapauksessamme nämä olivat unix, windows, helpdesk-insinöörit)

Toinen vaatimus on se

  • tämä käyttöoikeus on kirjattava lokiin (teknisen osaston toimesta, jolta saimme tämän pyynnön) ja pyynnöstä saamme linkin tähän kirjautuneeseen pääsyyn

Tämän pyynnön muodon on oltava meille ymmärrettävä, ts.

  • Pyynnön tulee sisältää tiedot siitä, minkä aliverkon ja mihin aliverkkoon pääsyn tulee olla avoinna, sekä protokollan ja (tcp/udp:n tapauksessa) portit

Se on myös ilmoitettava siellä

  • kuvaus siitä, miksi tämä käyttöoikeus avataan
  • määräaikainen tai pysyvä (jos tilapäinen, mihin päivään asti)

Ja erittäin tärkeä kohta ovat hyväksynnät

  • pääsyn aloittaneen osaston johtajalta (esimerkiksi kirjanpito)
  • teknisen osaston johtajalta, mistä tämä pyyntö tuli verkkoosastolle (esim. helpdesk)

Tässä tapauksessa pääsyn "omistajan" katsotaan olevan pääsyn aloittaneen osaston päällikkö (esimerkissämme kirjanpito), ja hän on vastuussa siitä, että sivu, jolla on tämän osaston kirjattu käyttöoikeus, pysyy ajan tasalla. .

Kirjaaminen

Tämä on jotain, johon voit hukkua. Mutta jos haluat ottaa käyttöön ennakoivan lähestymistavan, sinun on opittava käsittelemään tätä datatulvaa.

Tässä muutamia käytännön suosituksia:

  • sinun on tarkistettava lokit päivittäin
  • suunnitellussa tarkastelussa (eikä hätätilanteessa), voit rajoittaa itsesi vakavuustasoihin 0, 1, 2 ja lisätä valittuja malleja muilta tasoilta, jos katsot sen tarpeelliseksi
  • Kirjoita komentosarja, joka jäsentää lokit ja jättää huomioimatta ne lokit, joiden kuviot lisäsit ohitusluetteloon

Tämän lähestymistavan avulla voit ajan mittaan luoda ohituslistan lokeista, jotka eivät kiinnosta sinua, ja jättää vain ne, joita pidät todella tärkeinä.
Se toimi meille loistavasti.

seuranta

Ei ole harvinaista, että yritykseltä puuttuu valvontajärjestelmä. Voit esimerkiksi luottaa lokeihin, mutta laite voi yksinkertaisesti "kuolemaan" ilman aikaa "sanoa" mitään, tai udp syslog -protokollapaketti voi kadota eikä saapua. Yleisesti ottaen aktiivinen seuranta on tietysti tärkeää ja tarpeellista.

Kaksi suosituinta esimerkkiä käytännössä:

  • viestintäkanavien, kriittisten linkkien kuormituksen seuranta (esimerkiksi yhteyden muodostaminen palveluntarjoajiin). Niiden avulla voit ennakoivasti nähdä mahdollisen liikenteen heikkenemisen aiheuttaman ongelman ja siten välttää sen.
  • NetFlowiin perustuvat kaaviot. Niiden avulla on helppo löytää poikkeavuuksia liikenteestä ja ne ovat erittäin hyödyllisiä joidenkin yksinkertaisten mutta merkittävien hakkerihyökkäystyyppien havaitsemiseen.

Tärkeä! Määritä tekstiviesti-ilmoitukset tärkeimmistä tapahtumista. Tämä koskee sekä seurantaa että kirjaamista. Jos sinulla ei ole päivystysvuoroa, tulee tekstiviestit saapua myös työajan ulkopuolella.

Ajattele prosessia siten, että et herätä kaikkia insinöörejä. Meillä oli insinööri päivystävänä tätä varten.

Muuta ohjausta

Mielestäni kaikkia muutoksia ei tarvitse hallita. Mutta joka tapauksessa sinun pitäisi pystyä tarvittaessa helposti löytämään, kuka on tehnyt tietyt muutokset verkossa ja miksi.

Muutamia vinkkejä:

  • Käytä lippujärjestelmää yksityiskohtaisesti, mitä kyseiselle lipulle tehtiin, esimerkiksi kopioimalla sovelletut asetukset lippuun
  • käytä kommentointiominaisuuksia verkkolaitteissa (esimerkiksi kommentoi Juniperissa). Voit kirjoittaa lipun numeron muistiin
  • käytä asetusten varmuuskopioiden diff-tiedostoa

Voit toteuttaa tämän prosessina tarkistamalla kaikki liput päivittäin muutosten varalta.

prosessit

Sinun tulee virallistaa ja kuvata tiimisi prosessit. Jos olet saavuttanut tämän pisteen, tiimilläsi pitäisi jo olla ainakin seuraavat prosessit käynnissä:

Päivittäiset prosessit:

  • työskennellä lippujen kanssa
  • tukkien kanssa työskenteleminen
  • muuta ohjausta
  • päivittäinen tarkistuslomake

Vuotuiset prosessit:

  • takuiden laajentaminen, lisenssit

Asynkroniset prosessit:

  • reagoida erilaisiin hätätilanteisiin

Ensimmäisen osan johtopäätös

Oletko huomannut, että tämä kaikki ei vielä koske verkon määrittämistä, ei suunnittelua, ei verkkoprotokollia, ei reititystä, ei turvallisuutta... Se on jotain ympärillä. Mutta nämä, vaikkakin ehkä tylsiä, ovat tietysti erittäin tärkeitä elementtejä verkkojaoston työssä.

Toistaiseksi, kuten näet, et ole parantanut verkossasi mitään. Jos oli tietoturva-aukkoja, ne jäivät, jos oli huono suunnittelu, niin se jäi. Kunnes olet soveltanut taitojasi ja tietojasi verkkoinsinöörinä, johon olet todennäköisesti käyttänyt paljon aikaa, vaivaa ja joskus rahaa. Mutta ensin sinun on luotava (tai vahvistettava) perusta ja sitten aloitettava rakentaminen.

Seuraavissa osissa kerrotaan, kuinka voit löytää ja poistaa virheet ja parantaa infrastruktuuriasi.

Kaikkea ei tietenkään tarvitse tehdä peräkkäin. Aika voi olla kriittinen. Tee se rinnakkain, jos resurssit sallivat.

Ja tärkeä lisäys. Kommunikoi, kysy, neuvottele tiimisi kanssa. Lopulta he ovat niitä, jotka tukevat ja tekevät kaiken tämän.

Lähde: will.com

Lisää kommentti