So übernehmen Sie die Kontrolle über Ihre Netzwerkinfrastruktur. Kapitel zuerst. Halten

Dieser Artikel ist der erste einer Artikelreihe mit dem Titel „So übernehmen Sie die Kontrolle über Ihre Netzwerkinfrastruktur“. Den Inhalt aller Artikel der Reihe und Links finden Sie hier hier.

Ich gebe voll und ganz zu, dass es genügend Unternehmen gibt, bei denen ein Netzwerkausfall von einer Stunde oder sogar einem Tag unkritisch ist. Leider oder zum Glück hatte ich keine Gelegenheit, an solchen Orten zu arbeiten. Aber natürlich sind die Netzwerke unterschiedlich, die Anforderungen sind unterschiedlich, die Ansätze sind unterschiedlich, und dennoch wird die folgende Liste in der einen oder anderen Form in vielen Fällen tatsächlich ein „Muss“ sein.

Also die Anfangsbedingungen.

Sie haben einen neuen Job, sind befördert worden oder haben sich entschieden, Ihre Aufgaben neu zu betrachten. Das Unternehmensnetzwerk ist Ihr Verantwortungsbereich. Für Sie ist dies in vielerlei Hinsicht eine Herausforderung und neu, was den Mentoring-Ton dieses Artikels einigermaßen rechtfertigt :). Aber ich hoffe, dass der Artikel auch für jeden Netzwerktechniker nützlich sein kann.

Ihr erstes strategisches Ziel besteht darin, zu lernen, der Entropie zu widerstehen und das bereitgestellte Serviceniveau aufrechtzuerhalten.

Viele der im Folgenden beschriebenen Probleme können auf verschiedene Weise gelöst werden. Das Thema der technischen Umsetzung spreche ich bewusst nicht an, denn... Im Prinzip ist es oft nicht so wichtig, wie man dieses oder jenes Problem gelöst hat, sondern wichtig ist, wie man es nutzt und ob man es überhaupt nutzt. Beispielsweise nützt Ihr professionell aufgebautes Überwachungssystem wenig, wenn Sie nicht darauf achten und nicht auf Warnungen reagieren.

Ausrüstung

Zuerst müssen Sie verstehen, wo die größten Risiken liegen.

Auch hier kann es anders sein. Ich gebe zu, dass es sich irgendwo zum Beispiel um Sicherheitsprobleme handeln wird, irgendwo um Probleme im Zusammenhang mit der Kontinuität des Dienstes und irgendwo vielleicht um etwas anderes. Warum nicht?

Nehmen wir zur Verdeutlichung an, dass es sich hierbei immer noch um Kontinuität des Dienstes handelt (dies war in allen Unternehmen der Fall, in denen ich gearbeitet habe).

Dann müssen Sie mit der Ausrüstung beginnen. Hier ist eine Liste der Themen, auf die Sie achten sollten:

  • Klassifizierung der Ausrüstung nach Kritikalitätsgrad
  • Sicherung kritischer Geräte
  • Support, Lizenzen

Sie müssen mögliche Ausfallszenarien durchdenken, insbesondere wenn Geräte an der Spitze Ihrer Kritikalitätsklassifizierung stehen. Normalerweise wird die Möglichkeit doppelter Probleme vernachlässigt, da Ihre Lösung und Ihr Support sonst möglicherweise unverhältnismäßig teuer werden. Bei wirklich kritischen Netzwerkelementen, deren Ausfall das Geschäft erheblich beeinträchtigen könnte, sollten Sie jedoch darüber nachdenken.

Beispiel

Nehmen wir an, wir sprechen über einen Root-Switch in einem Rechenzentrum.

Da wir uns einig sind, dass die Servicekontinuität das wichtigste Kriterium ist, ist es sinnvoll, für diese Geräte ein „Hot“-Backup (Redundanz) bereitzustellen. Aber das ist noch nicht alles. Sie müssen auch entscheiden, wie lange es für Sie akzeptabel ist, mit nur einem verbleibenden Schalter zu leben, wenn der erste Schalter kaputt geht, da die Gefahr besteht, dass auch dieser kaputt geht.

Wichtig! Sie müssen diese Frage nicht selbst entscheiden. Sie müssen der Geschäftsführung bzw. Unternehmensleitung die Risiken, Lösungsmöglichkeiten und Kosten schildern. Sie müssen Entscheidungen treffen.

Wenn also entschieden wird, dass es angesichts der geringen Wahrscheinlichkeit eines Doppelausfalls grundsätzlich akzeptabel ist, 4 Stunden an einem Schalter zu arbeiten, dann können Sie einfach die entsprechende Unterstützung in Anspruch nehmen (nach der das Gerät innerhalb von 4 Stunden ausgetauscht wird). Std).

Aber es besteht die Gefahr, dass sie nicht liefern. Leider befanden wir uns einmal in einer solchen Situation. Statt vier Stunden war die Ausrüstung eine Woche unterwegs!!!

Daher muss auch dieses Risiko besprochen werden und vielleicht ist es für Sie richtiger, einen weiteren Schalter (dritten) zu kaufen und ihn in einem Ersatzteilpaket aufzubewahren („kaltes“ Backup) oder ihn für Laborzwecke zu verwenden.

Wichtig! Erstellen Sie eine Tabelle mit den Ablaufdaten Ihres gesamten Supports und fügen Sie diese Ihrem Kalender hinzu, damit Sie mindestens einen Monat im Voraus eine E-Mail erhalten, in der Sie über die Verlängerung Ihres Supports informiert werden.

Es wird Ihnen nicht verziehen, wenn Sie vergessen, Ihren Support zu erneuern, und am Tag nach Ablauf Ihre Hardware kaputt geht.

Notarbeit

Was auch immer in Ihrem Netzwerk passiert, im Idealfall sollten Sie den Zugriff auf Ihre Netzwerkgeräte aufrechterhalten.

Wichtig! Sie müssen Konsolenzugriff auf alle Geräte haben und dieser Zugriff sollte nicht vom Zustand des Benutzerdatennetzwerks abhängen.

Auch mögliche negative Szenarien sollten Sie im Vorfeld vorhersehen und die notwendigen Maßnahmen dokumentieren. Die Verfügbarkeit dieses Dokuments ist ebenfalls von entscheidender Bedeutung. Daher sollte es nicht nur auf einer gemeinsam genutzten Ressource für die Abteilung veröffentlicht, sondern auch lokal auf den Computern der Ingenieure gespeichert werden.

Da muss sein

  • Informationen, die zum Öffnen eines Tickets beim Anbieter- oder Integrator-Support erforderlich sind
  • Informationen darüber, wie Sie zu den Geräten gelangen (Konsole, Management)

Natürlich kann es auch andere nützliche Informationen enthalten, beispielsweise eine Beschreibung des Upgrade-Vorgangs für verschiedene Geräte und nützliche Diagnosebefehle.

Partner

Jetzt müssen Sie die mit Partnern verbundenen Risiken abschätzen. Normalerweise das

  • Internetprovider und Verkehrsaustauschpunkte (IX)
  • Anbieter von Kommunikationskanälen

Welche Fragen sollten Sie sich stellen? Wie bei der Ausrüstung müssen verschiedene Notfallszenarien berücksichtigt werden. Für Internetanbieter könnte es beispielsweise so aussehen:

  • Was passiert, wenn Internetanbieter X aus irgendeinem Grund seinen Dienst für Sie einstellt?
  • Haben andere Anbieter genügend Bandbreite für Sie?
  • Wie gut bleibt die Konnektivität?
  • Wie unabhängig sind Ihre Internetanbieter und wird ein schwerwiegender Ausfall eines von ihnen zu Problemen bei den anderen führen?
  • Wie viele optische Eingänge gibt es in Ihrem Rechenzentrum?
  • Was passiert, wenn einer der Eingänge vollständig zerstört wird?

Was die Eingaben betrifft, so hat in meiner Praxis in zwei verschiedenen Unternehmen, in zwei verschiedenen Rechenzentren ein Bagger Brunnen zerstört und nur wie durch ein Wunder wurde unsere Optik nicht beeinträchtigt. Das ist kein so seltener Fall.

Und natürlich müssen Sie diese Fragen nicht nur stellen, sondern auch mit Unterstützung des Managements in jeder Situation eine akzeptable Lösung finden.

Sicherung

Die nächste Priorität könnte eine Sicherung der Gerätekonfigurationen sein. Auf jeden Fall ist dies ein sehr wichtiger Punkt. Ich werde die Fälle, in denen Sie die Konfiguration verlieren können, nicht auflisten; es ist besser, regelmäßig Backups zu erstellen und nicht darüber nachzudenken. Darüber hinaus können regelmäßige Backups bei der Überwachung von Änderungen sehr nützlich sein.

Wichtig! Erstellen Sie täglich Backups. Dies ist keine so große Datenmenge, die hier gespeichert werden muss. Am Morgen sollte der diensthabende Ingenieur (oder Sie) einen Bericht vom System erhalten, aus dem eindeutig hervorgeht, ob die Sicherung erfolgreich war oder nicht. Wenn die Sicherung nicht erfolgreich war, sollte das Problem behoben oder ein Ticket erstellt werden ( siehe Prozesse der Netzwerkabteilung).

Softwareversionen

Die Frage, ob es sich lohnt, die Software der Geräte zu aktualisieren, ist nicht so eindeutig. Einerseits sind alte Versionen bekannte Fehler und Schwachstellen, andererseits ist neue Software erstens nicht immer ein schmerzloser Upgrade-Vorgang und zweitens neue Fehler und Schwachstellen.

Hier müssen Sie die beste Option finden. Ein paar offensichtliche Empfehlungen

  • Installieren Sie nur stabile Versionen
  • Dennoch sollten Sie nicht mit sehr alten Softwareversionen leben
  • Machen Sie ein Schild mit Informationen darüber, wo sich Software befindet
  • Lesen Sie regelmäßig Berichte über Schwachstellen und Fehler in Softwareversionen und denken Sie bei kritischen Problemen über ein Upgrade nach

Wenn Sie zu diesem Zeitpunkt über Konsolenzugriff auf die Ausrüstung, Informationen zum Support und eine Beschreibung des Upgrade-Vorgangs verfügen, sind Sie im Prinzip für diesen Schritt bereit. Die ideale Option ist, wenn Sie über Laborgeräte verfügen, mit denen Sie den gesamten Vorgang überprüfen können. Leider kommt dies jedoch nicht oft vor.

Bei kritischen Geräten können Sie sich mit der Bitte an den Support des Anbieters wenden, Ihnen beim Upgrade zu helfen.

Ticketsystem

Jetzt können Sie sich umschauen. Sie müssen Prozesse für die Interaktion mit anderen Abteilungen und innerhalb der Abteilung etablieren.

Dies ist möglicherweise nicht notwendig (z. B. wenn Ihr Unternehmen klein ist), ich würde jedoch dringend empfehlen, die Arbeit so zu organisieren, dass alle externen und internen Aufgaben über das Ticketsystem laufen.

Das Ticketsystem ist im Wesentlichen Ihre Schnittstelle für die interne und externe Kommunikation, und Sie sollten diese Schnittstelle ausreichend detailliert beschreiben.

Nehmen wir ein Beispiel für eine wichtige und häufige Aufgabe des Öffnens des Zugangs. Ich werde einen Algorithmus beschreiben, der in einem der Unternehmen perfekt funktioniert hat.

Beispiel

Beginnen wir mit der Tatsache, dass Zugangskunden ihre Wünsche oft in einer für einen Netzwerktechniker unverständlichen Sprache formulieren, nämlich in der Sprache der Anwendung, zum Beispiel „Gib mir Zugang zu 1C“.

Daher haben wir niemals Anfragen direkt von solchen Benutzern angenommen.
Und das war die erste Voraussetzung

  • Zugriffsanfragen sollten von technischen Abteilungen kommen (in unserem Fall waren dies Unix-, Windows- und Helpdesk-Ingenieure).

Die zweite Voraussetzung ist das

  • Dieser Zugriff muss protokolliert werden (von der technischen Abteilung, von der wir diese Anfrage erhalten haben) und als Anfrage erhalten wir einen Link zu diesem protokollierten Zugriff

Die Form dieser Anfrage muss für uns verständlich sein, d.h.

  • Die Anfrage muss Informationen darüber enthalten, welches Subnetz und zu welchem ​​Subnetz der Zugriff geöffnet sein soll, sowie das Protokoll und (im Fall von TCP/UDP) die Ports

Es sollte dort auch angegeben werden

  • Beschreibung, warum dieser Zugang geöffnet wird
  • vorübergehend oder dauerhaft (falls vorübergehend, bis zu welchem ​​Datum)

Und ein ganz wichtiger Punkt sind Genehmigungen

  • vom Leiter der Abteilung, die den Zugriff veranlasst hat (z. B. Buchhaltung)
  • vom Leiter der technischen Abteilung, von wo aus diese Anfrage an die Netzwerkabteilung (z. B. Helpdesk) kam

Als „Eigentümer“ dieses Zugriffs gilt in diesem Fall der Leiter der Abteilung, die den Zugriff initiiert hat (in unserem Beispiel Buchhaltung), und er ist dafür verantwortlich, dass die Seite mit protokollierten Zugriffen für diese Abteilung aktuell bleibt .

Protokollierung

Das ist etwas, in dem man ertrinken kann. Wenn Sie jedoch proaktiv vorgehen möchten, müssen Sie lernen, mit dieser Datenflut umzugehen.

Hier einige praktische Empfehlungen:

  • Sie müssen die Protokolle täglich überprüfen
  • Im Falle einer geplanten Überprüfung (und nicht einer Notfallsituation) können Sie sich auf die Schweregrade 0, 1, 2 beschränken und bei Bedarf ausgewählte Muster aus anderen Ebenen hinzufügen
  • Schreiben Sie ein Skript, das Protokolle analysiert und diejenigen Protokolle ignoriert, deren Muster Sie zur Ignorierliste hinzugefügt haben

Dieser Ansatz ermöglicht es Ihnen, im Laufe der Zeit eine Ignorierungsliste mit Protokollen zu erstellen, die für Sie uninteressant sind, und nur diejenigen übrig zu lassen, die Sie wirklich für wichtig halten.
Bei uns hat es super geklappt.

Überwachung

Nicht selten fehlt einem Unternehmen ein Überwachungssystem. Sie können sich beispielsweise auf Protokolle verlassen, aber das Gerät „stirbt“ möglicherweise einfach, ohne Zeit zu haben, etwas zu „sagen“, oder das UDP-Syslog-Protokollpaket geht möglicherweise verloren und kommt nicht an. Generell ist natürlich eine aktive Überwachung wichtig und notwendig.

Die beiden beliebtesten Beispiele in meiner Praxis:

  • Überwachung der Auslastung von Kommunikationskanälen und kritischen Verbindungen (z. B. Verbindung zu Anbietern). Sie ermöglichen es Ihnen, das potenzielle Problem einer Serviceverschlechterung aufgrund von Verkehrsverlusten proaktiv zu erkennen und dementsprechend zu vermeiden.
  • Diagramme basierend auf NetFlow. Sie erleichtern das Auffinden von Anomalien im Datenverkehr und sind sehr nützlich, um einige einfache, aber wichtige Arten von Hackerangriffen zu erkennen.

Wichtig! Richten Sie SMS-Benachrichtigungen für die kritischsten Ereignisse ein. Dies gilt sowohl für die Überwachung als auch für die Protokollierung. Wenn Sie keine Dienstschicht haben, sollten SMS auch außerhalb der Arbeitszeit eintreffen.

Denken Sie den Prozess so durch, dass nicht alle Ingenieure aufgeweckt werden. Dafür hatten wir einen Ingenieur im Einsatz.

Kontrolle ändern

Meiner Meinung nach ist es nicht notwendig, alle Änderungen zu kontrollieren. Aber auf jeden Fall sollten Sie bei Bedarf leicht herausfinden können, wer bestimmte Änderungen im Netzwerk vorgenommen hat und warum.

Ein paar Tipps:

  • Verwenden Sie ein Ticketsystem, um detailliert darzustellen, was mit diesem Ticket geschehen ist, indem Sie beispielsweise die angewendete Konfiguration in das Ticket kopieren
  • Verwenden Sie Kommentarfunktionen für Netzwerkgeräte (z. B. Commit-Kommentar zu Juniper). Sie können die Ticketnummer notieren
  • Verwenden Sie Diff Ihrer Konfigurationssicherungen

Sie können dies als Prozess implementieren und alle Tickets täglich auf Änderungen überprüfen.

Prozesse

Sie müssen die Prozesse in Ihrem Team formalisieren und beschreiben. Wenn Sie diesen Punkt erreicht haben, sollten in Ihrem Team bereits mindestens die folgenden Prozesse ausgeführt werden:

Tägliche Prozesse:

  • Arbeiten mit Tickets
  • Arbeiten mit Protokollen
  • Kontrolle ändern
  • tägliches Kontrollblatt

Jährliche Prozesse:

  • Verlängerung von Garantien, Lizenzen

Asynchrone Prozesse:

  • Reaktion auf verschiedene Notfallsituationen

Fazit des ersten Teils

Ist Ihnen aufgefallen, dass es hier noch nicht um Netzwerkkonfiguration, nicht um Design, nicht um Netzwerkprotokolle, nicht um Routing, nicht um Sicherheit geht ... Es geht um etwas. Aber auch wenn diese vielleicht langweilig sind, sind sie natürlich sehr wichtige Elemente der Arbeit einer Netzwerkabteilung.

Wie Sie sehen, haben Sie in Ihrem Netzwerk bisher nichts verbessert. Wenn es Sicherheitslücken gab, dann blieben sie bestehen; wenn es schlechtes Design gab, dann blieb es bestehen. Bis Sie Ihre Fähigkeiten und Kenntnisse als Netzwerktechniker angewendet haben, wofür Sie höchstwahrscheinlich viel Zeit, Mühe und manchmal auch Geld aufgewendet haben. Aber zuerst müssen Sie das Fundament schaffen (oder stärken) und dann mit dem Bau beginnen.

In den folgenden Abschnitten erfahren Sie, wie Sie Fehler finden und beseitigen und anschließend Ihre Infrastruktur verbessern.

Natürlich müssen Sie nicht alles der Reihe nach erledigen. Zeit kann entscheidend sein. Führen Sie dies parallel durch, sofern die Ressourcen dies zulassen.

Und eine wichtige Ergänzung. Kommunizieren Sie, fragen Sie, beraten Sie sich mit Ihrem Team. Letztendlich sind sie es, die das alles unterstützen und tun.

Source: habr.com

Kommentar hinzufügen