Bagaimana untuk mengawal infrastruktur rangkaian anda. Bab pertama. tahan

Artikel ini adalah yang pertama dalam siri artikel "Cara Mengambil Kawalan Infrastruktur Rangkaian Anda." Kandungan semua artikel dalam siri dan pautan boleh didapati di sini.

Saya mengakui sepenuhnya bahawa terdapat bilangan syarikat yang mencukupi di mana masa henti rangkaian selama satu jam atau sehari adalah tidak kritikal. Malang atau bernasib baik, saya tidak berpeluang bekerja di tempat-tempat sebegitu. Tetapi, sudah tentu, rangkaiannya berbeza, keperluannya berbeza, pendekatannya berbeza, namun, dalam satu bentuk atau yang lain, senarai di bawah dalam banyak kes sebenarnya akan menjadi "mesti buat."

Jadi, syarat awal.

Anda berada dalam pekerjaan baharu, anda telah menerima kenaikan pangkat, atau anda telah memutuskan untuk melihat semula tanggungjawab anda. Rangkaian syarikat adalah bidang tanggungjawab anda. Bagi anda, ini dalam banyak cara adalah satu cabaran dan baharu, yang sedikit sebanyak membenarkan nada bimbingan artikel ini :). Tetapi saya berharap artikel itu juga boleh berguna kepada mana-mana jurutera rangkaian.

Matlamat strategik pertama anda adalah untuk belajar menentang entropi dan mengekalkan tahap perkhidmatan yang disediakan.

Banyak masalah yang diterangkan di bawah boleh diselesaikan dengan pelbagai cara. Saya sengaja tidak membangkitkan topik pelaksanaan teknikal, kerana... pada dasarnya, selalunya tidak begitu penting cara anda menyelesaikan masalah ini atau itu, tetapi yang penting ialah cara anda menggunakannya dan sama ada anda menggunakannya sama sekali. Sebagai contoh, sistem pemantauan anda yang dibina secara profesional tidak berguna jika anda tidak melihatnya dan tidak bertindak balas kepada makluman.

ΠžΠ±ΠΎΡ€ΡƒΠ΄ΠΎΠ²Π°Π½ΠΈΠ΅

Mula-mula anda perlu memahami di mana risiko terbesar berada.

Sekali lagi, ia boleh berbeza. Saya mengakui bahawa di suatu tempat, sebagai contoh, ini akan menjadi isu keselamatan, dan di suatu tempat, isu yang berkaitan dengan kesinambungan perkhidmatan, dan di suatu tempat, mungkin, sesuatu yang lain. Kenapa tidak?

Mari kita anggap, untuk menjadi jelas, bahawa ini masih kesinambungan perkhidmatan (ini berlaku di semua syarikat tempat saya bekerja).

Kemudian anda perlu bermula dengan peralatan. Berikut adalah senarai topik yang perlu diberi perhatian:

  • pengelasan peralatan mengikut tahap kritikal
  • sandaran peralatan kritikal
  • sokongan, lesen

Anda perlu memikirkan kemungkinan senario kegagalan, terutamanya dengan peralatan di bahagian atas klasifikasi kritikal anda. Biasanya, kemungkinan masalah berganda diabaikan, jika tidak penyelesaian dan sokongan anda mungkin menjadi mahal yang tidak munasabah, tetapi dalam kes elemen rangkaian yang benar-benar kritikal, kegagalan yang boleh menjejaskan perniagaan dengan ketara, anda harus memikirkannya.

Contoh

Katakan kita bercakap tentang suis akar dalam pusat data.

Memandangkan kami bersetuju bahawa kesinambungan perkhidmatan adalah kriteria yang paling penting, adalah munasabah untuk menyediakan sandaran "panas" (lebihan) peralatan ini. Tetapi bukan itu sahaja. Anda juga perlu memutuskan berapa lama, jika suis pertama pecah, adakah boleh diterima untuk anda hidup dengan hanya satu suis yang tinggal, kerana terdapat risiko ia akan pecah juga.

Penting! Anda tidak perlu memutuskan isu ini sendiri. Anda mesti menerangkan risiko, kemungkinan penyelesaian dan kos kepada pengurusan atau pengurusan syarikat. Mereka mesti membuat keputusan.

Jadi, jika diputuskan bahawa, memandangkan kebarangkalian kecil kegagalan berganda, bekerja selama 4 jam pada satu suis, pada dasarnya, boleh diterima, maka anda hanya boleh mengambil sokongan yang sesuai (mengikut mana peralatan akan diganti dalam masa 4 Jam).

Tetapi ada risiko bahawa mereka tidak akan menyampaikan. Malangnya, kami pernah mendapati diri kami berada dalam keadaan sedemikian. Daripada empat jam, peralatan berjalan selama seminggu!!!

Oleh itu, risiko ini juga perlu dibincangkan dan, mungkin, adalah lebih tepat untuk anda membeli suis lain (ketiga) dan menyimpannya dalam pakej alat ganti ("sandaran sejuk") atau menggunakannya untuk tujuan makmal.

Penting! Buat hamparan semua sokongan yang anda miliki dengan tarikh tamat tempoh dan tambahkannya pada kalendar anda supaya anda mendapat e-mel sekurang-kurangnya sebulan lebih awal yang anda harus mula bimbang tentang memperbaharui sokongan anda.

Anda tidak akan diampuni jika anda terlupa untuk memperbaharui sokongan anda dan sehari selepas ia tamat kerosakan perkakasan anda.

Kerja kecemasan

Walau apa pun yang berlaku pada rangkaian anda, sebaiknya anda mengekalkan akses kepada peralatan rangkaian anda.

Penting! Anda mesti mempunyai akses konsol kepada semua peralatan dan akses ini tidak seharusnya bergantung pada kesihatan rangkaian data pengguna.

Anda juga harus meramalkan kemungkinan senario negatif terlebih dahulu dan mendokumentasikan tindakan yang perlu. Ketersediaan dokumen ini juga penting, jadi ia bukan sahaja harus disiarkan pada sumber yang dikongsi untuk jabatan, tetapi juga disimpan secara tempatan pada komputer jurutera.

mesti ada

  • maklumat yang diperlukan untuk membuka tiket dengan sokongan vendor atau penyepadu
  • maklumat tentang cara untuk mendapatkan sebarang peralatan (konsol, pengurusan)

Sudah tentu, ia juga mungkin mengandungi sebarang maklumat berguna lain, sebagai contoh, perihalan prosedur naik taraf untuk pelbagai peralatan dan arahan diagnostik yang berguna.

Gabungan

Kini anda perlu menilai risiko yang berkaitan dengan rakan kongsi. Biasanya ini

  • Pembekal Internet dan titik pertukaran trafik (IX)
  • pembekal saluran komunikasi

Apakah soalan yang perlu anda tanya pada diri sendiri? Seperti peralatan, senario kecemasan yang berbeza mesti dipertimbangkan. Sebagai contoh, untuk pembekal Internet, ia mungkin seperti:

  • apakah yang berlaku jika pembekal Internet X berhenti memberikan anda perkhidmatan atas sebab tertentu?
  • Adakah pembekal lain mempunyai lebar jalur yang mencukupi untuk anda?
  • Sejauh manakah ketersambungan akan kekal?
  • Sejauh manakah penyedia Internet anda berdikari dan adakah gangguan serius pada salah satu daripada mereka akan menyebabkan masalah dengan yang lain?
  • berapa banyak input optik ke dalam pusat data anda?
  • apakah yang akan berlaku jika salah satu input dimusnahkan sepenuhnya?

Mengenai input, dalam amalan saya di dua syarikat berbeza, di dua pusat data berbeza, jengkaut memusnahkan telaga dan hanya dengan ajaib optik kami tidak terjejas. Ini bukan kes yang jarang berlaku.

Dan, sudah tentu, anda bukan sahaja perlu bertanya soalan ini, tetapi, sekali lagi, dengan sokongan pihak pengurusan, untuk menyediakan penyelesaian yang boleh diterima dalam apa jua keadaan.

Sandaran

Keutamaan seterusnya mungkin adalah sandaran konfigurasi peralatan. Walau apa pun, ini adalah perkara yang sangat penting. Saya tidak akan menyenaraikan kes tersebut apabila anda boleh kehilangan konfigurasi; adalah lebih baik untuk membuat sandaran biasa dan tidak memikirkannya. Di samping itu, sandaran biasa boleh menjadi sangat berguna dalam memantau perubahan.

Penting! Buat sandaran setiap hari. Ini bukan jumlah data yang banyak untuk disimpan pada perkara ini. Pada waktu pagi, jurutera yang bertugas (atau anda) harus menerima laporan daripada sistem, yang dengan jelas menunjukkan sama ada sandaran berjaya atau tidak, dan jika sandaran tidak berjaya, masalah itu harus diselesaikan atau tiket harus dibuat ( lihat proses jabatan rangkaian).

Versi perisian

Persoalan sama ada patut atau tidak menaik taraf perisian peralatan tidak begitu jelas. Di satu pihak, versi lama dikenali sebagai pepijat dan kelemahan, tetapi sebaliknya, perisian baharu, pertama sekali, tidak selalunya merupakan prosedur peningkatan yang tidak menyakitkan, dan kedua, pepijat dan kelemahan baharu.

Di sini anda perlu mencari pilihan terbaik. Beberapa cadangan yang jelas

  • pasang hanya versi stabil
  • Namun, anda tidak sepatutnya menggunakan versi perisian yang sangat lama
  • buat tanda dengan maklumat tentang lokasi beberapa perisian
  • membaca laporan secara berkala tentang kelemahan dan pepijat dalam versi perisian, dan sekiranya berlaku masalah kritikal, anda harus memikirkan tentang menaik taraf

Pada peringkat ini, mempunyai akses konsol kepada peralatan, maklumat tentang sokongan dan penerangan prosedur naik taraf, anda, pada dasarnya, bersedia untuk langkah ini. Pilihan yang ideal ialah apabila anda mempunyai peralatan makmal di mana anda boleh menyemak keseluruhan prosedur, tetapi, malangnya, ini tidak sering berlaku.

Dalam kes peralatan kritikal, anda boleh menghubungi sokongan vendor dengan permintaan untuk membantu anda dengan peningkatan.

Sistem tiket

Sekarang anda boleh melihat sekeliling. Anda perlu mewujudkan proses untuk interaksi dengan jabatan lain dan dalam jabatan.

Ini mungkin tidak perlu (contohnya, jika syarikat anda kecil), tetapi saya sangat mengesyorkan mengatur kerja sedemikian rupa sehingga semua tugas luaran dan dalaman melalui sistem tiket.

Sistem tiket pada asasnya ialah antara muka anda untuk komunikasi dalaman dan luaran, dan anda harus menerangkan antara muka ini dengan cukup terperinci.

Mari kita ambil contoh tugas penting dan biasa untuk membuka akses. Saya akan menerangkan algoritma yang berfungsi dengan sempurna dalam salah satu syarikat.

Contoh

Mari kita mulakan dengan fakta bahawa pelanggan sering merumuskan keinginan mereka dalam bahasa yang tidak dapat difahami oleh jurutera rangkaian, iaitu, dalam bahasa aplikasi, sebagai contoh, "beri saya akses kepada 1C."

Oleh itu, kami tidak pernah menerima permintaan terus daripada pengguna tersebut.
Dan itu adalah keperluan pertama

  • permintaan untuk akses harus datang dari jabatan teknikal (dalam kes kami ini adalah unix, windows, jurutera meja bantuan)

Keperluan kedua ialah

  • akses ini mesti dilog (oleh jabatan teknikal dari mana kami menerima permintaan ini) dan sebagai permintaan kami menerima pautan ke akses log ini

Bentuk permintaan ini mesti difahami oleh kami, i.e.

  • permintaan mesti mengandungi maklumat tentang subnet yang mana dan akses subnet yang harus dibuka, serta protokol dan (dalam kes tcp/udp) port

Ia juga harus ditunjukkan di sana

  • penerangan tentang sebab akses ini dibuka
  • sementara atau kekal (jika sementara, sehingga tarikh berapa)

Dan perkara yang sangat penting ialah kelulusan

  • daripada ketua jabatan yang memulakan akses (contohnya, perakaunan)
  • daripada ketua jabatan teknikal, dari mana permintaan ini datang ke jabatan rangkaian (contohnya, meja bantuan)

Dalam kes ini, "pemilik" akses ini dianggap sebagai ketua jabatan yang memulakan akses (perakaunan dalam contoh kami), dan dia bertanggungjawab untuk memastikan halaman dengan akses log untuk jabatan ini kekal terkini. .

Pembalakan

Ini adalah sesuatu yang anda boleh lemas. Tetapi jika anda ingin melaksanakan pendekatan proaktif, maka anda perlu belajar cara menangani banjir data ini.

Berikut ialah beberapa cadangan praktikal:

  • anda perlu menyemak log setiap hari
  • dalam kes semakan yang dirancang (dan bukan situasi kecemasan), anda boleh mengehadkan diri anda kepada tahap keterukan 0, 1, 2 dan menambah corak terpilih daripada tahap lain jika anda menganggapnya perlu
  • tulis skrip yang menghuraikan log dan mengabaikan log tersebut yang coraknya anda tambahkan pada senarai abaikan

Pendekatan ini akan membolehkan anda, dari semasa ke semasa, membuat senarai abaikan log yang tidak menarik kepada anda dan hanya meninggalkan log yang anda benar-benar anggap penting.
Ia berkesan untuk kami.

Pemantauan

Tidak jarang syarikat tidak mempunyai sistem pemantauan. Anda boleh, sebagai contoh, bergantung pada log, tetapi peralatan mungkin hanya "mati" tanpa mempunyai masa untuk "mengatakan" apa-apa, atau paket protokol syslog udp mungkin hilang dan tidak tiba. Secara umum, sudah tentu, pemantauan aktif adalah penting dan perlu.

Dua contoh paling popular dalam amalan saya:

  • memantau beban saluran komunikasi, pautan kritikal (contohnya, menyambung kepada pembekal). Mereka membenarkan anda melihat secara proaktif masalah kemerosotan perkhidmatan yang mungkin disebabkan oleh kehilangan trafik dan, oleh itu, mengelakkannya.
  • graf berdasarkan NetFlow. Mereka memudahkan untuk mencari anomali dalam trafik dan sangat berguna untuk mengesan beberapa jenis serangan penggodam yang mudah tetapi ketara.

Penting! Sediakan pemberitahuan SMS untuk acara paling kritikal. Ini terpakai kepada pemantauan dan pembalakan. Jika anda tidak mempunyai syif bertugas, maka sms juga harus sampai di luar waktu bekerja.

Fikirkan proses sedemikian rupa agar tidak menyedarkan semua jurutera. Kami mempunyai jurutera yang bertugas untuk ini.

Tukar kawalan

Pada pendapat saya, tidak perlu mengawal semua perubahan. Tetapi, dalam apa jua keadaan, anda sepatutnya dapat, jika perlu, untuk mencari dengan mudah siapa yang membuat perubahan tertentu pada rangkaian dan mengapa.

Beberapa tips:

  • gunakan sistem tiket untuk memperincikan perkara yang telah dilakukan pada tiket itu, contohnya dengan menyalin konfigurasi yang digunakan ke dalam tiket
  • gunakan keupayaan ulasan pada peralatan rangkaian (contohnya, lakukan ulasan pada Juniper). Anda boleh menulis nombor tiket
  • gunakan perbezaan sandaran konfigurasi anda

Anda boleh melaksanakan ini sebagai proses, menyemak semua tiket setiap hari untuk perubahan.

Proses

Anda mesti memformalkan dan menerangkan proses dalam pasukan anda. Jika anda telah mencapai tahap ini, maka pasukan anda sepatutnya sudah mempunyai sekurang-kurangnya proses berikut berjalan:

Proses harian:

  • bekerja dengan tiket
  • bekerja dengan log
  • menukar kawalan
  • lembaran cek harian

Proses tahunan:

  • lanjutan jaminan, lesen

Proses tak segerak:

  • tindak balas kepada pelbagai situasi kecemasan

Kesimpulan bahagian pertama

Adakah anda perasan bahawa semua ini belum lagi mengenai konfigurasi rangkaian, bukan mengenai reka bentuk, bukan mengenai protokol rangkaian, bukan tentang penghalaan, bukan tentang keselamatan... Ia adalah sesuatu di sekeliling. Tetapi ini, walaupun mungkin membosankan, sudah tentu, elemen yang sangat penting dalam kerja bahagian rangkaian.

Setakat ini, seperti yang anda lihat, anda tidak menambah baik apa-apa dalam rangkaian anda. Sekiranya terdapat kelemahan keselamatan, maka ia kekal; jika terdapat reka bentuk yang buruk, maka ia kekal. Sehingga anda telah menggunakan kemahiran dan pengetahuan anda sebagai jurutera rangkaian, yang kemungkinan besar anda telah menghabiskan banyak masa, usaha, dan kadangkala wang. Tetapi pertama-tama anda perlu mencipta (atau menguatkan) asas, dan kemudian memulakan pembinaan.

Bahagian berikut akan memberitahu anda cara mencari dan menghapuskan ralat, dan kemudian menambah baik infrastruktur anda.

Sudah tentu, anda tidak perlu melakukan semuanya secara berurutan. Masa boleh menjadi kritikal. Lakukan secara selari jika sumber mengizinkan.

Dan tambahan penting. Berkomunikasi, bertanya, berunding dengan pasukan anda. Akhirnya merekalah yang menyokong dan melakukan semua ini.

Sumber: www.habr.com

Tambah komen