Bagaimana mengendalikan infrastruktur jaringan Anda. Bab pertama. Memegang

Artikel ini adalah yang pertama dari serangkaian artikel “Cara Mengendalikan Infrastruktur Jaringan Anda.” Isi semua artikel dalam seri dan tautan dapat ditemukan di sini.

Saya akui sepenuhnya bahwa ada cukup banyak perusahaan yang menganggap downtime jaringan selama satu jam atau bahkan satu hari bukanlah hal yang penting. Sayangnya atau untungnya, saya tidak mempunyai kesempatan untuk bekerja di tempat seperti itu. Namun, tentu saja, jaringannya berbeda, persyaratannya berbeda, pendekatannya berbeda, namun, dalam satu atau lain bentuk, daftar di bawah ini dalam banyak kasus sebenarnya merupakan hal yang “harus dilakukan.”

Jadi, kondisi awalnya.

Anda berada dalam pekerjaan baru, Anda telah menerima promosi, atau Anda telah memutuskan untuk melihat kembali tanggung jawab Anda. Jaringan perusahaan adalah wilayah tanggung jawab Anda. Bagi Anda, ini dalam banyak hal merupakan tantangan dan hal baru, yang agak membenarkan nada pendampingan artikel ini :). Namun saya berharap artikel ini juga dapat bermanfaat bagi semua insinyur jaringan.

Tujuan strategis pertama Anda adalah belajar melawan entropi dan mempertahankan tingkat layanan yang diberikan.

Banyak permasalahan yang diuraikan di bawah ini dapat diselesaikan dengan berbagai cara. Sengaja saya tidak mengangkat topik teknis pelaksanaannya, karena... pada prinsipnya, seringkali tidak begitu penting bagaimana Anda memecahkan masalah ini atau itu, tetapi yang penting adalah bagaimana Anda menggunakannya dan apakah Anda menggunakannya atau tidak. Misalnya, sistem pemantauan yang Anda buat secara profesional tidak akan banyak berguna jika Anda tidak melihatnya dan tidak merespons peringatan.

Оборудование

Pertama, Anda perlu memahami di mana risiko terbesarnya.

Sekali lagi, ini bisa berbeda. Saya akui bahwa di suatu tempat, misalnya, ini adalah masalah keamanan, dan di suatu tempat, masalah yang terkait dengan kelangsungan layanan, dan di suatu tempat, mungkin, hal lain. Mengapa tidak?

Mari kita asumsikan, agar lebih jelas, bahwa layanan ini masih berkesinambungan (hal ini terjadi di semua perusahaan tempat saya bekerja).

Maka Anda harus mulai dengan peralatannya. Berikut adalah daftar topik yang perlu diperhatikan:

  • klasifikasi peralatan berdasarkan tingkat kekritisannya
  • cadangan peralatan penting
  • dukungan, lisensi

Anda perlu memikirkan skenario kegagalan yang mungkin terjadi, terutama dengan peralatan yang berada di peringkat teratas klasifikasi kekritisan Anda. Biasanya, kemungkinan masalah ganda diabaikan, jika tidak, solusi dan dukungan Anda mungkin menjadi terlalu mahal, namun dalam kasus elemen jaringan yang benar-benar kritis, kegagalan yang dapat berdampak signifikan pada bisnis, Anda harus memikirkannya.

Contoh

Katakanlah kita sedang berbicara tentang saklar root di pusat data.

Karena kita sepakat bahwa kontinuitas layanan adalah kriteria yang paling penting, maka masuk akal untuk menyediakan cadangan “panas” (redundansi) pada peralatan ini. Tapi itu belum semuanya. Anda juga perlu memutuskan berapa lama, jika saklar pertama rusak, apakah Anda dapat hidup dengan hanya satu saklar yang tersisa, karena ada risiko saklar tersebut akan rusak juga.

Penting! Anda tidak harus memutuskan sendiri masalah ini. Anda harus menjelaskan risiko, kemungkinan solusi, dan biaya yang harus ditanggung manajemen atau manajemen perusahaan. Mereka harus mengambil keputusan.

Jadi, jika diputuskan bahwa, mengingat kecilnya kemungkinan kegagalan ganda, bekerja selama 4 jam pada satu sakelar, pada prinsipnya dapat diterima, maka Anda cukup mengambil dukungan yang sesuai (yang menurutnya peralatan akan diganti dalam waktu 4 jam).

Namun ada risiko bahwa mereka tidak akan berhasil. Sayangnya, kita pernah mengalami situasi seperti ini. Alih-alih empat jam, peralatan tersebut menempuh perjalanan selama seminggu!!!

Oleh karena itu, risiko ini juga perlu didiskusikan dan, mungkin, akan lebih tepat jika Anda membeli sakelar lain (ketiga) dan menyimpannya dalam paket suku cadang (“cadangan dingin”) atau menggunakannya untuk keperluan laboratorium.

Penting! Buatlah spreadsheet berisi semua dukungan yang Anda miliki dengan tanggal kedaluwarsa dan tambahkan ke kalender Anda sehingga Anda menerima email setidaknya sebulan sebelumnya bahwa Anda harus mulai khawatir untuk memperbarui dukungan Anda.

Anda tidak akan dimaafkan jika Anda lupa memperbarui dukungan Anda dan sehari setelah dukungan itu berakhir, perangkat keras Anda rusak.

Pekerjaan darurat

Apapun yang terjadi pada jaringan Anda, idealnya Anda harus mempertahankan akses ke peralatan jaringan Anda.

Penting! Anda harus memiliki akses konsol ke semua peralatan dan akses ini tidak boleh bergantung pada kesehatan jaringan data pengguna.

Anda juga harus memperkirakan kemungkinan skenario negatif sebelumnya dan mendokumentasikan tindakan yang diperlukan. Ketersediaan dokumen ini juga penting, sehingga tidak hanya diposting pada sumber daya bersama untuk departemen, tetapi juga disimpan secara lokal di komputer para insinyur.

Pasti ada

  • informasi yang diperlukan untuk membuka tiket dengan dukungan vendor atau integrator
  • informasi tentang cara menuju ke peralatan apa pun (konsol, manajemen)

Tentu saja, ini juga dapat berisi informasi berguna lainnya, misalnya, deskripsi prosedur peningkatan berbagai peralatan dan perintah diagnostik yang berguna.

Afiliasi

Sekarang Anda perlu menilai risiko yang terkait dengan mitra. Biasanya ini

  • Penyedia Internet dan Titik Pertukaran Lalu Lintas (IX)
  • penyedia saluran komunikasi

Pertanyaan apa yang harus Anda tanyakan pada diri sendiri? Terkait dengan peralatan, skenario darurat yang berbeda harus dipertimbangkan. Misalnya, untuk penyedia Internet, bisa berupa:

  • apa yang terjadi jika penyedia Internet X berhenti memberikan layanan kepada Anda karena alasan tertentu?
  • Akankah penyedia lain mempunyai bandwidth yang cukup untuk Anda?
  • Seberapa baik konektivitasnya?
  • Seberapa independenkah penyedia Internet Anda dan apakah pemadaman listrik yang serius pada salah satu penyedia layanan tersebut akan menyebabkan masalah pada penyedia layanan lainnya?
  • berapa banyak input optik ke pusat data Anda?
  • apa yang akan terjadi jika salah satu input rusak total?

Mengenai masukan, dalam praktik saya di dua perusahaan berbeda, di dua pusat data berbeda, sebuah ekskavator menghancurkan sumur dan hanya keajaiban optik kami tidak terpengaruh. Ini bukanlah kasus yang jarang terjadi.

Dan, tentu saja, Anda tidak hanya perlu menanyakan pertanyaan-pertanyaan ini, tetapi, sekali lagi, dengan dukungan manajemen, memberikan solusi yang dapat diterima dalam situasi apa pun.

Cadangan

Prioritas berikutnya mungkin adalah pencadangan konfigurasi peralatan. Bagaimanapun, ini adalah poin yang sangat penting. Saya tidak akan mencantumkan kasus-kasus ketika Anda dapat kehilangan konfigurasi, lebih baik membuat cadangan secara teratur dan tidak memikirkannya. Selain itu, pencadangan rutin bisa sangat berguna dalam memantau perubahan.

Penting! Buat cadangan setiap hari. Ini bukanlah jumlah data yang besar untuk dihemat. Di pagi hari, teknisi yang bertugas (atau Anda) akan menerima laporan dari sistem, yang dengan jelas menunjukkan apakah pencadangan berhasil atau tidak, dan jika pencadangan tidak berhasil, masalahnya harus diselesaikan atau tiket harus dibuat ( lihat proses departemen jaringan).

Versi perangkat lunak

Pertanyaan apakah perlu atau tidaknya memperbarui perangkat lunak peralatan masih belum jelas. Di satu sisi, versi lama memiliki bug dan kerentanan yang diketahui, namun di sisi lain, perangkat lunak baru, pertama, tidak selalu merupakan prosedur peningkatan yang mudah, dan kedua, bug dan kerentanan baru.

Di sini Anda perlu menemukan opsi terbaik. Beberapa rekomendasi yang jelas

  • instal hanya versi stabil
  • Namun, Anda tidak boleh menggunakan perangkat lunak versi lama
  • membuat tanda dengan informasi tentang di mana beberapa perangkat lunak berada
  • baca secara berkala laporan tentang kerentanan dan bug dalam versi perangkat lunak, dan jika terjadi masalah kritis, Anda harus memikirkan untuk memutakhirkan

Pada tahap ini, dengan memiliki akses konsol ke peralatan, informasi tentang dukungan, dan deskripsi prosedur peningkatan, pada prinsipnya Anda siap untuk langkah ini. Pilihan ideal adalah ketika Anda memiliki peralatan laboratorium di mana Anda dapat memeriksa seluruh prosedur, namun sayangnya, hal ini tidak sering terjadi.

Dalam hal peralatan penting, Anda dapat menghubungi dukungan vendor dengan permintaan untuk membantu Anda melakukan peningkatan.

Sistem tiket

Sekarang Anda bisa melihat-lihat. Anda perlu menetapkan proses interaksi dengan departemen lain dan di dalam departemen.

Ini mungkin tidak diperlukan (misalnya, jika perusahaan Anda kecil), tetapi saya sangat menyarankan untuk mengatur pekerjaan sedemikian rupa sehingga semua tugas eksternal dan internal melalui sistem tiket.

Sistem tiket pada dasarnya adalah antarmuka Anda untuk komunikasi internal dan eksternal, dan Anda harus menjelaskan antarmuka ini dengan cukup detail.

Mari kita ambil contoh tugas penting dan umum yaitu membuka akses. Saya akan menjelaskan algoritma yang bekerja dengan sempurna di salah satu perusahaan.

Contoh

Mari kita mulai dengan fakta bahwa sering kali pelanggan akses merumuskan keinginan mereka dalam bahasa yang tidak dapat dipahami oleh seorang insinyur jaringan, yaitu dalam bahasa aplikasi, misalnya, "beri saya akses ke 1C".

Oleh karena itu, kami tidak pernah menerima permintaan langsung dari pengguna tersebut.
Dan itu adalah persyaratan pertama

  • permintaan akses harus datang dari departemen teknis (dalam kasus kami ini adalah insinyur unix, windows, helpdesk)

Persyaratan kedua adalah itu

  • akses ini harus dicatat (oleh departemen teknis tempat kami menerima permintaan ini) dan sebagai permintaan, kami menerima tautan ke akses yang dicatat ini

Bentuk permintaan ini harus dapat kami pahami, yaitu.

  • permintaan harus berisi informasi tentang subnet mana dan akses subnet mana yang harus dibuka, serta protokol dan port (dalam kasus tcp/udp)

Itu juga harus ditunjukkan di sana

  • deskripsi mengapa akses ini dibuka
  • sementara atau permanen (jika sementara, sampai tanggal berapa)

Dan poin yang sangat penting adalah persetujuan

  • dari kepala departemen yang memulai akses (misalnya, akuntansi)
  • dari kepala departemen teknis, dari mana permintaan ini datang ke departemen jaringan (misalnya, meja bantuan)

Dalam hal ini, “pemilik” akses ini dianggap sebagai kepala departemen yang memulai akses (akuntansi dalam contoh kita), dan dia bertanggung jawab untuk memastikan bahwa halaman dengan akses yang dicatat untuk departemen ini tetap mutakhir. .

Penebangan

Ini adalah sesuatu yang bisa membuat Anda tenggelam. Namun jika Anda ingin menerapkan pendekatan proaktif, Anda perlu mempelajari cara menangani banjir data ini.

Berikut beberapa rekomendasi praktis:

  • Anda perlu meninjau log setiap hari
  • dalam hal tinjauan terencana (dan bukan situasi darurat), Anda dapat membatasi diri pada tingkat keparahan 0, 1, 2 dan menambahkan pola yang dipilih dari tingkat lain jika Anda menganggapnya perlu
  • tulis skrip yang mem-parsing log dan mengabaikan log yang polanya Anda tambahkan ke daftar abaikan

Pendekatan ini akan memungkinkan Anda, seiring waktu, membuat daftar abaikan log yang tidak menarik bagi Anda dan hanya menyisakan log yang benar-benar Anda anggap penting.
Ini berhasil dengan baik bagi kami.

Pemantauan

Tidak jarang sebuah perusahaan kekurangan sistem monitoring. Anda dapat, misalnya, mengandalkan log, tetapi peralatan mungkin “mati” begitu saja tanpa sempat “mengatakan” apa pun, atau paket protokol udp syslog mungkin hilang dan tidak sampai. Secara umum, tentu saja pemantauan aktif itu penting dan perlu.

Dua contoh paling populer dalam praktik saya:

  • memantau beban saluran komunikasi, tautan penting (misalnya, menghubungkan ke penyedia). Mereka memungkinkan Anda untuk secara proaktif melihat potensi masalah penurunan layanan akibat hilangnya lalu lintas dan, karenanya, menghindarinya.
  • grafik berdasarkan NetFlow. Mereka memudahkan untuk menemukan anomali lalu lintas dan sangat berguna untuk mendeteksi beberapa jenis serangan peretas yang sederhana namun signifikan.

Penting! Siapkan pemberitahuan SMS untuk peristiwa paling penting. Hal ini berlaku untuk pemantauan dan pencatatan. Jika Anda tidak memiliki shift tugas, maka sms juga harus sampai di luar jam kerja.

Pikirkan prosesnya sedemikian rupa agar tidak membangunkan semua insinyur. Kami memiliki seorang insinyur yang bertugas untuk ini.

Ubah kontrol

Menurut saya, tidak perlu mengontrol semua perubahan. Namun, bagaimanapun juga, Anda harus dapat, jika perlu, dengan mudah menemukan siapa yang membuat perubahan tertentu pada jaringan dan alasannya.

Beberapa tips:

  • gunakan sistem tiket untuk merinci apa yang dilakukan pada tiket tersebut, misalnya dengan menyalin konfigurasi yang diterapkan ke dalam tiket
  • menggunakan kemampuan komentar pada peralatan jaringan (misalnya, melakukan komentar pada Juniper). Anda dapat menuliskan nomor tiketnya
  • gunakan perbedaan cadangan konfigurasi Anda

Anda dapat menerapkan ini sebagai sebuah proses, meninjau semua tiket setiap hari untuk mengetahui adanya perubahan.

Процессы

Anda harus memformalkan dan menjelaskan proses dalam tim Anda. Jika Anda telah mencapai titik ini, maka tim Anda setidaknya harus menjalankan proses berikut:

Proses harian:

  • bekerja dengan tiket
  • bekerja dengan log
  • mengubah kendali
  • lembar cek harian

Proses tahunan:

  • perpanjangan jaminan, lisensi

Proses asinkron:

  • respons terhadap berbagai situasi darurat

Kesimpulan dari bagian pertama

Pernahkah Anda memperhatikan bahwa semua ini bukan tentang konfigurasi jaringan, bukan tentang desain, bukan tentang protokol jaringan, bukan tentang perutean, bukan tentang keamanan... Ini adalah sesuatu di sekitar. Namun hal ini, walaupun mungkin membosankan, tentu saja merupakan elemen yang sangat penting dari pekerjaan sebuah divisi jaringan.

Sejauh ini, seperti yang Anda lihat, Anda belum meningkatkan apa pun di jaringan Anda. Jika terdapat kerentanan keamanan, maka kerentanan tersebut tetap ada; jika terdapat desain yang buruk, maka kerentanan tersebut tetap ada. Sampai Anda menerapkan keterampilan dan pengetahuan Anda sebagai insinyur jaringan, yang kemungkinan besar Anda akan menghabiskan banyak waktu, tenaga, dan terkadang uang. Tetapi pertama-tama Anda perlu membuat (atau memperkuat) fondasinya, dan kemudian memulai konstruksi.

Bagian berikut akan memberi tahu Anda cara menemukan dan menghilangkan kesalahan, lalu meningkatkan infrastruktur Anda.

Tentu saja, Anda tidak harus melakukan semuanya secara berurutan. Waktu bisa menjadi sangat penting. Lakukan secara paralel jika sumber daya memungkinkan.

Dan tambahan penting. Berkomunikasi, bertanya, berkonsultasi dengan tim Anda. Pada akhirnya, merekalah yang mendukung dan melakukan semua ini.

Sumber: www.habr.com

Tambah komentar