Cách kiểm soát cơ sở hạ tầng mạng của bạn. Chương đầu tiên. Giữ

Bài viết này là bài đầu tiên trong loạt bài “Cách kiểm soát cơ sở hạ tầng mạng của bạn”. Nội dung của tất cả các bài viết trong chuỗi và các liên kết có thể được tìm thấy đây.

Tôi hoàn toàn thừa nhận rằng có đủ số công ty mà thời gian mạng ngừng hoạt động trong một giờ hoặc thậm chí một ngày là không nghiêm trọng. Thật không may hoặc may mắn thay, tôi không có cơ hội làm việc ở những nơi như vậy. Tuy nhiên, tất nhiên, các mạng lưới là khác nhau, các yêu cầu cũng khác nhau, các cách tiếp cận cũng khác nhau, tuy nhiên, dưới hình thức này hay hình thức khác, danh sách dưới đây trong nhiều trường hợp sẽ thực sự là một việc “phải làm”.

Vậy điều kiện ban đầu

Bạn đang có một công việc mới, bạn được thăng chức hoặc bạn quyết định xem xét lại trách nhiệm của mình. Mạng lưới công ty là lĩnh vực bạn chịu trách nhiệm. Đối với bạn, đây là một thách thức và mới mẻ về nhiều mặt, điều này phần nào biện minh cho giọng điệu hướng dẫn của bài viết này :). Nhưng tôi hy vọng rằng bài viết cũng có thể hữu ích cho bất kỳ kỹ sư mạng nào.

Mục tiêu chiến lược đầu tiên của bạn là học cách chống lại entropy và duy trì mức độ dịch vụ được cung cấp.

Nhiều vấn đề được mô tả dưới đây có thể được giải quyết bằng nhiều cách khác nhau. Tôi cố tình không nêu chủ đề thực hiện kỹ thuật, bởi vì... về nguyên tắc, việc bạn giải quyết vấn đề này hay vấn đề kia thường không quá quan trọng mà điều quan trọng là bạn sử dụng nó như thế nào và liệu bạn có sử dụng nó hay không. Ví dụ: hệ thống giám sát được xây dựng chuyên nghiệp của bạn sẽ ít được sử dụng nếu bạn không xem xét nó và không phản hồi các cảnh báo.

Оборудование

Đầu tiên bạn cần hiểu rủi ro lớn nhất nằm ở đâu.

Một lần nữa, nó có thể khác. Tôi thừa nhận rằng ở đâu đó, chẳng hạn, đây sẽ là vấn đề bảo mật và ở đâu đó, các vấn đề liên quan đến tính liên tục của dịch vụ và ở đâu đó, có thể là điều gì đó khác. Tại sao không?

Để rõ ràng, hãy giả sử rằng đây vẫn là tính liên tục của dịch vụ (điều này xảy ra ở tất cả các công ty nơi tôi làm việc).

Sau đó, bạn cần bắt đầu với thiết bị. Dưới đây là danh sách các chủ đề cần chú ý:

  • phân loại thiết bị theo mức độ quan trọng
  • dự phòng các thiết bị quan trọng
  • hỗ trợ, giấy phép

Bạn cần suy nghĩ về các tình huống lỗi có thể xảy ra, đặc biệt là với thiết bị nằm ở đầu phân loại mức độ nghiêm trọng của bạn. Thông thường, khả năng xảy ra sự cố kép bị bỏ qua, nếu không, giải pháp và hỗ trợ của bạn có thể trở nên tốn kém một cách vô lý, nhưng trong trường hợp các thành phần mạng thực sự quan trọng, sự cố của chúng có thể ảnh hưởng đáng kể đến hoạt động kinh doanh, bạn nên suy nghĩ về điều đó.

Ví dụ

Giả sử chúng ta đang nói về một root switch trong trung tâm dữ liệu.

Vì chúng tôi đã đồng ý rằng tính liên tục của dịch vụ là tiêu chí quan trọng nhất nên việc cung cấp bản sao lưu “nóng” (dự phòng) cho thiết bị này là hợp lý. Nhưng đó không phải là tất cả. Bạn cũng cần phải quyết định xem trong bao lâu, nếu công tắc đầu tiên bị hỏng, bạn có thể chấp nhận việc chỉ sống với một công tắc còn lại không, vì có nguy cơ nó cũng sẽ bị hỏng.

Quan trọng! Bạn không cần phải tự mình quyết định vấn đề này. Bạn phải mô tả những rủi ro, giải pháp khả thi và chi phí cho cấp quản lý hoặc ban quản lý công ty. Họ phải đưa ra quyết định.

Vì vậy, nếu người ta quyết định rằng, với xác suất xảy ra lỗi kép nhỏ, về nguyên tắc, việc làm việc trong 4 giờ trên một công tắc là có thể chấp nhận được, thì bạn chỉ cần nhận được sự hỗ trợ thích hợp (theo đó thiết bị sẽ được thay thế trong vòng 4 giờ). giờ).

Nhưng có một rủi ro là họ sẽ không thực hiện được. Thật không may, chúng tôi đã từng rơi vào tình huống như vậy. Thay vì bốn giờ, thiết bị đã di chuyển trong một tuần!!!

Vì vậy, rủi ro này cũng cần phải được thảo luận và có lẽ sẽ đúng hơn nếu bạn mua một công tắc khác (thứ ba) và giữ nó trong gói phụ tùng thay thế (dự phòng “lạnh”) hoặc sử dụng cho mục đích phòng thí nghiệm.

Quan trọng! Tạo một bảng tính về tất cả các hỗ trợ mà bạn có với ngày hết hạn và thêm nó vào lịch của bạn để bạn nhận được email trước ít nhất một tháng rằng bạn nên bắt đầu lo lắng về việc gia hạn hỗ trợ của mình.

Bạn sẽ không được tha thứ nếu quên gia hạn hỗ trợ và một ngày sau khi hỗ trợ kết thúc, phần cứng của bạn sẽ bị hỏng.

Công việc khẩn cấp

Bất kể điều gì xảy ra trên mạng của bạn, lý tưởng nhất là bạn nên duy trì quyền truy cập vào thiết bị mạng của mình.

Quan trọng! Bạn phải có quyền truy cập bảng điều khiển vào tất cả các thiết bị và quyền truy cập này không phụ thuộc vào tình trạng của mạng dữ liệu người dùng.

Bạn cũng nên thấy trước các tình huống tiêu cực có thể xảy ra và ghi lại các hành động cần thiết. Tính khả dụng của tài liệu này cũng rất quan trọng, vì vậy nó không chỉ được đăng trên tài nguyên dùng chung của bộ phận mà còn được lưu cục bộ trên máy tính của các kỹ sư.

Phải có

  • thông tin cần thiết để mở một yêu cầu với sự hỗ trợ của nhà cung cấp hoặc nhà tích hợp
  • thông tin về cách truy cập bất kỳ thiết bị nào (bảng điều khiển, quản lý)

Tất nhiên, nó cũng có thể chứa bất kỳ thông tin hữu ích nào khác, chẳng hạn như mô tả quy trình nâng cấp cho các thiết bị khác nhau và các lệnh chẩn đoán hữu ích.

Các chi nhánh

Bây giờ bạn cần đánh giá những rủi ro liên quan đến đối tác. Thông thường điều này

  • Nhà cung cấp Internet và điểm trao đổi lưu lượng (IX)
  • nhà cung cấp kênh truyền thông

Bạn nên tự hỏi mình những câu hỏi nào? Đối với thiết bị, các tình huống khẩn cấp khác nhau phải được xem xét. Ví dụ: đối với các nhà cung cấp Internet, nó có thể giống như:

  • điều gì xảy ra nếu nhà cung cấp Internet X ngừng cung cấp dịch vụ cho bạn vì lý do nào đó?
  • Liệu các nhà cung cấp khác có đủ băng thông cho bạn không?
  • Khả năng kết nối sẽ vẫn tốt như thế nào?
  • Các nhà cung cấp dịch vụ Internet của bạn độc lập đến mức nào và liệu việc một trong số họ ngừng hoạt động nghiêm trọng có gây ra vấn đề với những nhà cung cấp khác không?
  • có bao nhiêu đầu vào quang vào trung tâm dữ liệu của bạn?
  • điều gì sẽ xảy ra nếu một trong những đầu vào bị phá hủy hoàn toàn?

Về đầu vào, trong thực tế của tôi ở hai công ty khác nhau, ở hai trung tâm dữ liệu khác nhau, một chiếc máy xúc đã phá hủy giếng nước và thật kỳ diệu là hệ thống quang học của chúng tôi không bị ảnh hưởng. Đây không phải là một trường hợp hiếm gặp.

Và tất nhiên, bạn không chỉ cần hỏi những câu hỏi này mà một lần nữa, với sự hỗ trợ của ban quản lý, bạn phải đưa ra giải pháp có thể chấp nhận được trong mọi tình huống.

Hỗ trợ

Ưu tiên tiếp theo có thể là sao lưu cấu hình thiết bị. Trong mọi trường hợp, đây là một điểm rất quan trọng. Tôi sẽ không liệt kê những trường hợp bạn có thể mất cấu hình, tốt hơn hết bạn nên sao lưu thường xuyên và đừng nghĩ đến điều đó. Ngoài ra, việc sao lưu thường xuyên có thể rất hữu ích trong việc theo dõi các thay đổi.

Quan trọng! Thực hiện sao lưu hàng ngày. Đây không phải là một lượng lớn dữ liệu để lưu vào việc này. Vào buổi sáng, kỹ sư trực (hoặc bạn) sẽ nhận được báo cáo từ hệ thống, trong đó cho biết rõ việc sao lưu có thành công hay không và nếu sao lưu không thành công thì vấn đề sẽ được giải quyết hoặc tạo một phiếu ( xem quy trình của bộ phận mạng).

Phiên bản phần mềm

Câu hỏi liệu có đáng để nâng cấp phần mềm của thiết bị hay không vẫn chưa quá rõ ràng. Một mặt, các phiên bản cũ là những lỗi và lỗ hổng bảo mật đã biết, nhưng mặt khác, phần mềm mới, thứ nhất, không phải lúc nào cũng là một quy trình nâng cấp dễ dàng, và thứ hai là các lỗi và lỗ hổng mới.

Ở đây bạn cần phải tìm ra lựa chọn tốt nhất. Một vài khuyến nghị rõ ràng

  • chỉ cài đặt phiên bản ổn định
  • Tuy nhiên, bạn không nên sử dụng các phiên bản phần mềm quá cũ
  • tạo một dấu hiệu có thông tin về vị trí của một số phần mềm
  • đọc định kỳ các báo cáo về lỗ hổng và lỗi trong các phiên bản phần mềm và trong trường hợp có vấn đề nghiêm trọng, bạn nên nghĩ đến việc nâng cấp

Ở giai đoạn này, khi có quyền truy cập bảng điều khiển vào thiết bị, thông tin về hỗ trợ và mô tả về quy trình nâng cấp, về nguyên tắc, bạn đã sẵn sàng cho bước này. Lựa chọn lý tưởng là khi bạn có thiết bị thí nghiệm nơi bạn có thể kiểm tra toàn bộ quy trình, nhưng thật không may, điều này không xảy ra thường xuyên.

Trong trường hợp thiết bị quan trọng, bạn có thể liên hệ với bộ phận hỗ trợ của nhà cung cấp để yêu cầu giúp bạn nâng cấp.

Hệ thống vé

Bây giờ bạn có thể nhìn xung quanh. Bạn cần thiết lập các quy trình tương tác với các bộ phận khác và trong bộ phận đó.

Điều này có thể không cần thiết (ví dụ: nếu công ty của bạn nhỏ), nhưng tôi thực sự khuyên bạn nên tổ chức công việc theo cách mà tất cả các nhiệm vụ bên ngoài và nội bộ đều thông qua hệ thống phiếu yêu cầu.

Hệ thống yêu cầu về cơ bản là giao diện dành cho giao tiếp nội bộ và bên ngoài và bạn nên mô tả giao diện này một cách chi tiết.

Hãy lấy một ví dụ về một nhiệm vụ quan trọng và phổ biến là mở quyền truy cập. Tôi sẽ mô tả một thuật toán hoạt động hoàn hảo ở một trong các công ty.

Ví dụ

Hãy bắt đầu với thực tế là khách hàng thường xuyên truy cập hình thành mong muốn của họ bằng ngôn ngữ mà kỹ sư mạng không thể hiểu được, cụ thể là bằng ngôn ngữ của ứng dụng, chẳng hạn như “cho tôi quyền truy cập vào 1C”.

Vì vậy, chúng tôi chưa bao giờ chấp nhận yêu cầu trực tiếp từ những người dùng như vậy.
Và đó là yêu cầu đầu tiên

  • yêu cầu truy cập phải đến từ các bộ phận kỹ thuật (trong trường hợp của chúng tôi đây là các kỹ sư unix, windows, bộ phận trợ giúp)

Yêu cầu thứ hai đó là

  • quyền truy cập này phải được ghi lại (bởi bộ phận kỹ thuật mà chúng tôi đã nhận được yêu cầu này) và theo yêu cầu, chúng tôi nhận được liên kết đến quyền truy cập được ghi lại này

Hình thức của yêu cầu này phải dễ hiểu đối với chúng tôi, tức là.

  • yêu cầu phải chứa thông tin về mạng con nào và quyền truy cập mạng con nào sẽ được mở, cũng như giao thức và các cổng (trong trường hợp tcp/udp)

Nó cũng nên được chỉ định ở đó

  • mô tả lý do tại sao quyền truy cập này được mở
  • tạm thời hoặc vĩnh viễn (nếu tạm thời, cho đến ngày nào)

Và một điểm rất quan trọng là sự chấp thuận

  • từ người đứng đầu bộ phận bắt đầu truy cập (ví dụ: kế toán)
  • từ trưởng bộ phận kỹ thuật, từ nơi yêu cầu này đến bộ phận mạng (ví dụ: bộ phận trợ giúp)

Trong trường hợp này, “chủ sở hữu” quyền truy cập này được coi là người đứng đầu bộ phận đã khởi tạo quyền truy cập (trong ví dụ của chúng tôi là kế toán) và anh ta chịu trách nhiệm đảm bảo rằng trang có quyền truy cập được ghi nhật ký cho bộ phận này vẫn được cập nhật .

ghi nhật ký

Đây là thứ bạn có thể chìm đắm trong đó. Nhưng nếu bạn muốn thực hiện một cách tiếp cận chủ động thì bạn cần học cách đối phó với tình trạng tràn dữ liệu này.

Dưới đây là một số khuyến nghị thực tế:

  • bạn cần xem lại nhật ký hàng ngày
  • trong trường hợp xem xét theo kế hoạch (chứ không phải tình huống khẩn cấp), bạn có thể giới hạn bản thân ở mức độ nghiêm trọng 0, 1, 2 và thêm các mẫu đã chọn từ các cấp độ khác nếu bạn thấy cần thiết
  • viết một tập lệnh phân tích nhật ký và bỏ qua những nhật ký có mẫu mà bạn đã thêm vào danh sách bỏ qua

Cách tiếp cận này sẽ cho phép bạn, theo thời gian, tạo một danh sách bỏ qua các nhật ký mà bạn không quan tâm và chỉ để lại những nhật ký mà bạn thực sự coi là quan trọng.
Nó làm việc rất tốt cho chúng tôi.

Giám sát

Việc một công ty thiếu hệ thống giám sát không phải là điều hiếm gặp. Ví dụ, bạn có thể dựa vào nhật ký, nhưng thiết bị có thể đơn giản là “chết” mà không có thời gian để “nói” bất cứ điều gì, hoặc gói giao thức nhật ký hệ thống udp có thể bị mất và không đến được. Nói chung, tất nhiên, việc giám sát tích cực là quan trọng và cần thiết.

Hai ví dụ phổ biến nhất trong thực tế của tôi:

  • giám sát tải của các kênh liên lạc, liên kết quan trọng (ví dụ: kết nối với nhà cung cấp). Chúng cho phép bạn chủ động nhìn thấy vấn đề tiềm ẩn về sự xuống cấp dịch vụ do mất lưu lượng truy cập và do đó, tránh được vấn đề đó.
  • đồ thị dựa trên NetFlow. Chúng giúp dễ dàng phát hiện những điểm bất thường trong lưu lượng truy cập và rất hữu ích để phát hiện một số kiểu tấn công đơn giản nhưng quan trọng của hacker.

Quan trọng! Thiết lập thông báo SMS cho các sự kiện quan trọng nhất. Điều này áp dụng cho cả giám sát và ghi nhật ký. Nếu bạn không có ca trực thì tin nhắn cũng sẽ đến ngoài giờ làm việc.

Hãy suy nghĩ xuyên suốt quá trình theo cách không đánh thức tất cả các kỹ sư. Chúng tôi đã có một kỹ sư làm nhiệm vụ này.

Thay đổi kiểm soát

Theo tôi, không cần thiết phải kiểm soát mọi thay đổi. Tuy nhiên, trong mọi trường hợp, nếu cần, bạn có thể dễ dàng tìm ra ai đã thực hiện một số thay đổi nhất định trên mạng và tại sao.

Một vài lời khuyên:

  • sử dụng hệ thống phiếu để nêu chi tiết những gì đã được thực hiện trên phiếu đó, ví dụ bằng cách sao chép cấu hình được áp dụng vào phiếu
  • sử dụng khả năng bình luận trên thiết bị mạng (ví dụ: cam kết bình luận trên Juniper). Bạn có thể ghi lại số vé
  • sử dụng khác biệt của bản sao lưu cấu hình của bạn

Bạn có thể thực hiện điều này như một quy trình, xem xét tất cả các yêu cầu hàng ngày để biết những thay đổi.

Процессы

Bạn phải chính thức hóa và mô tả các quy trình trong nhóm của mình. Nếu bạn đã đạt đến điểm này thì nhóm của bạn phải có ít nhất các quy trình sau đang chạy:

Quy trình hàng ngày:

  • làm việc với vé
  • làm việc với nhật ký
  • kiểm soát thay đổi
  • phiếu kiểm tra hàng ngày

Quy trình hàng năm:

  • gia hạn bảo lãnh, giấy phép

Quy trình không đồng bộ:

  • ứng phó với các tình huống khẩn cấp khác nhau

Kết luận của phần đầu tiên

Bạn có nhận thấy rằng tất cả những điều này chưa phải là về cấu hình mạng, không phải về thiết kế, không phải về giao thức mạng, không phải về định tuyến, không phải về bảo mật... mà là một cái gì đó xung quanh. Nhưng tất nhiên, những điều này, mặc dù có lẽ nhàm chán, nhưng lại là những yếu tố rất quan trọng trong công việc của bộ phận mạng.

Cho đến nay, như bạn có thể thấy, bạn vẫn chưa cải thiện được điều gì trong mạng của mình. Nếu có lỗ hổng bảo mật thì chúng vẫn tồn tại; nếu có thiết kế xấu thì nó vẫn tồn tại. Cho đến khi bạn áp dụng các kỹ năng và kiến ​​​​thức của mình với tư cách là một kỹ sư mạng, điều mà rất có thể bạn đã tốn rất nhiều thời gian, công sức và đôi khi là tiền bạc. Nhưng trước tiên bạn cần tạo (hoặc gia cố) nền móng, sau đó mới bắt đầu xây dựng.

Các phần sau đây sẽ cho bạn biết cách tìm và loại bỏ lỗi, sau đó cải thiện cơ sở hạ tầng của bạn.

Tất nhiên, bạn không cần phải làm mọi thứ một cách tuần tự. Thời gian có thể rất quan trọng. Thực hiện song song nếu nguồn lực cho phép.

Và một bổ sung quan trọng. Giao tiếp, hỏi, tham khảo ý kiến ​​​​với nhóm của bạn. Cuối cùng, họ là người hỗ trợ và làm tất cả những điều này.

Nguồn: www.habr.com

Thêm một lời nhận xét