Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn

Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
Cách cập nhật thiết bị mạng trong doanh nghiệp lớn mà không ngừng sản xuất? Anh nói về một dự án quy mô lớn theo phương thức “phẫu thuật tim hở” Giám đốc quản lý dự án Linxdatacenter Oleg Fedorov. 

Trong vài năm qua, chúng tôi nhận thấy nhu cầu của khách hàng ngày càng tăng đối với các dịch vụ liên quan đến thành phần mạng của cơ sở hạ tầng CNTT. Nhu cầu kết nối các hệ thống CNTT, dịch vụ, ứng dụng, nhiệm vụ giám sát và quản lý hoạt động kinh doanh trong hầu hết mọi lĩnh vực đang buộc các công ty ngày nay phải chú ý nhiều hơn đến mạng.  

Phạm vi yêu cầu bao gồm từ việc đảm bảo khả năng chịu lỗi mạng đến tạo và quản lý hệ thống tự chủ của khách hàng bằng cách mua một khối địa chỉ IP, thiết lập giao thức định tuyến và quản lý lưu lượng theo chính sách của tổ chức.

Ngoài ra còn có nhu cầu ngày càng tăng về các giải pháp toàn diện để xây dựng và bảo trì cơ sở hạ tầng mạng, chủ yếu từ các khách hàng có cơ sở hạ tầng mạng được tạo từ đầu hoặc đã lỗi thời, cần phải sửa đổi nghiêm túc. 

Xu hướng này trùng hợp với thời kỳ phát triển và phức tạp của cơ sở hạ tầng mạng của Linxdatacenter. Chúng tôi đã mở rộng phạm vi địa lý hiện diện của mình ở Châu Âu bằng cách kết nối với các địa điểm ở xa, do đó yêu cầu phải cải thiện cơ sở hạ tầng mạng. 

Công ty đã ra mắt một dịch vụ mới dành cho khách hàng, Mạng dưới dạng dịch vụ: chúng tôi giải quyết mọi vấn đề về mạng của khách hàng, cho phép họ tập trung vào hoạt động kinh doanh cốt lõi của mình.

Vào mùa hè năm 2020, dự án lớn đầu tiên theo hướng này đã được hoàn thành mà tôi muốn nói đến. 

Lúc bắt đầu 

Một tổ hợp công nghiệp lớn đã tìm đến chúng tôi để hiện đại hóa phần mạng của cơ sở hạ tầng tại một trong các doanh nghiệp của họ. Cần phải thay thế thiết bị cũ bằng thiết bị mới, trong đó có lõi mạng.

Lần hiện đại hóa thiết bị cuối cùng tại doanh nghiệp diễn ra cách đây khoảng 10 năm. Ban lãnh đạo mới của doanh nghiệp quyết định cải thiện khả năng kết nối, bắt đầu bằng việc cập nhật cơ sở hạ tầng ở cấp độ vật lý, cơ bản nhất. 

Dự án được chia thành hai phần: nâng cấp bãi máy chủ và thiết bị mạng. Chúng tôi chịu trách nhiệm về phần thứ hai. 

Yêu cầu cơ bản đối với công việc bao gồm giảm thiểu thời gian ngừng hoạt động của dây chuyền sản xuất của doanh nghiệp trong quá trình thực hiện công việc (và ở một số khu vực, loại bỏ hoàn toàn thời gian ngừng hoạt động). Bất kỳ sự ngừng hoạt động nào đều có nghĩa là tổn thất tài chính trực tiếp cho khách hàng, điều này lẽ ra không nên xảy ra trong bất kỳ trường hợp nào. Do chế độ hoạt động 24x7x365 của cơ sở, cũng như tính đến việc hoàn toàn không có khoảng thời gian ngừng hoạt động theo kế hoạch trong hoạt động của doanh nghiệp, chúng tôi được giao nhiệm vụ về cơ bản là thực hiện phẫu thuật tim hở. Điều này đã trở thành đặc điểm nổi bật chính của dự án.

Đi thôi

Công việc được lên kế hoạch theo nguyên tắc di chuyển từ các nút mạng ở xa lõi đến các nút gần hơn, cũng như từ những nút ít ảnh hưởng đến công việc của dây chuyền sản xuất đến những nút ảnh hưởng trực tiếp đến công việc này. 

Ví dụ: nếu chúng ta lấy một nút mạng trong bộ phận bán hàng, thì việc gián đoạn liên lạc do công việc ở bộ phận này sẽ không ảnh hưởng đến hoạt động sản xuất theo bất kỳ cách nào. Đồng thời, một sự cố như vậy sẽ giúp chúng tôi, với tư cách là nhà thầu, kiểm tra tính đúng đắn của phương pháp đã chọn để làm việc trên các đơn vị đó và sau khi điều chỉnh các hành động, sẽ tiến hành các giai đoạn tiếp theo của dự án. 

Điều cần thiết không chỉ là thay thế các nút và dây trong mạng mà còn phải cấu hình chính xác tất cả các thành phần để toàn bộ giải pháp hoạt động chính xác. Chính các cấu hình đã được thử nghiệm theo cách này: bắt đầu công việc từ phần cốt lõi, chúng tôi dường như tự cho mình “quyền mắc sai lầm” mà không đặt vào các khu vực rủi ro quan trọng đối với hoạt động của doanh nghiệp. 

Chúng tôi đã xác định các khu vực không ảnh hưởng đến quá trình sản xuất, cũng như các khu vực quan trọng - nhà xưởng, bộ phận bốc xếp, nhà kho, v.v. Ở các khu vực quan trọng, thời gian ngừng hoạt động có thể chấp nhận được cho từng nút mạng riêng biệt đã được thỏa thuận với khách hàng: từ 1 đến 15 phút. Không thể tránh hoàn toàn việc ngắt kết nối các nút mạng riêng lẻ, vì cáp phải được chuyển đổi vật lý từ thiết bị cũ sang thiết bị mới và trong quá trình chuyển đổi cũng cần phải gỡ “râu” dây hình thành trong nhiều năm hoạt động mà không có biện pháp thích hợp. cẩn thận (một trong những hậu quả của việc thuê ngoài công việc lắp đặt đường dây cáp).

Công việc được chia thành nhiều giai đoạn.

giai đoạn 1 - Kiểm toán. Chuẩn bị và điều phối phương pháp lập kế hoạch công việc và đánh giá mức độ sẵn sàng của các nhóm: khách hàng, nhà thầu lắp đặt và nhóm của chúng tôi.

giai đoạn 2 – Phát triển một hình thức thực hiện công việc với khả năng phân tích và lập kế hoạch chi tiết sâu sắc. Chúng tôi đã chọn một định dạng danh sách kiểm tra có chỉ dẫn chính xác về thứ tự và trình tự các hành động, cho đến trình tự chuyển đổi dây nối theo cổng.

giai đoạn 3 – Thực hiện công việc trong tủ không ảnh hưởng đến sản xuất. Ước tính và điều chỉnh thời gian ngừng hoạt động cho các giai đoạn công việc tiếp theo.

giai đoạn 4 – Thực hiện các công việc trong tủ ảnh hưởng trực tiếp đến sản xuất. Ước tính và điều chỉnh thời gian ngừng hoạt động cho giai đoạn cuối của công việc.

giai đoạn 5 – Thực hiện công việc tại phòng server để chuyển đổi các thiết bị còn lại. Khởi chạy định tuyến trên kernel mới.

giai đoạn 6 – Chuyển đổi liên tục lõi hệ thống từ cấu hình mạng cũ sang cấu hình mạng mới để chuyển đổi suôn sẻ toàn bộ hệ thống phức hợp (VLAN, định tuyến, v.v.). Ở giai đoạn này, chúng tôi đã kết nối tất cả người dùng và chuyển tất cả dịch vụ sang phần cứng mới, xác minh rằng kết nối là chính xác, đảm bảo rằng không có dịch vụ doanh nghiệp nào bị dừng, đảm bảo rằng nếu có bất kỳ sự cố nào xảy ra, chúng sẽ được kết nối trực tiếp với kernel, giúp khắc phục sự cố có thể xảy ra và thiết lập cuối cùng dễ dàng hơn. 

Kiểu tóc râu dây

Dự án gặp khó khăn cũng vì điều kiện ban đầu khó khăn. 

Thứ nhất, có một số lượng lớn các nút và phần của mạng, với cấu trúc liên kết phức tạp và phân loại dây theo mục đích của chúng. Những “bộ râu” như vậy phải được lấy ra khỏi tủ và tỉ mỉ “chải”, tìm ra sợi dây nào đến từ đâu và dẫn đến đâu. 

Nó trông giống như thế này:

Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
như sau:

Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
hay như vậy: 

Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
Thứ hai, đối với mỗi nhiệm vụ như vậy cần chuẩn bị một tệp mô tả quy trình. “Chúng ta lấy dây X từ cổng 1 của thiết bị cũ, cắm vào cổng 18 của thiết bị mới.” Nghe có vẻ đơn giản, nhưng khi bạn có 48 cổng bị tắc hoàn toàn trong dữ liệu nguồn của mình và không có tùy chọn thời gian ngừng hoạt động (chúng tôi nhớ khoảng 24x7x365), lối thoát duy nhất là làm việc theo khối. Càng rút được nhiều dây ra khỏi thiết bị cũ cùng một lúc, bạn càng có thể chải chúng và lắp chúng vào phần cứng mạng mới nhanh hơn, tránh được lỗi và thời gian ngừng hoạt động trong mạng. 

Do đó, ở giai đoạn chuẩn bị, chúng tôi chia mạng thành các khối - mỗi khối thuộc về một Vlan cụ thể. Mỗi cổng (hoặc một tập hợp con của chúng) trên thiết bị cũ là một trong các Vlan trong cấu trúc liên kết mạng mới. Chúng tôi đã nhóm chúng như thế này: các cổng đầu tiên của mạng người dùng chuyển mạch, mạng sản xuất trung gian và cổng cuối cùng – các điểm truy cập và đường lên. 

Cách tiếp cận này giúp bạn có thể rút và chải từ thiết bị cũ không chỉ 1 dây mà còn 10-15 dây trong một lần. Điều này đã tăng tốc quá trình làm việc lên nhiều lần.  

Nhân tiện, dây trong tủ trông như thế này sau khi chải: 

Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
hoặc, ví dụ, như thế này: 

Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
Sau khi hoàn thành giai đoạn 2, chúng tôi tạm nghỉ để phân tích lỗi và động lực của dự án. Ví dụ: các lỗi nhỏ ngay lập tức xuất hiện do sơ đồ mạng cung cấp cho chúng tôi không chính xác (đầu nối không chính xác trên sơ đồ có nghĩa là dây vá đã mua không chính xác và cần phải thay thế nó). 

Việc tạm dừng là cần thiết, vì khi làm việc từ phía máy chủ, ngay cả một trục trặc nhỏ trong quá trình cũng không thể chấp nhận được. Nếu mục tiêu là đảm bảo thời gian ngừng hoạt động trên một phần mạng không quá 5 phút thì không thể vượt quá. Bất kỳ sai lệch nào có thể xảy ra so với lịch trình đều phải được thỏa thuận với khách hàng. 

Tuy nhiên, việc lập kế hoạch trước và chia dự án thành các khối giúp có thể đáp ứng thời gian ngừng hoạt động theo kế hoạch ở tất cả các khu vực và trong hầu hết các trường hợp, tránh được hoàn toàn thời gian ngừng hoạt động đó. 

Thách thức của thời đại - một dự án trong thời kỳ Covid 

Tuy nhiên, không phải là không có thêm khó khăn. Tất nhiên, virus Corona là một trong những trở ngại. 

Công việc trở nên phức tạp do đại dịch bắt đầu và không thể có tất cả các chuyên gia tham gia vào quá trình này có mặt trong quá trình làm việc tại địa điểm của khách hàng. Chỉ nhân viên của tổ chức lắp đặt mới được phép vào địa điểm và việc kiểm soát được thực hiện thông qua phòng Zoom - trong đó có kỹ sư mạng từ Linxdatacenter, tôi là người quản lý dự án, kỹ sư mạng của khách hàng chịu trách nhiệm về công việc và một nhóm thực hiện công việc lắp đặt.

Những vấn đề chưa được giải quyết đã phát sinh trong quá trình làm việc và phải nhanh chóng điều chỉnh. Bằng cách này, có thể nhanh chóng ngăn chặn ảnh hưởng của yếu tố con người (lỗi trong mạch, lỗi xác định trạng thái hoạt động giao diện, v.v.).

Mặc dù hình thức làm việc từ xa có vẻ khác thường khi bắt đầu dự án, nhưng chúng tôi đã nhanh chóng thích nghi với các điều kiện mới và đi đến giai đoạn cuối cùng của công việc. 

Chúng tôi đã đưa ra cấu hình tạm thời về cài đặt mạng để cho phép hai lõi mạng - cũ và mới - chạy song song nhằm đạt được quá trình chuyển đổi suôn sẻ. Tuy nhiên, hóa ra một dòng bổ sung không bị xóa khỏi tệp cấu hình của kernel mới và quá trình chuyển đổi đã không xảy ra. Điều này buộc chúng tôi phải dành thời gian để tìm kiếm vấn đề. 

Hóa ra lưu lượng chính đã được truyền chính xác và lưu lượng điều khiển không đến được nút thông qua lõi mới. Nhờ sự phân chia rõ ràng của dự án thành các giai đoạn, có thể nhanh chóng xác định phần mạng nơi phát sinh sự cố, xác định sự cố và khắc phục nó. 

Và kết quả là

Kết quả kỹ thuật của dự án 

Trước hết, lõi mới của mạng doanh nghiệp mới đã được tạo ra để chúng tôi xây dựng các vòng vật lý/logic cho mạng đó. Điều này được thực hiện theo cách mà mỗi bộ chuyển mạch trong mạng đều có một “cánh tay thứ hai”. Trong mạng cũ, nhiều bộ chuyển mạch được kết nối với lõi dọc theo một tuyến, một nhánh (đường lên). Nếu nó bị hỏng, công tắc sẽ hoàn toàn không thể truy cập được. Và nếu một số thiết bị chuyển mạch được kết nối thông qua một đường lên thì sự cố sẽ làm tê liệt toàn bộ bộ phận hoặc dây chuyền sản xuất tại doanh nghiệp. 

Trong một mạng mới, ngay cả một sự cố mạng khá nghiêm trọng, trong bất kỳ tình huống nào, cũng không thể làm hỏng toàn bộ mạng hoặc một phần quan trọng của nó. 

90% tất cả thiết bị mạng đã được cập nhật, bộ chuyển đổi phương tiện (bộ chuyển đổi phương tiện truyền tín hiệu) đã ngừng hoạt động và nhu cầu về đường dây điện chuyên dụng cho thiết bị cấp nguồn đã được loại bỏ bằng cách kết nối với bộ chuyển mạch PoE, nơi nguồn được cung cấp qua dây Ethernet. 

Ngoài ra, tất cả các kết nối quang trong phòng máy chủ và trong các tủ hiện trường đều được đánh dấu - tại tất cả các nút liên lạc chính. Điều này giúp có thể chuẩn bị sơ đồ cấu trúc liên kết của thiết bị và kết nối trong mạng, phản ánh trạng thái thực tế của nó ngày nay. 

Giản đồ hệ thống
Mạng dưới dạng dịch vụ dành cho doanh nghiệp lớn: trường hợp không chuẩn
Kết quả quan trọng nhất về mặt kỹ thuật: công việc cơ sở hạ tầng quy mô khá lớn được thực hiện nhanh chóng, không gây ra bất kỳ sự can thiệp nào vào công việc của doanh nghiệp và hầu như không được nhân viên của doanh nghiệp chú ý. 

Kết quả kinh doanh của dự án

Theo tôi, dự án này thú vị chủ yếu không phải về mặt kỹ thuật mà là về mặt tổ chức. Khó khăn chủ yếu nằm ở việc lập kế hoạch và suy nghĩ qua các bước thực hiện nhiệm vụ của dự án. 

Sự thành công của dự án cho phép chúng tôi nói rằng sáng kiến ​​phát triển lĩnh vực mạng trong danh mục dịch vụ Linxdatacenter của chúng tôi là sự lựa chọn đúng đắn cho định hướng phát triển của công ty. Cách tiếp cận có trách nhiệm trong quản lý dự án, chiến lược hiệu quả và lập kế hoạch rõ ràng đã cho phép chúng tôi hoàn thành công việc ở mức độ phù hợp. 

Xác nhận chất lượng công việc là yêu cầu của khách hàng về việc tiếp tục cung cấp dịch vụ hiện đại hóa mạng tại các địa điểm còn lại ở Nga.

Nguồn: www.habr.com

Thêm một lời nhận xét