شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد

شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
نحوه به روز رسانی تجهیزات شبکه در یک شرکت بزرگ بدون توقف تولید? درباره یک پروژه بزرگ در حالت "جراحی قلب باز" می گوید اولگ فدوروف، مدیر مدیریت پروژه Linxdatacenter. 

در چند سال گذشته، شاهد افزایش تقاضا از سوی مشتریان برای خدمات مرتبط با بخش شبکه زیرساخت فناوری اطلاعات بوده‌ایم. نیاز به اتصال سیستم‌های فناوری اطلاعات، خدمات، برنامه‌های کاربردی، وظایف نظارت و مدیریت عملیاتی کسب‌وکار تقریباً در هر زمینه‌ای، امروزه شرکت‌ها را مجبور می‌کند تا توجه بیشتری به شبکه‌ها داشته باشند.  

درخواست‌ها از ارائه تحمل خطا در شبکه تا ایجاد و مدیریت یک سیستم خودکار مشتری با کسب بلوکی از آدرس‌های IP، پیکربندی پروتکل‌های مسیریابی و مدیریت ترافیک مطابق با سیاست‌های سازمان‌ها را شامل می‌شود.

همچنین تقاضای فزاینده ای برای راه حل های یکپارچه برای ساخت و نگهداری زیرساخت شبکه، عمدتاً از سوی مشتریانی که زیرساخت شبکه آنها از ابتدا ایجاد شده یا منسوخ شده است، وجود دارد که نیاز به اصلاح جدی دارد. 

این روند همزمان با دوره توسعه و پیچیدگی زیرساخت شبکه خود Linxdatacenter بود. ما جغرافیای حضور خود در اروپا را با اتصال به سایت های راه دور گسترش دادیم که به نوبه خود نیازمند بهبود زیرساخت شبکه بود. 

این شرکت سرویس جدیدی را برای مشتریان راه‌اندازی کرده است، Network-as-a-Service: ما تمام وظایف شبکه را برای مشتریان انجام می‌دهیم و به آن‌ها اجازه می‌دهیم بر کسب‌وکار اصلی خود تمرکز کنند.

در تابستان 2020 اولین پروژه بزرگ در این راستا به پایان رسید که می خواهم در مورد آن صحبت کنم. 

در آغاز 

یک مجتمع صنعتی بزرگ برای نوسازی بخش شبکه زیرساخت در یکی از شرکت های خود به ما مراجعه کرد. نیاز به جایگزینی تجهیزات قدیمی با تجهیزات جدید از جمله هسته شبکه بود.

آخرین نوسازی تجهیزات در این شرکت حدود 10 سال پیش انجام شد. مدیریت جدید شرکت تصمیم گرفت تا اتصال را بهبود بخشد و با ارتقای زیرساخت در ابتدایی ترین سطح فیزیکی شروع کرد. 

این پروژه به دو بخش ارتقاء پارک سرور و تجهیزات شبکه تقسیم شد. ما مسئول قسمت دوم بودیم. 

الزامات اساسی برای کار شامل به حداقل رساندن زمان توقف خطوط تولید شرکت در طول اجرای کار (و در برخی مناطق، حذف کامل خرابی ها) بود. هر توقف ضرر مستقیم پولی مشتری است که تحت هیچ شرایطی نباید اتفاق می افتاد. در رابطه با حالت عملکرد تسهیلات 24x7x365، و همچنین با در نظر گرفتن عدم وجود دوره های توقف برنامه ریزی شده در عمل شرکت، در واقع به ما این وظیفه داده شد که عمل جراحی قلب باز را انجام دهیم. این به ویژگی اصلی این پروژه تبدیل شد.

برو

کارها بر اساس اصل حرکت از گره های شبکه دور از هسته به گره های نزدیکتر و همچنین از خطوط تولید که تأثیر کمتری بر کار دارند تا آنهایی که مستقیماً بر این کار تأثیر می گذارند برنامه ریزی شده است. 

به عنوان مثال، اگر یک گره شبکه را در بخش فروش بگیرید، در نتیجه خرابی ارتباط در نتیجه کار در این بخش به هیچ وجه بر تولید تأثیر نمی گذارد. در عین حال، چنین حادثه ای به ما به عنوان پیمانکار کمک می کند تا صحت رویکرد انتخاب شده برای کار بر روی چنین گره هایی را تأیید کنیم و با اقدامات اصلاح شده، در مراحل بعدی پروژه کار کنیم. 

لازم است نه تنها گره ها و سیم ها در شبکه جایگزین شوند، بلکه باید به درستی تمام اجزاء را برای عملکرد صحیح راه حل به طور کلی پیکربندی کنید. این پیکربندی ها بود که به این ترتیب بررسی شد: با شروع کار به دور از هسته، به نوعی به خودمان "حق اشتباه کردن" دادیم، بدون اینکه مناطق حیاتی برای عملکرد شرکت را در معرض خطر قرار دهیم. 

ما مناطقی را شناسایی کرده‌ایم که بر فرآیند تولید تأثیر نمی‌گذارند، و همچنین مناطق بحرانی - کارگاه‌ها، واحد بارگیری و تخلیه، انبارها و غیره. 1 دقیقه. اجتناب کامل از قطع گره های شبکه منفرد غیرممکن بود، زیرا کابل باید به طور فیزیکی از تجهیزات قدیمی به تجهیزات جدید سوئیچ شود، و در فرآیند تعویض، همچنین لازم است که "ریش" سیم ها را که در طی آن ایجاد شده است، باز کنید. چندین سال کار بدون مراقبت مناسب (یکی از عواقب برون سپاری کار نصب خطوط کابلی).

کار به چند مرحله تقسیم شد.

مرحله 1 - حسابرسی. تهیه و هماهنگی رویکرد برنامه ریزی کاری و ارزیابی آمادگی تیم ها: کارفرما، پیمانکار نصب کننده و تیم ما.

مرحله 2 - ایجاد قالبی برای انجام کار، با تحلیل و برنامه ریزی دقیق. ما یک فرمت چک لیست را انتخاب کردیم که نشانی دقیق از ترتیب و توالی اقدامات، تا ترتیب تعویض پچ کوردها توسط پورت ها را نشان دهد.

مرحله 3 – انجام کارهایی در کابینت که تاثیری در تولید نداشته باشد. برآورد و تنظیم زمان از کار افتادگی برای مراحل بعدی کار.

مرحله 4 – انجام کارهایی در کابینت که مستقیماً بر تولید تأثیر می گذارد. برآورد و تنظیم زمان توقف برای مرحله نهایی کار.

مرحله 5 – انجام کار در اتاق سرور برای تعویض تجهیزات باقیمانده. در حال اجرا در مسیریابی بر روی یک هسته جدید.

مرحله 6 - سوئیچینگ متوالی هسته سیستم از پیکربندی های شبکه قدیمی به پیکربندی های جدید برای انتقال صاف کل مجموعه سیستم (VLAN، مسیریابی و غیره). در این مرحله، همه کاربران را متصل کردیم و همه سرویس‌ها را به سخت‌افزار جدید منتقل کردیم، اتصال صحیح را بررسی کردیم، مطمئن شدیم که هیچ یک از سرویس‌های سازمانی متوقف نمی‌شوند، تضمین می‌کنیم که در صورت بروز مشکل مستقیماً به هسته متصل می‌شوند، که باعث شد حذف عیب یابی احتمالی و راه اندازی نهایی آسان تر است. 

مدل موی ریش سیمی

این پروژه همچنین به دلیل شرایط سخت اولیه دشوار بود. 

اولاً، این تعداد زیادی گره و بخش از شبکه است که دارای توپولوژی پیچیده و طبقه بندی سیم ها بر اساس هدف آنها است. چنین "ریش هایی" را باید از کابینت ها بیرون آورد و با زحمت "شانه کرد" و فهمید که کدام سیم از کجا و به کجا منتهی می شود. 

چیزی شبیه به این بود:

شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
بنابراین:

شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
یا: 

شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
ثانیاً برای هر یک از این کارها لازم بود پرونده ای با شرح فرآیند تهیه شود. سیم X را از پورت 1 تجهیزات قدیمی می گیریم، آن را به پورت 18 تجهیزات جدید وصل می کنیم. ساده به نظر می رسد، اما زمانی که در داده های اولیه 48 پورت کاملاً مسدود شده دارید، و هیچ گزینه غیرفعالی وجود ندارد (ما در مورد 24x7x365 به یاد داریم)، ​​تنها راه حل این است که در بلوک ها کار کنید. هرچه بتوانید سیم های بیشتری را همزمان از تجهیزات قدیمی بیرون بکشید، سریعتر می توانید آنها را تمیز کنید و به سخت افزار شبکه جدید وصل کنید و از خرابی شبکه و خرابی جلوگیری کنید. 

بنابراین، در مرحله آماده سازی، ما شبکه را به بلوک ها تقسیم کردیم - هر یک از آنها به یک VLAN خاص تعلق داشت. هر پورت (یا زیر مجموعه ای از آنها) روی تجهیزات قدیمی یکی از VLAN ها در توپولوژی شبکه جدید است. ما آنها را به صورت زیر گروه بندی کردیم: اولین پورت های سوئیچ شامل شبکه های کاربر، در وسط - شبکه های تولیدی، و در آخرین ها - نقاط دسترسی و لینک های بالا. 

این رویکرد امکان بیرون کشیدن و شانه کردن تجهیزات قدیمی را نه 1 سیم، بلکه 10-15 در یک زمان فراهم کرد. این کار باعث افزایش سرعت گردش کار چندین برابر شد.  

به هر حال، سیم های داخل کابینت ها پس از شانه کردن به این شکل است: 

شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
یا مثلاً به این صورت: 

شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
پس از اتمام مرحله 2، برای تجزیه و تحلیل خطاها و پویایی پروژه به استراحت پرداختیم. به عنوان مثال، به دلیل عدم دقت در نمودارهای شبکه ارائه شده به ما، فوراً ایرادات جزئی ظاهر شد (کانکتور اشتباه روی نمودار، پچ کورد اشتباه خریداری شده و نیاز به تعویض آن است). 

مکث ضروری بود، زیرا هنگام کار با حقوق سرور، حتی یک شکست کوچک در این فرآیند غیرقابل قبول بود. اگر هدف اطمینان از خرابی بخش شبکه بود که بیش از 5 دقیقه نباشد، نمی توان از آن تجاوز کرد. هر گونه انحراف احتمالی از برنامه باید با مشتری توافق می شد. 

با این حال، برنامه ریزی قبلی و مسدود کردن پروژه باعث شد تا زمان توقف برنامه ریزی شده در همه سایت ها برآورده شود و در بیشتر موارد، به هیچ وجه بدون آن انجام شود. 

چالش زمان - پروژه تحت COVID 

با این حال، بدون مشکلات اضافی نبود. البته کرونا یکی از موانع بود. 

کار با این واقعیت پیچیده بود که یک بیماری همه گیر شروع شد و حضور همه متخصصان درگیر در این فرآیند در طول کار در سایت مشتری غیرممکن بود. فقط نصب کننده اجازه ورود به سایت را داشت و کنترل از طریق اتاق زوم بود که شامل یک مهندس شبکه از سمت Linxdatacenter، من به عنوان مدیر پروژه، یک مهندس شبکه از سمت مشتری مسئول کار، و تیمی بود که این کار را انجام می داد. کار نصب

در جریان کار، مشکلات بی‌توجهی به وجود آمد و باید تنظیماتی را در همان لحظه انجام داد. بنابراین می توان به سرعت از تأثیر عامل انسانی (خطاهای موجود در طرح، خطا در تعیین وضعیت فعالیت رابط و غیره) جلوگیری کرد.

اگرچه فرمت کار از راه دور در ابتدای پروژه غیرعادی به نظر می رسید، اما به سرعت خود را با شرایط جدید وفق دادیم و وارد مرحله نهایی کار شدیم. 

ما یک پیکربندی تنظیمات شبکه موقت را برای اجرای دو هسته شبکه، قدیمی و جدید، به صورت موازی اجرا کرده‌ایم تا به یک انتقال صاف دست یابیم. با این حال، مشخص شد که یک خط اضافی از فایل پیکربندی هسته جدید حذف نشده است و انتقال رخ نداده است. این ما را مجبور کرد که مدتی را صرف جستجوی مشکل کنیم. 

معلوم شد که ترافیک اصلی به درستی منتقل شده است و ترافیک کنترلی از طریق هسته جدید به گره نمی رسد. با توجه به تقسیم بندی واضح پروژه به مراحل، امکان شناسایی سریع بخش شبکه که در آن مشکل ایجاد شده بود، شناسایی مشکل و رفع آن امکان پذیر شد. 

و در نتیجه

نتایج فنی پروژه 

اول از همه، یک هسته جدید از شبکه سازمانی جدید ایجاد شد که برای آن حلقه های فیزیکی/منطقی ساختیم. این کار به گونه ای انجام می شود که هر سوئیچ در شبکه یک "شانه دوم" دارد. در شبکه قدیمی، بسیاری از سوئیچ ها در یک مسیر، یک شانه (uplink) به هسته متصل می شدند. اگر پاره می شد، سوئیچ کاملاً غیر قابل دسترس می شد. و اگر چندین سوئیچ از طریق یک اتصال بالا وصل شده باشد، این حادثه کل بخش یا خط تولید را در شرکت غیرفعال می کند. 

در شبکه جدید، حتی یک حادثه نسبتاً جدی شبکه تحت هیچ شرایطی قادر نخواهد بود کل شبکه یا بخش مهم آن را "از بین ببرد". 

90 درصد کل تجهیزات شبکه به روز شده است، مبدل های رسانه (مبدل های رسانه انتشار سیگنال) از کار افتاده و نیاز به خطوط برق اختصاصی برای تجهیزات برق با اتصال به سوئیچ های PoE، جایی که برق از طریق سیم های اترنت تامین می شود، رفع شده است. حذف شده است. 

همچنین، تمام اتصالات نوری در اتاق سرور و در کابینت های میدان علامت گذاری شده اند - در تمام گره های ارتباطی کلیدی. این امکان تهیه نمودار توپولوژیکی تجهیزات و اتصالات در شبکه را فراهم کرد که وضعیت واقعی آن را امروز منعکس می کند. 

نمودار شبکه
شبکه به عنوان یک سرویس برای یک شرکت بزرگ: یک مورد غیر استاندارد
مهمترین نتیجه از نظر فنی: کارهای زیرساختی نسبتاً بزرگ به سرعت بدون ایجاد هیچ گونه دخالتی در کار شرکت و تقریباً به طور نامحسوس برای پرسنل آن انجام شد. 

نتایج تجاری پروژه

به نظر من، این پروژه در درجه اول نه از جنبه فنی، بلکه از جنبه سازمانی جالب است. مشکل در درجه اول در برنامه ریزی و فکر کردن از طریق مراحل اجرای وظایف پروژه بود. 

موفقیت پروژه به ما این امکان را می دهد که بگوییم ابتکار عمل ما برای توسعه جهت شبکه در مجموعه خدمات Linxdatacenter انتخاب مناسبی برای بردار توسعه شرکت است. یک رویکرد مسئولانه به مدیریت پروژه، یک استراتژی شایسته و برنامه ریزی روشن به ما این امکان را می دهد که کار را در سطح مناسب انجام دهیم. 

تایید کیفیت کار - درخواست مشتری برای ادامه ارائه خدمات برای نوسازی شبکه در سایر سایت های آن در روسیه.

منبع: www.habr.com

اضافه کردن نظر