Yandex vardiyasını nasıl tahliye ettik

Yandex vardiyasını nasıl tahliye ettik

İş tek bir dizüstü bilgisayara sığdığında ve diğer insanlardan bağımsız olarak yapılabildiğinde, uzak bir yere taşınmak sorun olmaz; yalnızca sabahları evde kalmak yeterlidir. Ama herkes bu kadar şanslı değil.

Çağrı üzerine vardiya, hizmet kullanılabilirliği uzmanlarından (SRE'ler) oluşan bir ekiptir. Görevli yöneticileri, geliştiricileri, yöneticilerin yanı sıra her biri 26 inçlik 55 LCD panelden oluşan ortak bir "gösterge paneli" içerir. Şirketin hizmetlerinin istikrarı ve problem çözme hızı, vardiyanın çalışmasına bağlıdır.

Bugün Dmitry Melikov tal10nNöbetçi vardiyanın yöneticisi, birkaç gün içinde ekipmanı evlerine taşımayı ve yeni iş süreçleri oluşturmayı nasıl başardıklarını anlatacak. Ona sözü veriyorum.

— Sonsuz bir zaman kaynağınız olduğunda, herhangi bir şeyle rahatça istediğiniz yere gidebilirsiniz. Ancak koronavirüsün hızla yayılması bizi tamamen farklı koşullara soktu. Yandex çalışanları, kendi kendini tecrit rejimi uygulanmadan önce bile uzaktan çalışmaya ilk geçiş yapanlar arasındaydı. Bu böyle oldu. 12 Mart Perşembe günü benden ekibin işini eve taşıma olasılığını değerlendirmem istendi. 13'üncü Cuma günü uzaktan çalışmaya geçiş önerisi ortaya çıktı. 17 Mart Salı gecesi her şeyimiz hazırdı: Görevliler evden çalışıyordu, ekipmanlar taşındı, eksik yazılımlar yazıldı, süreçler yeniden yapılandırıldı. Şimdi size bunu nasıl başardığımızı anlatacağım. Ama önce görev vardiyasının çözdüğü görevleri hatırlamanız gerekiyor.

Biz Kimiz

Yandex yüzlerce hizmeti olan büyük bir şirkettir. Arama, sesli asistan ve diğer tüm ürünlerin kararlılığı yalnızca geliştiricilere bağlı değildir. Veri merkezindeki güç kaynağı kesintiye uğrayabilir. Bir işçi asfaltı değiştirirken yanlışlıkla optik kabloya zarar verebilir. Veya kullanıcı aktivitesinde bir artış olabilir ve bu da kapasitenin acilen yeniden tahsis edilmesine ihtiyaç duyulmasına neden olabilir. Üstelik hepimiz büyük, karmaşık bir altyapıda yaşıyoruz ve bir ürünün piyasaya sürülmesi kazara diğerinin bozulmasına yol açabilir.

Açık alanımızdaki 26 panel, bir buçuk bin uyarı ve yüzden fazla hizmetlerimize ait tablo ve paneldir. Aslında bu çok büyük bir teşhis panelidir. Görev başındaki deneyimli bir yönetici, ona bakarak önemli bileşenlerin durumunu hızlı bir şekilde anlayabilir ve teknolojik bir sorunun araştırılmasına yönelik yönü belirleyebilir. Bu, kişinin sürekli olarak tüm cihazlara bakması gerektiği anlamına gelmez: Otomasyonun kendisi, görevli memurun özel arayüzüne bildirim göndererek dikkat çekecektir ancak görsel bir panel olmadan sorunun çözülmesi uzun zaman alabilir.

Sorunlar ortaya çıktığında, görevli memur öncelikle onların önceliklerini değerlendirir. Daha sonra sorunu izole eder veya kullanıcılar üzerindeki etkisini en aza indirir.

Sorunu izole etmenin birkaç standart yolu vardır. Bunlardan biri, görevdeki yöneticinin kullanıcıların en az fark ettiği bazı işlevleri devre dışı bırakması sonucu hizmetlerin bozulmasıdır. Bu, yükü geçici olarak azaltmanıza ve ne olduğunu anlamanıza olanak tanır. Veri merkezinde bir sorun çıkması durumunda görevli kişi operasyon ekibiyle iletişime geçerek sorunu anlar, çözüm zamanlamasını takip eder ve gerekiyorsa uzman ekipleri devreye sokar.

Görevli yönetici, bir sürüm nedeniyle ortaya çıkan sorunu tespit edemediğinde, bunu servis ekibine bildirir ve geliştiriciler yeni koddaki hataları arar. Eğer bunu çözemezlerse, yönetici diğer ürün veya hizmet kullanılabilirliği mühendislerinden geliştiricilerin ilgisini çeker.

Burada her şeyin nasıl yürüdüğüne dair uzun süre konuşabilirim ama sanırım özü zaten aktardım. Görev vardiyası tüm hizmetlerin çalışmalarını koordine eder ve küresel sorunları izler. Görevli yöneticinin teşhis panelinin gözünün önünde olması önemlidir. Bu nedenle uzaktan çalışmaya geçerken herkese bir dizüstü bilgisayar veremezsiniz. Grafikler ve uyarılar ekrana sığmayacak. Ne yapalım?

Fikir

Ofiste görev başındaki on yöneticinin tümü, 26 monitör, iki bilgisayar, dört NVIDIA Quadro NVS 810 video kartı, iki rafa monte kesintisiz güç kaynağı ve çeşitli bağımsız ağ erişimlerini içeren bir kontrol panelinin arkasında vardiyalı olarak çalışıyor. Herkesin evde çalışma fırsatına sahip olmasını sağlamamız gerekiyordu. Böyle bir duvarı bir apartman dairesine monte etmek kesinlikle mümkün değil (karım bundan özellikle memnun olacak), bu yüzden eve getirilip monte edilebilecek taşınabilir bir versiyon yaratmaya karar verdik.

Yapılandırmayı denemeye başladık. Tüm cihazları daha az ekrana sığdırmamız gerekiyordu, dolayısıyla monitörün temel gereksinimi yüksek piksel yoğunluğuydu. Ortamımızda bulunan 4K monitörlerden test için Lenovo P27u-10'u seçtik.

Dizüstü bilgisayarlardan 16 inç MacBook Pro'yu aldık. Birkaç 4K ekranda görüntülerin işlenmesi için gerekli olan oldukça güçlü bir grafik alt sistemine ve dört adet evrensel C Tipi konektöre sahiptir. Şunu sorabilirsiniz: neden masaüstü olmasın? Bir dizüstü bilgisayarı depodaki tamamen aynı olanla değiştirmek, aynı sistem birimini monte edip yapılandırmaktan çok daha kolay ve hızlıdır. Ve daha az ağırlığa sahiptir.

Artık dizüstü bilgisayara gerçekte kaç monitör bağlayabileceğimizi anlamamız gerekiyordu. Ve buradaki sorun konnektör sayısı değil; bunu ancak monte edilmiş sistemi test ederek öğrenebiliriz.

Yandex vardiyasını nasıl tahliye ettik

Test

Tüm grafikleri ve uyarıları oldukça rahat bir şekilde dört monitöre yerleştirdik ve hatta bir dizüstü bilgisayara bağladık ancak bir sorunla karşılaştık. Bağlı monitörlerde 4x4K piksellerin işlenmesi, video kartına o kadar yük bindiriyordu ki, dizüstü bilgisayar şarj olurken bile tükeniyordu. Neyse ki sorun Lenovo ThinkPad Thunderbolt 3 Dock Gen 2'nin yardımıyla çözüldü. Bağlantı istasyonuna bir monitör, güç kaynağı ve hatta en sevdiğim fare ve klavyeyi bağlayabildim.

Ancak hemen başka bir sorun ortaya çıktı: GPU o kadar çok çalışıyordu ki dizüstü bilgisayar aşırı ısınıyordu, bu da pilin de aşırı ısındığı anlamına geliyordu, bu da sonuç olarak koruyucu moda geçerek şarj kabul etmeyi durdurdu. Genel olarak tehlikeli durumlara karşı koruma sağlayan oldukça kullanışlı bir moddur. Bazı durumlarda sorun, yüksek teknolojili bir cihazın (havalandırmayı iyileştirmek için dizüstü bilgisayarın altına yerleştirilen bir tükenmez kalem) yardımıyla çözüldü. Ancak bunun herkese faydası olmadı, bu yüzden standart fanın hızını da artırdık.

Hoş olmayan bir özellik daha vardı. Tüm çizelgeler ve uyarılar kesin olarak tanımlanmış bir yerde bulunmalıdır. Bir uçağın inişine pilotluk yaptığınızı ve ardından hız göstergelerinin, altimetrelerin, variometrelerin, durum göstergelerinin, pusulaların ve konum göstergelerinin boyutlarını değiştirmeye ve farklı yerlere atlamaya başladığını hayal edin. Biz de bu konuda yardımcı olacak bir uygulama yapmaya karar verdik. Bir akşam hazır bir form alarak bunu Electron.js'de yazdık. API Windows oluşturma ve yönetme hakkında. Bir yapılandırma işlemcisi ve bunların periyodik güncellenmesinin yanı sıra sınırlı sayıda monitör desteği ekledik. Kısa bir süre sonra çeşitli kurulumlar için destek eklediler.

Montaj ve teslimat

Pazartesi günü, yardım masasındaki sihirbazlar bizim için 40 monitör, on dizüstü bilgisayar ve aynı sayıda bağlantı istasyonu temin etmişti. Bunu nasıl başardılar bilmiyorum ama kendilerine çok teşekkür ediyorum.

Yandex vardiyasını nasıl tahliye ettik

Geriye kalan tek şey, hepsini görevli yöneticilerin dairelerine teslim etmekti. Ve bunlar Moskova'nın farklı yerlerindeki on adres: güney, doğu, merkez ve ayrıca ofisten 45 kilometre uzaklıktaki Balashikha (bu arada, Serpukhov'dan bir stajyer daha sonra eklendi). Lojistik oluşturmak için tüm bunları bir şekilde insanlar arasında dağıtmak gerekiyordu.

Tüm adresleri Haritalarımıza girdim, farklı noktalar arasındaki rotayı optimize etme fırsatı hala var (aracın kuryeler için ücretsiz beta sürümünü kullandım). Ekibimizi her biri kendi rotasına sahip iki kişiden oluşan dört bağımsız ekibe ayırdık. Arabamın en geniş olduğu ortaya çıktı, bu yüzden aynı anda dört çalışan için ekipman aldım.

Yandex vardiyasını nasıl tahliye ettik

Teslimatın tamamı rekor bir sürede üç saat sürdü. Pazartesi akşamı saat onda ofisten ayrıldık. Sabah saat birde zaten evdeydim. Aynı gece yeni ekipmanlarla göreve çıktık.

Sonucu ile bu

Büyük bir teşhis konsolu yerine, görevdeki her kişinin dairesine nispeten taşınabilir on tane konsol monte ettik. Tabii hala çözülmesi gereken bazı detaylar vardı. Mesela görevli memurun tebligat yapması için bir adet “demir” telefonumuz vardı. Bu yeni koşullarda işe yaramadı, bu yüzden görevli memurlar için (esasen habercideki kanallar) "sanal telefonlar" geliştirdik. Başka değişiklikler de vardı. Ancak asıl önemli olan şu ki rekor bir sürede sadece insanları değil, enfeksiyon riskini azaltarak tüm işlerimizi süreçlere ve ürün stabilitesine zarar vermeden eve taşımayı başardık. Bir aydır bu modda çalışıyoruz.

Aşağıda görevli memurlarımızın gerçek işyerlerinin fotoğraflarını bulacaksınız.

Yandex vardiyasını nasıl tahliye ettik

Yandex vardiyasını nasıl tahliye ettik

Yandex vardiyasını nasıl tahliye ettik

Yandex vardiyasını nasıl tahliye ettik

Yandex vardiyasını nasıl tahliye ettik

Kaynak: habr.com