Cách chúng tôi sơ tán ca trực của Yandex

Cách chúng tôi sơ tán ca trực của Yandex

Khi công việc nằm gọn trong một máy tính xách tay và có thể được thực hiện độc lập từ những người khác, thì việc di chuyển đến một địa điểm xa không có vấn đề gì - chỉ cần ở nhà vào buổi sáng là đủ. Nhưng không phải ai cũng may mắn như vậy.

Ca trực là một nhóm Chuyên gia sẵn sàng dịch vụ (SRE). Nó bao gồm các quản trị viên, nhà phát triển, người quản lý trực tiếp, cũng như một "bảng điều khiển" chung gồm 26 màn hình LCD, mỗi màn hình 55 inch. Sự ổn định của các dịch vụ của công ty và tốc độ giải quyết vấn đề phụ thuộc vào công việc của ca trực.

Hôm nay Dmitry Melikov tal10n, người đứng đầu ca trực, sẽ nói về việc họ đã vận chuyển thiết bị đến nhà trong vài ngày như thế nào và thiết lập các quy trình làm việc mới. Tôi nhường sàn cho anh ta.

- Khi bạn có nguồn thời gian vô tận, bạn có thể thoải mái di chuyển với bất cứ thứ gì đến bất cứ đâu. Nhưng sự lây lan nhanh chóng của virus Corona đã đặt chúng ta vào những hoàn cảnh hoàn toàn khác. Nhân viên Yandex là một trong những người đầu tiên chuyển sang làm việc từ xa, ngay cả trước khi áp dụng chế độ tự cách ly. Nó đã xảy ra như thế này. Vào thứ Năm, ngày 12 tháng 13, tôi được yêu cầu đánh giá khả năng chuyển công việc của nhóm về nhà. Vào thứ Sáu ngày 17, có khuyến nghị chuyển sang làm việc từ xa. Vào đêm thứ Ba, ngày XNUMX tháng XNUMX, mọi thứ đã sẵn sàng với chúng tôi: nhân viên phục vụ làm việc tại nhà, thiết bị được chuyển đi, phần mềm còn thiếu đã được viết, các quy trình được cấu hình lại. Và bây giờ tôi sẽ cho bạn biết chúng tôi đã làm điều đó như thế nào. Nhưng trước tiên bạn cần nhớ lại những nhiệm vụ mà ca trực giải quyết.

Chúng ta là ai

Yandex là một công ty lớn với hàng trăm dịch vụ. Sự ổn định của tìm kiếm, trợ lý giọng nói và tất cả các sản phẩm khác không chỉ phụ thuộc vào các nhà phát triển. Nguồn điện có thể bị gián đoạn trong trung tâm dữ liệu. Công nhân trong quá trình thay nhựa đường có thể vô tình làm hỏng cáp quang. Hoặc có thể có sự gia tăng hoạt động của người dùng, điều này sẽ đòi hỏi phải phân bổ lại công suất khẩn cấp. Hơn nữa, tất cả chúng ta đều sống trong một cơ sở hạ tầng rộng lớn, phức tạp và việc phát hành một trong những sản phẩm này có thể vô tình dẫn đến sự xuống cấp của sản phẩm khác.

26 bảng trong không gian mở của chúng tôi là một nghìn rưỡi cảnh báo và hơn một trăm biểu đồ và bảng về các dịch vụ của chúng tôi. Trên thực tế, đây là một bảng chẩn đoán khổng lồ. Một quản trị viên nghĩa vụ có kinh nghiệm, chỉ cần nhìn vào nó, sẽ nhanh chóng hiểu được trạng thái của các nút quan trọng và có thể đưa ra hướng điều tra một vấn đề công nghệ. Điều này không có nghĩa là một người phải liên tục xem xét tất cả các thiết bị: bản thân quá trình tự động hóa sẽ thu hút sự chú ý bằng cách gửi thông báo đến giao diện đặc biệt của nhân viên trực, nhưng nếu không có bảng điều khiển trực quan, giải pháp cho vấn đề có thể bị trì hoãn.

Khi có vấn đề xảy ra, người phục vụ trước tiên sẽ đánh giá mức độ ưu tiên của chúng. Sau đó, nó sẽ cô lập vấn đề hoặc giảm thiểu tác động của nó đến người dùng.

Có một số cách tiêu chuẩn để cô lập một vấn đề. Một trong số đó là sự xuống cấp của dịch vụ, khi quản trị viên trực ban vô hiệu hóa một số chức năng mà người dùng ít chú ý nhất. Điều này cho phép bạn tạm thời giảm tải và tìm hiểu điều gì đã xảy ra. Nếu có vấn đề với trung tâm dữ liệu, nhân viên trực sẽ liên hệ với nhóm vận hành, hiểu vấn đề, kiểm soát thời gian giải quyết và nếu cần, sẽ kết nối các nhóm liên quan.

Khi quản trị viên đang làm nhiệm vụ không thể cách ly vấn đề phát sinh do bản phát hành, anh ta sẽ báo cáo vấn đề đó cho nhóm dịch vụ - và các nhà phát triển sẽ tìm kiếm lỗi trong mã mới. Nếu họ không tìm ra được điều đó, thì quản trị viên sẽ thu hút các nhà phát triển từ các sản phẩm hoặc kỹ sư khác để cung cấp dịch vụ.

Tôi có thể nói rất lâu về cách mọi thứ được sắp xếp với chúng tôi, nhưng tôi nghĩ rằng tôi đã truyền đạt được bản chất rồi. Ca trực điều phối công việc của tất cả các dịch vụ và kiểm soát các vấn đề toàn cầu. Điều quan trọng là người quản trị đang làm nhiệm vụ phải có bảng chẩn đoán trước mắt mình. Đó là lý do tại sao khi chuyển sang làm việc từ xa, bạn không thể chỉ lấy và đưa cho mọi người một chiếc máy tính xách tay. Đồ thị và cảnh báo sẽ không vừa với màn hình. Phải làm gì?

Ý tưởng

Trong văn phòng, tất cả 26 quản trị viên trực làm việc theo ca trên cùng một bảng điều khiển, bao gồm 810 màn hình, XNUMX máy tính, XNUMX card màn hình NVIDIA Quadro NVS XNUMX, XNUMX bộ cấp nguồn liên tục gắn trên giá và một số đường truy cập mạng độc lập. Chúng tôi cần đảm bảo rằng mọi người đều có cơ hội làm việc tại nhà. Không thể lắp ráp một bức tường như vậy trong một căn hộ (vợ tôi sẽ đặc biệt vui mừng về điều đó), vì vậy chúng tôi quyết định tạo ra một phiên bản di động có thể mang và lắp ráp tại nhà.

Chúng tôi bắt đầu thử nghiệm cấu hình. Chúng tôi cần lắp tất cả các thiết bị trên ít màn hình hơn, vì vậy yêu cầu chính đối với màn hình là mật độ điểm ảnh cao. Trong số các màn hình 4K có sẵn trong môi trường của chúng tôi, chúng tôi đã chọn Lenovo P27u-10 để thử nghiệm.

Từ máy tính xách tay, chúng tôi lấy MacBook Pro 16 inch. Nó có một hệ thống con đồ họa khá mạnh, cần thiết để hiển thị hình ảnh trên một số màn hình 4K và bốn đầu nối Type-C phổ biến. Bạn có thể hỏi: tại sao không phải là máy tính để bàn? Việc thay thế một chiếc máy tính xách tay giống hệt chiếc đó từ kho sẽ dễ dàng và nhanh hơn nhiều so với việc lắp ráp và cấu hình một đơn vị hệ thống giống hệt nhau. Và vâng, nó nặng ít hơn.

Bây giờ cần phải hiểu chúng ta thực sự có thể kết nối bao nhiêu màn hình với máy tính xách tay. Và vấn đề ở đây không phải là số lượng đầu nối, chúng ta chỉ có thể tìm ra bằng cách thử nghiệm hệ thống dưới dạng lắp ráp.

Cách chúng tôi sơ tán ca trực của Yandex

Kiểm tra

Chúng tôi thoải mái đặt tất cả các biểu đồ và cảnh báo trên bốn màn hình và thậm chí kết nối chúng với máy tính xách tay, nhưng chúng tôi gặp phải một sự cố. Hiển thị pixel 4 × 4K trên màn hình được kết nối đã nạp card màn hình đến mức máy tính xách tay bị xả điện ngay cả khi đang sạc. May mắn thay, vấn đề đã được giải quyết với sự trợ giúp của trạm nối Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Chúng tôi đã cố gắng kết nối màn hình, nguồn và thậm chí cả chuột và bàn phím yêu thích của bạn với trạm nối.

Nhưng một vấn đề khác ngay lập tức xuất hiện: GPU phồng lên đến mức máy tính xách tay quá nóng, đồng nghĩa với việc pin cũng quá nóng, dẫn đến chuyển sang chế độ bảo vệ và ngừng sạc. Nhìn chung, đây là một chế độ rất hữu ích giúp bảo vệ bạn khỏi những tình huống nguy hiểm. Trong một số trường hợp, vấn đề đã được giải quyết với sự trợ giúp của một thiết bị công nghệ cao - một chiếc bút bi đặt dưới máy tính xách tay để cải thiện khả năng thông gió. Nhưng điều này không giúp được gì cho tất cả mọi người nên chúng tôi cũng tăng tốc độ của quạt tiêu chuẩn.

Còn có một đặc điểm khó chịu nữa. Tất cả các biểu đồ và cảnh báo phải được đặt ở một nơi được xác định nghiêm ngặt. Hãy tưởng tượng rằng bạn đang lái một chiếc máy bay hạ cánh - và sau đó các chỉ báo tốc độ, máy đo độ cao, máy đo biến thiên, đường chân trời nhân tạo, la bàn và chỉ báo vị trí bắt đầu thay đổi kích thước và nhảy xung quanh ở những nơi khác nhau. Vì vậy, chúng tôi quyết định tạo một ứng dụng sẽ giúp giải quyết vấn đề này. Vào một buổi tối, chúng tôi đã viết nó trên Electron.js, sử dụng một bản vẽ sẵn API để tạo và quản lý các cửa sổ. Chúng tôi đã thêm trình xử lý cấu hình và cập nhật định kỳ cũng như hỗ trợ cho một số màn hình hạn chế. Một lát sau, họ đã thêm hỗ trợ cho các thiết lập khác nhau.

Lắp ráp và giao hàng

Đến thứ Hai, các hướng dẫn viên từ bộ phận trợ giúp đã thu được 40 màn hình, XNUMX máy tính xách tay và cùng số lượng ổ cắm cho chúng tôi. Tôi không biết họ đã làm điều đó như thế nào nhưng cảm ơn bạn rất nhiều.

Cách chúng tôi sơ tán ca trực của Yandex

Nó vẫn phải giao tất cả những thứ này đến căn hộ của những người quản lý đang làm nhiệm vụ. Và đây là mười địa chỉ ở các khu vực khác nhau của Moscow: phía nam, phía đông, trung tâm và cả Balashikha, cách văn phòng 45 km (nhân tiện, một thực tập sinh từ Serpukhov cũng đã được thêm vào sau đó). Cần phải bằng cách nào đó phân phối tất cả những thứ này giữa mọi người, xây dựng hậu cần.

Tôi đã nhập tất cả các địa chỉ trên Bản đồ của chúng tôi, vẫn có cơ hội tối ưu hóa tuyến đường giữa các điểm khác nhau (Tôi đã sử dụng phiên bản beta miễn phí của công cụ dành cho người chuyển phát). Chúng tôi chia nhóm của mình thành bốn đội độc lập gồm hai người, mỗi người nhận được lộ trình riêng. Xe của tôi hóa ra là rộng rãi nhất nên tôi lấy thiết bị cho bốn nhân viên cùng một lúc.

Cách chúng tôi sơ tán ca trực của Yandex

Toàn bộ quá trình giao hàng mất kỷ lục ba giờ. Chúng tôi rời văn phòng lúc XNUMX giờ tối thứ Hai. Lúc một giờ sáng tôi đã có mặt ở nhà. Ngay đêm đó chúng tôi đi trực với trang bị mới.

Với kết quả là

Thay vì một bảng điều khiển chẩn đoán lớn, chúng tôi đã thu thập mười bảng điều khiển tương đối di động trong căn hộ của mỗi sĩ quan trực ban. Tất nhiên, vẫn còn một số điều cần giải quyết. Ví dụ, trước đây chúng ta có một chiếc điện thoại "sắt" của nhân viên trực để thông báo. Trong điều kiện mới, điều này không hiệu quả nên chúng tôi đã nghĩ ra “điện thoại ảo” dành cho những người đang làm nhiệm vụ (trên thực tế là các kênh trong tin nhắn). Ngoài ra còn có những thay đổi khác. Nhưng điều quan trọng là trong thời gian kỷ lục, chúng tôi đã cố gắng di chuyển không chỉ mọi người, giảm nguy cơ lây nhiễm cho họ mà còn tất cả công việc của chúng tôi tại nhà mà không gây tổn hại đến quy trình và độ ổn định của sản phẩm. Chúng tôi đã làm việc này được một tháng rồi.

Dưới đây bạn sẽ tìm thấy hình ảnh về công việc thực tế của những người phục vụ của chúng tôi.

Cách chúng tôi sơ tán ca trực của Yandex

Cách chúng tôi sơ tán ca trực của Yandex

Cách chúng tôi sơ tán ca trực của Yandex

Cách chúng tôi sơ tán ca trực của Yandex

Cách chúng tôi sơ tán ca trực của Yandex

Nguồn: www.habr.com