เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

เมื่องานพอดีกับแล็ปท็อปเครื่องเดียวและสามารถดำเนินการได้ด้วยตนเองจากบุคคลอื่น การย้ายไปยังสถานที่ห่างไกลก็ไม่มีปัญหา - แค่อยู่บ้านในตอนเช้าก็เพียงพอแล้ว แต่ไม่ใช่ทุกคนที่โชคดีขนาดนี้

หน้าที่กะคือทีมผู้เชี่ยวชาญด้านความพร้อมในการให้บริการ (SRE) ประกอบด้วยผู้ดูแลหน้าที่ นักพัฒนา ผู้จัดการ ตลอดจน "แดชบอร์ด" ทั่วไปของแผง LCD 26 แผง แผงละ 55 นิ้ว ความมั่นคงในการให้บริการของบริษัทและความรวดเร็วในการแก้ไขปัญหาขึ้นอยู่กับการทำงานของกะหน้าที่

วันนี้มิทรี เมลิคอฟ ทัล10นหัวหน้ากะจะพูดถึงว่าภายในไม่กี่วันพวกเขาสามารถขนส่งอุปกรณ์ไปที่บ้านและสร้างกระบวนการทำงานใหม่ได้อย่างไร ฉันให้เขาพื้น

- เมื่อคุณมีเวลาไม่สิ้นสุด คุณสามารถเคลื่อนย้ายไปทุกที่ได้อย่างสะดวกสบาย แต่การแพร่กระจายอย่างรวดเร็วของไวรัสโคโรนาทำให้เราอยู่ในสภาวะที่แตกต่างไปจากเดิมอย่างสิ้นเชิง พนักงานยานเดกซ์เป็นหนึ่งในคนกลุ่มแรก ๆ ที่เปลี่ยนมาทำงานจากระยะไกลก่อนที่จะมีการนำระบบการแยกตนเองมาใช้ มันเกิดขึ้นเช่นนี้ เมื่อวันพฤหัสที่ 12 มี.ค. ขอให้ประเมินความเป็นไปได้ย้ายงานทีมงานกลับบ้าน เมื่อวันศุกร์ที่ 13 มีข้อเสนอแนะให้เปลี่ยนมาทำงานระยะไกล ในคืนวันอังคารที่ 17 มีนาคม ทุกอย่างพร้อมสำหรับเรา พนักงานทำงานที่บ้าน อุปกรณ์ถูกย้าย มีการเขียนซอฟต์แวร์ที่หายไป กระบวนการได้รับการกำหนดค่าใหม่ และตอนนี้ฉันจะบอกคุณว่าเราทำมันได้อย่างไร แต่ก่อนอื่นคุณต้องจำเกี่ยวกับงานที่กะหน้าที่แก้ไข

พวกเราคือใคร

Yandex เป็นบริษัทขนาดใหญ่ที่ให้บริการหลายร้อยรายการ ความเสถียรของการค้นหา ระบบสั่งงานด้วยเสียง และผลิตภัณฑ์อื่นๆ ทั้งหมดไม่ได้ขึ้นอยู่กับนักพัฒนาเท่านั้น แหล่งจ่ายไฟอาจถูกขัดจังหวะในศูนย์ข้อมูล ผู้ปฏิบัติงานในระหว่างการเปลี่ยนยางมะตอยอาจทำให้สายเคเบิลออปติกเสียหายโดยไม่ได้ตั้งใจ หรืออาจมีกิจกรรมของผู้ใช้เพิ่มขึ้นอย่างรวดเร็ว ซึ่งจะต้องมีการจัดสรรความจุอย่างเร่งด่วน ยิ่งไปกว่านั้น เราทุกคนอาศัยอยู่ในโครงสร้างพื้นฐานขนาดใหญ่และซับซ้อน และการเปิดตัวผลิตภัณฑ์หนึ่งอาจนำไปสู่การย่อยสลายของผลิตภัณฑ์อื่นโดยไม่ได้ตั้งใจ

แผงข้อมูล 26 แผงในพื้นที่เปิดโล่งของเราคือการแจ้งเตือนหนึ่งหมื่นห้าพันรายการ และแผนภูมิและแผงบริการของเรามากกว่าร้อยรายการ อันที่จริงนี่คือแผงการวินิจฉัยขนาดใหญ่ ผู้ดูแลหน้าที่ที่มีประสบการณ์มองแล้วเข้าใจสถานะของโหนดสำคัญได้อย่างรวดเร็วและสามารถกำหนดทิศทางในการตรวจสอบปัญหาทางเทคโนโลยีได้ นี่ไม่ได้หมายความว่าบุคคลควรดูอุปกรณ์ทั้งหมดอย่างต่อเนื่อง: ระบบอัตโนมัติจะดึงดูดความสนใจโดยการส่งการแจ้งเตือนไปยังอินเทอร์เฟซพิเศษของเจ้าหน้าที่ปฏิบัติหน้าที่ แต่ไม่มีแผงภาพการแก้ปัญหาอาจล่าช้า

เมื่อเกิดปัญหา เจ้าหน้าที่จะประเมินลำดับความสำคัญก่อน จากนั้นจะแยกปัญหาหรือลดผลกระทบต่อผู้ใช้ให้เหลือน้อยที่สุด

มีวิธีมาตรฐานหลายวิธีในการแยกปัญหา หนึ่งในนั้นคือความเสื่อมโทรมของบริการเมื่อผู้ดูแลระบบที่ปฏิบัติหน้าที่ปิดใช้งานฟังก์ชันบางอย่างที่ผู้ใช้สังเกตเห็นน้อยที่สุด วิธีนี้ช่วยให้คุณลดภาระลงชั่วคราวและทราบว่าเกิดอะไรขึ้น หากเกิดปัญหากับศูนย์ข้อมูล เจ้าหน้าที่จะติดต่อทีมปฏิบัติการ ทำความเข้าใจปัญหา ควบคุมระยะเวลาในการแก้ปัญหา และเชื่อมต่อทีมที่เกี่ยวข้องหากจำเป็น

เมื่อผู้ดูแลระบบที่ปฏิบัติหน้าที่ไม่สามารถแยกปัญหาที่เกิดขึ้นเนื่องจากการเผยแพร่ได้ เขาจะรายงานปัญหาดังกล่าวไปยังทีมบริการ - และนักพัฒนาจะค้นหาข้อผิดพลาดในโค้ดใหม่ หากพวกเขาไม่เข้าใจ ผู้ดูแลระบบจะดึงดูดนักพัฒนาจากผลิตภัณฑ์หรือวิศวกรอื่น ๆ เพื่อรับบริการ

ฉันสามารถพูดคุยเป็นเวลานานเกี่ยวกับวิธีการจัดการทุกอย่างกับเรา แต่ฉันคิดว่าฉันได้ถ่ายทอดสาระสำคัญไปแล้ว หน้าที่กะประสานการทำงานของบริการทั้งหมดและควบคุมปัญหาระดับโลก สิ่งสำคัญคือผู้ดูแลระบบที่ปฏิบัติหน้าที่ต้องมีแผงวินิจฉัยต่อหน้าต่อตา นั่นเป็นเหตุผลว่าทำไมเมื่อคุณเปลี่ยนมาทำงานจากระยะไกล คุณจะไม่สามารถหยิบแล็ปท็อปไปให้ทุกคนได้ กราฟและการเตือนจะไม่พอดีกับหน้าจอ จะทำอย่างไร?

ความคิด

ในสำนักงาน ผู้ดูแลระบบทั้ง 26 คนที่ปฏิบัติหน้าที่ทำงานเป็นกะในแดชบอร์ดเดียวกัน ซึ่งประกอบด้วยจอภาพ 810 จอ คอมพิวเตอร์ XNUMX เครื่อง การ์ดแสดงผล NVIDIA Quadro NVS XNUMX XNUMX ใบ อุปกรณ์จ่ายไฟสำรองแบบติดตั้งบนชั้นวาง XNUMX เครื่อง และการเข้าถึงเครือข่ายอิสระหลายรายการ เราต้องการให้แน่ใจว่าทุกคนมีโอกาสทำงานจากที่บ้าน มันเป็นไปไม่ได้เลยที่จะประกอบผนังแบบนี้ในอพาร์ทเมนต์ (ภรรยาของฉันจะมีความสุขเป็นพิเศษ) ดังนั้นเราจึงตัดสินใจสร้างรุ่นพกพาที่สามารถนำและประกอบที่บ้านได้

เราเริ่มทดลองกับการกำหนดค่า เราจำเป็นต้องติดตั้งอุปกรณ์ทั้งหมดบนจอแสดงผลจำนวนน้อยลง ดังนั้นข้อกำหนดหลักสำหรับจอภาพคือความหนาแน่นของพิกเซลสูง จากจอภาพ 4K ที่พร้อมใช้งานในสภาพแวดล้อมของเรา เราเลือก Lenovo P27u-10 สำหรับการทดสอบ

จากแล็ปท็อปเราใช้ MacBook Pro ขนาด 16 นิ้ว มีระบบย่อยกราฟิกที่ค่อนข้างทรงพลังซึ่งจำเป็นสำหรับการแสดงภาพบนจอแสดงผล 4K หลายจอและตัวเชื่อมต่อ Type-C สากลสี่ตัว คุณอาจถาม: ทำไมไม่ใช้เดสก์ท็อป? การเปลี่ยนแล็ปท็อปด้วยเครื่องเดียวกันจากคลังสินค้านั้นง่ายกว่าและเร็วกว่าการประกอบและกำหนดค่ายูนิตระบบที่เหมือนกัน และใช่ มันมีน้ำหนักน้อยกว่า

ตอนนี้จำเป็นต้องทำความเข้าใจว่าจริงๆ แล้วเราสามารถเชื่อมต่อกับแล็ปท็อปได้กี่จอภาพ และปัญหาที่นี่ไม่ใช่จำนวนตัวเชื่อมต่อ เราสามารถทราบได้โดยการทดสอบระบบเป็นชุดประกอบเท่านั้น

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

การทดสอบ

เราวางแผนภูมิและการแจ้งเตือนทั้งหมดไว้บนจอภาพสี่จออย่างสะดวกสบาย และยังเชื่อมต่อกับแล็ปท็อปด้วย แต่เราประสบปัญหา การเรนเดอร์พิกเซลขนาด 4×4K บนจอภาพที่เชื่อมต่อทำให้การ์ดแสดงผลโหลดมากจนแล็ปท็อปต้องใช้ไฟจนหมดแม้ในขณะชาร์จ โชคดีที่ปัญหาได้รับการแก้ไขด้วยความช่วยเหลือของสถานีเชื่อมต่อ Lenovo ThinkPad Thunderbolt 3 Dock Gen 2 เราสามารถเชื่อมต่อจอภาพ พลังงาน และแม้แต่เมาส์และคีย์บอร์ดที่คุณชื่นชอบเข้ากับสถานีเชื่อมต่อได้

แต่ปัญหาอื่นก็ปรากฏขึ้นทันที: GPU พองตัวมากจนแล็ปท็อปร้อนเกินไป ซึ่งหมายความว่าแบตเตอรี่ก็ร้อนเกินไปเช่นกัน ซึ่งส่งผลให้เข้าสู่โหมดป้องกันและหยุดการชาร์จ โดยทั่วไปนี่เป็นโหมดที่มีประโยชน์มากในการป้องกันสถานการณ์อันตราย ในบางกรณี ปัญหาได้รับการแก้ไขด้วยความช่วยเหลือของอุปกรณ์ไฮเทค เช่น ปากกาลูกลื่นที่วางอยู่ใต้แล็ปท็อปเพื่อปรับปรุงการระบายอากาศ แต่สิ่งนี้ไม่ได้ช่วยทุกคน เราจึงเพิ่มความเร็วพัดลมมาตรฐานด้วย

มีคุณลักษณะที่ไม่พึงประสงค์อีกอย่างหนึ่ง แผนภูมิและการแจ้งเตือนทั้งหมดจะต้องอยู่ในตำแหน่งที่กำหนดไว้อย่างเคร่งครัด ลองนึกภาพว่าคุณกำลังขับเครื่องบินเพื่อลงจอด จากนั้นตัวบ่งชี้ความเร็ว เครื่องวัดระยะสูง เครื่องวัดความแปรผัน ขอบฟ้าเทียม วงเวียน และตัวบ่งชี้ตำแหน่ง จะเริ่มเปลี่ยนขนาดและกระโดดไปรอบๆ ในสถานที่ต่างๆ ดังนั้นเราจึงตัดสินใจสร้างแอปพลิเคชันที่จะช่วยในเรื่องนี้ ในเย็นวันหนึ่ง เราเขียนมันบน Electron.js โดยกำลังจัดทำแบบสำเร็จรูป API สำหรับการสร้างและจัดการหน้าต่าง เราได้เพิ่มตัวจัดการการกำหนดค่าและการอัปเดตเป็นระยะ รวมถึงการรองรับจอภาพจำนวนจำกัด หลังจากนั้นไม่นาน พวกเขาก็เพิ่มการรองรับสำหรับการตั้งค่าต่างๆ

การประกอบและการส่งมอบ

ภายในวันจันทร์ พ่อมดจากฝ่ายช่วยเหลือได้รับจอภาพ 40 เครื่อง แล็ปท็อป XNUMX เครื่อง และสถานีเชื่อมต่อจำนวนเท่ากันสำหรับเรา ฉันไม่รู้ว่าพวกเขาทำได้อย่างไร แต่ก็ขอบคุณมาก

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

มันยังคงส่งมอบทั้งหมดนี้ไปยังอพาร์ทเมนต์ของผู้ดูแลระบบที่ปฏิบัติหน้าที่ และนี่คือที่อยู่ 45 แห่งในส่วนต่าง ๆ ของมอสโก: ทางใต้, ตะวันออก, ใจกลางและ Balashikha ซึ่งอยู่ห่างจากสำนักงาน XNUMX กิโลเมตร (โดยทางนั้นก็มีผู้ฝึกงานจาก Serpukhov เพิ่มเข้ามาในภายหลัง) จำเป็นต้องกระจายทั้งหมดนี้ระหว่างผู้คนสร้างโลจิสติกส์

ฉันป้อนที่อยู่ทั้งหมดบนแผนที่ของเรา แต่ยังมีโอกาสที่จะปรับเส้นทางระหว่างจุดต่างๆ ให้เหมาะสม (ฉันใช้เครื่องมือรุ่นเบต้าฟรีสำหรับบริการจัดส่ง) เราแบ่งทีมของเราออกเป็นสี่ทีมอิสระ ทีมละสองคน แต่ละทีมมีเส้นทางของตัวเอง รถของฉันกลายเป็นรถที่กว้างขวางที่สุด ดังนั้นฉันจึงหยิบอุปกรณ์สำหรับพนักงานสี่คนพร้อมกัน

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

การส่งมอบทั้งหมดใช้เวลาบันทึกสามชั่วโมง เราออกจากออฟฟิศเวลา XNUMX น. วันจันทร์ บ่ายโมงฉันก็ถึงบ้านแล้ว คืนเดียวกันนั้นเราเข้าเวรพร้อมอุปกรณ์ใหม่

ผลลัพธ์คืออะไร

แทนที่จะมีคอนโซลวินิจฉัยขนาดใหญ่เพียงเครื่องเดียว เรารวบรวมคอนโซลแบบพกพาจำนวน XNUMX เครื่องไว้ในอพาร์ตเมนต์ของเจ้าหน้าที่ปฏิบัติหน้าที่แต่ละคน แน่นอนว่ายังมีบางสิ่งที่ต้องแก้ไข ตัวอย่างเช่นก่อนที่เราจะมีโทรศัพท์ "เตารีด" เครื่องหนึ่งของเจ้าหน้าที่ปฏิบัติหน้าที่เพื่อแจ้งเตือน ภายใต้เงื่อนไขใหม่ สิ่งนี้ไม่ได้ผล ดังนั้นเราจึงสร้าง "โทรศัพท์เสมือน" ขึ้นมาสำหรับผู้ที่ปฏิบัติหน้าที่ (อันที่จริงคือช่องทางใน Messenger) มีการเปลี่ยนแปลงอื่น ๆ เช่นกัน แต่สิ่งสำคัญคือในเวลาที่บันทึก เราจัดการได้ไม่เพียงแต่ถ่ายโอนผู้คนเท่านั้น แต่ยังช่วยลดความเสี่ยงในการติดเชื้อ แต่ยังทำงานจากที่บ้านทั้งหมดโดยไม่เป็นอันตรายต่อกระบวนการและความเสถียรของผลิตภัณฑ์ เราทำสิ่งนี้มาหนึ่งเดือนแล้ว

ด้านล่างนี้คุณจะพบรูปถ่ายงานจริงของพนักงานของเรา

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

เราอพยพกะหน้าที่ยานเดกซ์อย่างไร

ที่มา: will.com