Cần lưu ý điều gì khi thực hiện ca trực

Tác giả DevOps hiệu quả Ryn Daniels chia sẻ các chiến lược mà bất kỳ ai cũng có thể sử dụng để tạo ra các vòng quay Oncall tốt hơn, ít gây phiền toái hơn và bền vững hơn.

Cần lưu ý điều gì khi thực hiện ca trực

Với sự ra đời của Devops, nhiều kỹ sư ngày nay đang tổ chức ca làm việc theo cách này hay cách khác, vốn từng là trách nhiệm duy nhất của quản trị viên hệ thống hoặc kỹ sư vận hành. Trực ca, đặc biệt là ngoài giờ làm việc, không phải là công việc mà hầu hết mọi người đều thích thú. Nhiệm vụ trực có thể làm gián đoạn giấc ngủ của chúng ta, cản trở công việc bình thường mà chúng ta đang cố gắng làm trong ngày và cản trở cuộc sống của chúng ta nói chung. Khi ngày càng có nhiều đội tham gia vào các buổi cầu nguyện, chúng tôi đã đặt ra câu hỏi: “Chúng ta với tư cách là các cá nhân, các nhóm và tổ chức có thể làm gì để các buổi cầu nguyện trở nên nhân đạo và bền vững hơn?”

Tiết kiệm giấc ngủ

Thông thường, điều đầu tiên mọi người nghĩ đến khi nghĩ đến việc làm nhiệm vụ là nó sẽ ảnh hưởng tiêu cực đến giấc ngủ của họ; không ai muốn có cảnh báo đánh thức họ vào lúc nửa đêm. Nếu tổ chức hoặc nhóm của bạn đủ lớn, bạn có thể sử dụng luân phiên "theo mặt trời", trong đó các nhóm ở nhiều múi giờ tham gia vào cùng một vòng luân phiên, với các ca làm nhiệm vụ ngắn hơn. Vì vậy, mỗi múi giờ sẽ chỉ trực trong quá trình kinh doanh của mình (hoặc ít nhất là thức dậy) hàng giờ. Việc thiết lập sự luân chuyển như vậy có thể làm nên điều kỳ diệu trong việc giảm bớt khối lượng công việc ban đêm mà người phục vụ phải đảm nhận.

Nếu bạn không có đủ kỹ sư và sự phân bổ địa lý để hỗ trợ vòng quay theo mặt trời, vẫn có những điều bạn có thể làm để giảm khả năng mọi người bị đánh thức một cách không cần thiết vào giữa đêm. Suy cho cùng, việc ra khỏi giường lúc 4 giờ sáng để giải quyết một vấn đề cấp bách mà khách hàng phải đối mặt là một việc; Việc thức dậy và phát hiện ra mình đang đối mặt với một báo động giả lại là một chuyện hoàn toàn khác. Việc xem lại tất cả cảnh báo bạn đã thiết lập có thể hữu ích và hỏi nhóm của bạn xem cảnh báo nào thực sự cần thiết để đánh thức ai đó sau giờ làm việc và liệu những cảnh báo đó có thể đợi đến sáng hay không. Có thể khó thuyết phục mọi người đồng ý tắt một số cảnh báo không hoạt động, đặc biệt nếu các sự cố bị bỏ sót đã gây ra sự cố trong quá khứ, nhưng điều quan trọng cần nhớ là kỹ sư thiếu ngủ không phải là kỹ sư hiệu quả nhất. Đặt những cảnh báo này trong giờ làm việc khi chúng thực sự quan trọng. Hầu hết các công cụ cảnh báo ngày nay đều cho phép bạn thiết lập các quy tắc khác nhau cho thông báo sau giờ làm việc, có thể là khoảng thời gian thông báo của Nagios hoặc thiết lập các lịch trình khác nhau trong PagerDuty.

Giấc ngủ, nhiệm vụ và văn hóa đồng đội

Các giải pháp khác cho tình trạng gián đoạn giấc ngủ liên quan đến những thay đổi văn hóa lớn hơn. Một cách để giải quyết vấn đề này là theo dõi các cảnh báo, đặc biệt chú ý đến thời điểm chúng đến và liệu chúng có thể xử lý được hay không. Hoạt động hàng tuần là một công cụ do Etsy tạo và xuất bản nhằm cho phép các nhóm theo dõi và phân loại các cảnh báo họ nhận được. Nó có thể tạo ra các biểu đồ hiển thị số lượng cảnh báo đánh thức mọi người (sử dụng dữ liệu về giấc ngủ từ máy theo dõi thể dục), cũng như số lượng cảnh báo thực sự yêu cầu hành động của con người. Bằng cách sử dụng những công nghệ này, bạn có thể theo dõi tính hiệu quả của việc luân chuyển theo yêu cầu và tác động của nó đến giấc ngủ theo thời gian.

Nhóm có thể đóng vai trò đảm bảo rằng mọi người đang làm nhiệm vụ đều được nghỉ ngơi đầy đủ. Tạo ra một nền văn hóa khuyến khích mọi người chăm sóc bản thân: nếu bạn bị mất ngủ vì bị gọi vào ban đêm, bạn có thể ngủ lâu hơn một chút vào buổi sáng để cố gắng bù đắp cho thời gian ngủ đã mất. Các thành viên trong nhóm có thể quan tâm lẫn nhau: Khi các nhóm chia sẻ dữ liệu về giấc ngủ của mình với nhau thông qua những thứ như Opsweekly, họ có thể đến gặp đồng nghiệp đang trực của mình và nói: "Này, có vẻ như tối qua bạn đã có một đêm khó khăn với PagerDuty." “Tối nay bạn có muốn tôi che chắn cho bạn để bạn có thể nghỉ ngơi không?” Khuyến khích mọi người hỗ trợ lẫn nhau theo cách này và ngăn cản “văn hóa anh hùng” nơi mọi người sẽ đẩy bản thân đến giới hạn và tránh yêu cầu giúp đỡ.

Giảm tác động của việc làm nhiệm vụ tại nơi làm việc

Khi các kỹ sư mệt mỏi vì bị đánh thức khi đang làm nhiệm vụ, rõ ràng họ sẽ không làm việc hết 100% công suất trong ngày, nhưng ngay cả khi không tính đến tình trạng thiếu ngủ, việc làm nhiệm vụ cũng có thể có những tác động khác đến công việc. Một trong những tổn thất đáng kể nhất khi làm nhiệm vụ là do yếu tố gián đoạn, thay đổi bối cảnh: một lần gián đoạn duy nhất có thể khiến mất ít nhất 20 phút do mất tập trung và chuyển ngữ cảnh. Có khả năng nhóm của bạn sẽ gặp phải các nguồn gây gián đoạn khác, chẳng hạn như yêu cầu do các nhóm khác tạo ra, các yêu cầu hoặc câu hỏi đến qua trò chuyện và/hoặc email. Tùy thuộc vào mức độ của những gián đoạn khác này, bạn có thể cân nhắc thêm chúng vào một đợt luân chuyển hiện có khi đang làm nhiệm vụ hoặc thiết lập một đợt luân chuyển thứ hai chỉ để xử lý các yêu cầu khác này.

Điều quan trọng là phải tính đến điều này khi bạn lập kế hoạch cho công việc mà nhóm sẽ thực hiện, cả dài hạn và ngắn hạn. Nếu nhóm của bạn có xu hướng thay đổi nhiệm vụ khá căng thẳng, thực tế này cần phải được tính đến khi lập kế hoạch dài hạn, vì bạn có thể gặp phải tình huống trong đó toàn bộ nhân viên đang làm nhiệm vụ một cách hiệu quả tại bất kỳ thời điểm nào, thay vì làm công việc khác. Trong lập kế hoạch ngắn hạn, bạn có thể thấy rằng người trực không thể đáp ứng thời hạn do trách nhiệm trong cuộc gọi của họ - điều này nên được mong đợi và những người còn lại trong nhóm phải sẵn sàng hỗ trợ và giúp đỡ để đảm bảo rằng công việc được thực hiện. được hoàn thành và người trực được hỗ trợ trong công việc của họ. Bất kể người trực có được gọi đến hay không, ca trực sẽ ảnh hưởng đến khả năng thực hiện công việc khác của người trực—đừng mong đợi người trực sẽ làm việc cả đêm để hoàn thành các dự án đã lên lịch ngoài việc trực sau giờ làm việc.

Các đội sẽ phải tìm cách giải quyết lượng công việc phát sinh thêm khi làm nhiệm vụ. Công việc này có thể là công việc thực sự để khắc phục các sự cố thực tế được phát hiện bởi hệ thống giám sát và cảnh báo hoặc có thể là công việc khắc phục việc giám sát và cảnh báo nhằm giảm số lượng cảnh báo dương tính giả. Bất kể tính chất của công việc được tạo ra là gì, điều quan trọng là phải phân bổ công việc đó một cách công bằng và bền vững trong toàn nhóm. Không phải tất cả các ca làm việc theo yêu cầu đều được tạo ra như nhau và một số ca phức tạp hơn những ca khác, do đó, việc tuyên bố rằng người nhận được cảnh báo là người chịu trách nhiệm giải quyết mọi hậu quả của cảnh báo đó có thể dẫn đến sự phân bổ công việc không đồng đều. Sẽ có ý nghĩa hơn nếu người trực chịu trách nhiệm lên lịch hoặc phân bổ công việc với mong muốn những người còn lại trong nhóm sẽ sẵn sàng giúp hoàn thành công việc được tạo ra.

Tạo và duy trì sự cân bằng giữa công việc và cuộc sống

Hãy suy nghĩ về tác động của việc làm nhiệm vụ đối với cuộc sống của bạn ngoài công việc. Khi làm nhiệm vụ, bạn có thể cảm thấy bị ràng buộc với điện thoại di động và máy tính xách tay của mình, điều này có nghĩa là bạn luôn mang theo máy tính xách tay và bộ định tuyến di động (modem usb) bên mình hoặc đơn giản là không rời khỏi nhà/văn phòng của mình. Trực ca thường có nghĩa là từ bỏ những việc như gặp gỡ bạn bè hoặc gia đình trong ca làm việc của bạn. Điều này có nghĩa là độ dài của mỗi ca phụ thuộc vào số lượng người trong nhóm của bạn và tần suất ca làm việc có thể gây gánh nặng quá mức cho mọi người. Bạn có thể cần phải thử nghiệm độ dài và thời gian của các ca làm việc để tìm ra lịch trình phù hợp với ít nhất phần lớn những người có liên quan, vì các nhóm và mọi người khác nhau sẽ có những ưu tiên và sở thích khác nhau.

Điều quan trọng là phải nhận ra tác động của việc làm nhiệm vụ đối với cuộc sống của mọi người, cả ở cấp quản lý và cấp độ cá nhân. Cần lưu ý rằng tác động sẽ được cảm nhận một cách không tương xứng bởi những người có ít đặc quyền hơn. Ví dụ, nếu bạn phải dành thời gian chăm sóc con cái hoặc các thành viên khác trong gia đình, hoặc nếu bạn thấy phần lớn công việc nhà đổ lên vai mình thì bạn đã có ít thời gian và sức lực hơn một người không có trách nhiệm. Loại công việc “ca thứ hai” hoặc “ca thứ ba” này có xu hướng tác động không cân đối đến mọi người và nếu bạn thiết lập sự luân phiên theo yêu cầu với lịch trình hoặc cường độ giả định những người tham gia không có cuộc sống cá nhân bên ngoài văn phòng, thì bạn đang hạn chế những người có thể tham gia vào đội của bạn

Khuyến khích mọi người cố gắng duy trì lịch trình thường xuyên của họ nhiều hơn. Bạn nên cân nhắc việc cung cấp cho nhóm bộ định tuyến di động (modem USB) để mọi người có thể rời khỏi nhà với máy tính xách tay của họ mà vẫn có chút gì đó giống cuộc sống. Khuyến khích mọi người trao đổi giờ làm việc với nhau, nếu cần thiết, trong khoảng thời gian ngắn để mọi người có thể đến phòng tập thể dục hoặc gặp bác sĩ khi làm nhiệm vụ. Đừng tạo ra một nền văn hóa trong đó việc trực điện thoại có nghĩa là các kỹ sư thực sự không làm gì khác ngoài việc trực điện thoại. Cân bằng giữa công việc và cuộc sống là một phần quan trọng của bất kỳ công việc nào, nhưng đặc biệt khi bạn xem xét số giờ ngoài giờ làm việc, các thành viên cấp cao hơn trong nhóm của bạn nên làm gương cho những người khác về sự cân bằng giữa công việc và cuộc sống, càng nhiều càng tốt trong khi làm nhiệm vụ.

Ở cấp độ cá nhân, đừng quên giải thích ý nghĩa của việc túc trực với bạn bè, gia đình, đối tác, thú cưng, v.v. (mèo của bạn có thể sẽ không quan tâm vì chúng đã thức dậy lúc 4 giờ sáng khi bạn nhận được cảnh báo). , mặc dù họ sẽ không muốn giúp bạn giải quyết nó). Hãy đảm bảo rằng bạn bù đắp được khoảng thời gian đã mất sau khi ca làm việc của bạn kết thúc, chẳng hạn như để gặp bạn bè, gia đình hay đi ngủ. Nếu có thể, hãy cân nhắc việc thiết lập báo thức im lặng (như đồng hồ thông minh) có thể đánh thức bạn bằng cách rung cổ tay để bạn không đánh thức bất kỳ ai xung quanh mình. Hãy tìm cách chăm sóc bản thân khi bạn đang ở giữa ca trực và khi ca làm việc kết thúc. Bạn có thể muốn chuẩn bị một “bộ dụng cụ sinh tồn khi cần thiết” để giúp bạn thư giãn: nghe danh sách nhạc yêu thích, đọc cuốn sách yêu thích hoặc dành thời gian chơi với thú cưng của bạn. Các nhà quản lý nên khuyến khích việc tự chăm sóc bản thân bằng cách cho mọi người nghỉ một ngày sau một tuần làm nhiệm vụ và đảm bảo mọi người yêu cầu (và nhận được) sự giúp đỡ khi họ cần.

Nâng cao kinh nghiệm làm nhiệm vụ

Nhìn chung, làm nhiệm vụ không chỉ được coi là một công việc tồi tệ: bạn có cơ hội và trách nhiệm với tư cách là một người đang làm nhiệm vụ để tích cực làm việc để mang lại điều tốt đẹp hơn cho những người sẽ làm nhiệm vụ trong tương lai, điều đó có nghĩa là mọi người sẽ nhận được ít tin nhắn hơn và chúng sẽ chính xác hơn. Một lần nữa, việc theo dõi giá trị cảnh báo của bạn bằng cách sử dụng thứ gì đó như Opsweekly có thể giúp bạn tìm ra điều gì khiến cuộc gọi của bạn trở nên khó chịu và khắc phục nó. Đối với những cảnh báo không hoạt động, hãy tự hỏi liệu có cách nào để loại bỏ những cảnh báo này không - có lẽ điều này có nghĩa là chúng sẽ chỉ tắt trong giờ làm việc vì có một số điều bạn không cần phải phản hồi vào lúc nửa đêm. Đừng ngại xóa cảnh báo, thay đổi chúng hoặc thay đổi phương thức gửi từ "gửi đến điện thoại và email" thành "chỉ email". Thử nghiệm và lặp lại là chìa khóa để cải thiện nhiệm vụ theo thời gian.

Đối với những cảnh báo thực sự có thể thực hiện được, bạn nên xem xét mức độ dễ dàng để kỹ sư thực hiện các hành động cần thiết. Mỗi cảnh báo đang chạy phải có sổ chạy đi kèm với nó - hãy cân nhắc sử dụng công cụ như nagios-herald để thêm liên kết sổ chạy vào cảnh báo của bạn. Nếu cảnh báo đủ đơn giản đến mức không cần sổ quản lý, thì có thể nó đủ đơn giản để bạn có thể tự động hóa phản hồi bằng cách sử dụng thứ gì đó như trình xử lý sự kiện Nagios, giúp mọi người không phải thức dậy hoặc tự làm gián đoạn để thực hiện các tác vụ tự động hóa dễ dàng. Cả runbooks và nagios-herald đều có thể giúp bạn thêm ngữ cảnh có giá trị vào cảnh báo, điều này sẽ giúp mọi người phản hồi chúng hiệu quả hơn. Xem liệu bạn có thể trả lời các câu hỏi phổ biến như: Lần cuối cùng thông báo này xuất hiện là khi nào? Lần trước ai đã trả lời câu hỏi đó và cuối cùng họ đã thực hiện những hành động gì (nếu có)? Những cảnh báo nào khác xuất hiện cùng lúc với cảnh báo này và chúng có liên quan không? Loại thông tin theo ngữ cảnh này thường chỉ lưu lại trong não con người, do đó, việc khuyến khích văn hóa ghi chép và chia sẻ thông tin theo ngữ cảnh có thể giảm bớt chi phí cần thiết để phản hồi các cảnh báo.

Phần lớn sự mệt mỏi đến từ các cuộc gọi trực tiếp là chúng không bao giờ kết thúc—nếu nhóm của bạn có các cuộc gọi trực tiếp, khó có khả năng chúng sẽ kết thúc bất kỳ lúc nào trong tương lai gần. Những ca làm việc không bao giờ kết thúc và chúng ta có thể cảm thấy chúng sẽ luôn rất khủng khiếp. Sự thiếu hy vọng này là một vấn đề tinh thần lớn có thể góp phần gây ra căng thẳng và kiệt sức, vì vậy, việc giải quyết nhận thức (ngoài thực tế) rằng nghĩa vụ sẽ luôn khủng khiếp là một cách tốt để bắt đầu suy nghĩ về nghĩa vụ của bạn về lâu dài.

Để mang lại cho mọi người hy vọng rằng tình hình làm nhiệm vụ sẽ được cải thiện, cần phải có khả năng quan sát của hệ thống (giống như cách theo dõi và phân loại nhiệm vụ mà tôi đã đề cập trước đó). Theo dõi xem bạn có bao nhiêu cảnh báo, bao nhiêu phần trăm trong số đó cần có sự can thiệp của người phục vụ, bao nhiêu trong số đó đánh thức mọi người và sau đó nỗ lực tạo ra một nền văn hóa khuyến khích mọi người làm việc tốt hơn. Nếu bạn có một đội ngũ đông người, ngay khi hết giờ đồng hồ, bạn có thể giơ tay và nói "đó là vấn đề của nhân viên trực trong tương lai" thay vì đào sâu để sửa chữa điều gì đó - ai muốn chi nhiều hơn nỗ lực làm nhiệm vụ hơn mức họ yêu cầu? Đây là nơi mà văn hóa đồng cảm có thể tạo ra sự khác biệt lớn, bởi vì bạn không chỉ quan tâm đến sức khỏe của mình khi làm nhiệm vụ mà còn quan tâm đến đồng nghiệp của mình.

Tất cả chỉ là sự đồng cảm

Sự đồng cảm là một phần quan trọng cho phép chúng tôi thúc đẩy hiệu suất nhằm cải thiện trải nghiệm trong cuộc gọi. Với tư cách là người quản lý hoặc thành viên, bạn có thể đánh giá tích cực hoặc thậm chí khen thưởng mọi người vì hành vi giúp chuyển đổi tốt hơn. Hỗ trợ vận hành là một trong những lĩnh vực mà các kỹ sư thường cảm thấy như mọi người chỉ chú ý đến họ khi có sự cố xảy ra: mọi người sẽ ở đó để la mắng họ khi trang web gặp sự cố, nhưng họ hiếm khi tìm hiểu về những nỗ lực hậu trường mà hoạt động đó thực hiện. các kỹ sư đã nỗ lực duy trì hoạt động của trang web trong thời gian còn lại. Ghi nhận công việc có thể giúp ích rất nhiều, cho dù đó là cảm ơn ai đó trong cuộc họp hay trong một email chung vì đã cải thiện một cảnh báo cụ thể, một khía cạnh kỹ thuật khi đang làm nhiệm vụ hoặc cho ai đó thời gian để thay thế cho một kỹ sư khác trong ca làm việc trong một thời gian.

Khuyến khích mọi người dành thời gian và nỗ lực để cải thiện tình hình trực tiếp của họ trong thời gian dài. Nếu nhóm của bạn có các cuộc gọi trực tiếp, bạn nên lập kế hoạch và ưu tiên công việc này giống như cách bạn thực hiện với bất kỳ công việc nào khác trong lộ trình của mình. Các cuộc gọi có 90% entropy và trừ khi bạn tích cực làm việc để cải thiện chúng, chúng sẽ ngày càng trở nên tồi tệ hơn theo thời gian. Làm việc với nhóm của bạn để tìm ra điều gì thúc đẩy và khen thưởng tốt nhất cho mọi người, sau đó sử dụng điều đó để khuyến khích mọi người giảm tiếng ồn khi cảnh báo, viết sổ tay và tạo ra các công cụ giải quyết các vấn đề theo yêu cầu của họ. Dù bạn làm gì, đừng chấp nhận nhiệm vụ khủng khiếp như một phần thường trực của tình trạng công việc.

Nguồn: www.habr.com

Thêm một lời nhận xét