Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Xin chào tất cả mọi người!

Công ty chúng tôi tham gia phát triển phần mềm và hỗ trợ kỹ thuật sau đó. Hỗ trợ kỹ thuật không chỉ yêu cầu sửa lỗi mà còn yêu cầu giám sát hiệu suất của các ứng dụng của chúng tôi.

Ví dụ: nếu một trong các dịch vụ bị lỗi, thì bạn cần tự động ghi lại sự cố này và bắt đầu giải quyết, chứ không phải đợi người dùng không hài lòng liên hệ với bộ phận hỗ trợ kỹ thuật.

Chúng tôi có một công ty nhỏ, chúng tôi không có đủ nguồn lực để nghiên cứu và duy trì bất kỳ giải pháp phức tạp nào để giám sát các ứng dụng, chúng tôi cần tìm một giải pháp đơn giản và hiệu quả.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Chiến lược giám sát

Việc kiểm tra chức năng của một ứng dụng không phải là điều dễ dàng, nhiệm vụ này không hề tầm thường, thậm chí có thể nói là sáng tạo. Việc xác minh một hệ thống đa liên kết phức tạp là đặc biệt khó khăn.

Làm sao bạn có thể ăn được một con voi? Chỉ một phần thôi! Chúng tôi sử dụng phương pháp này để giám sát các ứng dụng.

Bản chất của chiến lược giám sát của chúng tôi:

Chia ứng dụng của bạn thành các thành phần.
Tạo kiểm tra kiểm soát cho từng thành phần.

Một thành phần được coi là hoạt động nếu tất cả các hoạt động kiểm tra kiểm soát của nó được thực hiện không có lỗi. Một ứng dụng được coi là tốt nếu tất cả các thành phần của nó đều hoạt động tốt.

Vì vậy, bất kỳ hệ thống nào cũng có thể được biểu diễn dưới dạng cây các thành phần. Các thành phần phức tạp được chia thành những thành phần đơn giản hơn. Các thành phần đơn giản có kiểm tra.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Điểm chuẩn không nhằm mục đích thực hiện kiểm tra chức năng, chúng không phải là kiểm tra đơn vị. Kiểm tra kiểm soát nên kiểm tra cảm giác của thành phần tại thời điểm hiện tại, liệu có tất cả các tài nguyên cần thiết cho hoạt động của nó hay không và liệu có bất kỳ vấn đề nào không.

Không có phép lạ nào cả; hầu hết các cuộc kiểm tra sẽ cần được phát triển độc lập. Nhưng đừng sợ, vì trong hầu hết các trường hợp, một lần kiểm tra cần 5-10 dòng mã, nhưng bạn có thể triển khai bất kỳ logic nào và bạn sẽ hiểu rõ cách hoạt động của kiểm tra.

Hệ thống giám sát

Giả sử chúng ta chia ứng dụng thành các thành phần, nghĩ ra và triển khai các bước kiểm tra cho từng thành phần, nhưng phải làm gì với kết quả của những lần kiểm tra này? Làm thế nào để chúng tôi biết nếu một số kiểm tra không thành công?

Chúng ta sẽ cần một hệ thống giám sát. Cô sẽ thực hiện các nhiệm vụ sau:

  • Nhận kết quả kiểm tra và sử dụng chúng để xác định trạng thái của các thành phần.
    Nhìn bề ngoài, điều này trông giống như làm nổi bật cây thành phần. Các thành phần chức năng chuyển sang màu xanh, các thành phần có vấn đề chuyển sang màu đỏ.
  • Thực hiện kiểm tra chung ngay lập tức.
    Hệ thống giám sát có thể tự thực hiện một số kiểm tra. Tại sao phải phát minh lại bánh xe, hãy sử dụng chúng. Ví dụ: bạn có thể kiểm tra xem trang web đang mở hay máy chủ đang ping.
  • Gửi thông báo về các vấn đề cho các bên quan tâm.
  • Trực quan hóa dữ liệu giám sát, cung cấp báo cáo, đồ thị và số liệu thống kê.

Mô tả ngắn gọn về hệ thống ASMO

Tốt nhất là giải thích bằng một ví dụ. Hãy xem cách tổ chức giám sát hiệu suất của hệ thống ASMO.

ASMO là một hệ thống hỗ trợ khí tượng tự động. Hệ thống này giúp các chuyên gia dịch vụ đường bộ hiểu được vị trí và thời điểm cần xử lý đường bằng vật liệu làm tan băng. Hệ thống thu thập dữ liệu từ các điểm kiểm soát đường bộ. Điểm kiểm soát đường là nơi trên đường lắp đặt thiết bị: trạm thời tiết, máy quay video, v.v. Để dự đoán các tình huống nguy hiểm, hệ thống nhận dự báo thời tiết từ các nguồn bên ngoài.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Vì vậy, thành phần của hệ thống khá điển hình: website, đại lý, thiết bị. Hãy bắt đầu theo dõi.

Chia hệ thống thành các thành phần

Các thành phần sau đây có thể được phân biệt trong hệ thống ASMO:

1. Tài khoản cá nhân
Đây là một ứng dụng web. Tối thiểu, bạn cần kiểm tra xem ứng dụng có sẵn trên Internet hay không.

2. Cơ sở dữ liệu
Cơ sở dữ liệu lưu trữ dữ liệu quan trọng để báo cáo và bạn phải đảm bảo rằng các bản sao lưu cơ sở dữ liệu được tạo thành công.

3. Máy chủ
Theo máy chủ, chúng tôi muốn nói đến phần cứng mà ứng dụng chạy trên đó. Cần kiểm tra tình trạng HDD, RAM, CPU.

4. Đại lý
Đây là một dịch vụ Windows thực hiện nhiều tác vụ khác nhau theo lịch trình. Tối thiểu, bạn cần kiểm tra xem dịch vụ có đang chạy hay không.

5. Nhiệm vụ đại lý
Chỉ biết rằng một đại lý đang làm việc là không đủ. Đại lý có thể làm việc nhưng không thực hiện được nhiệm vụ được giao. Hãy chia thành phần tác nhân thành các nhiệm vụ và kiểm tra xem mỗi tác vụ tác nhân có hoạt động thành công hay không.

6. Điểm kiểm soát đường bộ (nơi chứa toàn bộ MPC)
Có nhiều điểm kiểm soát đường nên hãy kết hợp tất cả MPC vào một thành phần. Điều này sẽ giúp việc đọc dữ liệu giám sát thuận tiện hơn. Khi xem trạng thái của thành phần “hệ thống ASMO”, sẽ thấy ngay vấn đề nằm ở đâu: trong ứng dụng, phần cứng hay trong hệ thống điều khiển tối đa.

7. Điểm kiểm soát đường (một giới hạn tối đa)
Chúng tôi sẽ coi thành phần này có thể sử dụng được nếu tất cả các thiết bị trên MPC này đều có thể sử dụng được.

8. Thiết bị
Đây là máy quay video hoặc trạm thời tiết được lắp đặt ở giới hạn nồng độ tối đa. Cần kiểm tra xem thiết bị có hoạt động tốt không.

Trong hệ thống giám sát, cây thành phần sẽ có dạng như sau:

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Giám sát ứng dụng web

Như vậy, chúng ta đã chia hệ thống thành các thành phần, bây giờ chúng ta cần đưa ra các bước kiểm tra cho từng thành phần.

Để giám sát một ứng dụng web, chúng tôi sử dụng các bước kiểm tra sau:

1. Kiểm tra việc mở trang chính
Việc kiểm tra này được thực hiện bởi hệ thống giám sát. Để thực thi nó, chúng tôi chỉ ra địa chỉ trang, đoạn phản hồi dự kiến ​​và thời gian thực hiện yêu cầu tối đa.

2. Kiểm tra thời hạn thanh toán tên miền
Một kiểm tra rất quan trọng. Khi miền vẫn chưa được thanh toán, người dùng không thể mở trang web. Việc giải quyết vấn đề có thể mất vài ngày, bởi vì... Thay đổi DNS không được áp dụng ngay lập tức.

3. Kiểm tra chứng chỉ SSL
Ngày nay, hầu hết các trang web đều sử dụng giao thức https để truy cập. Để giao thức hoạt động chính xác, bạn cần có chứng chỉ SSL hợp lệ.

Dưới đây là thành phần “Tài khoản cá nhân” trong hệ thống giám sát:

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Tất cả các bước kiểm tra ở trên sẽ hoạt động với hầu hết các ứng dụng và không yêu cầu mã hóa. Điều này rất thú vị vì bạn có thể bắt đầu theo dõi bất kỳ ứng dụng web nào sau 5 phút. Dưới đây là các bước kiểm tra bổ sung có thể được thực hiện cho một ứng dụng web, nhưng việc triển khai chúng phức tạp hơn và dành riêng cho ứng dụng, vì vậy chúng tôi sẽ không đề cập đến chúng trong bài viết này.

Bạn có thể kiểm tra những gì khác?

Để giám sát đầy đủ hơn ứng dụng web của bạn, bạn có thể thực hiện các bước kiểm tra sau:

  • Số lỗi JavaScript mỗi kỳ
  • Số lỗi ở phía ứng dụng web (back-end) trong kỳ
  • Số phản hồi ứng dụng web không thành công (mã phản hồi 404, 500, v.v.)
  • Thời gian thực hiện truy vấn trung bình

Giám sát dịch vụ windows (đại lý)

Trong hệ thống ASMO, tác nhân đóng vai trò là người lập lịch tác vụ, thực thi các tác vụ đã lên lịch ở chế độ nền.

Nếu tất cả nhiệm vụ của tổng đài viên hoàn thành thành công thì tức là tổng đài viên đang hoạt động bình thường. Hóa ra để giám sát một tác nhân, bạn cần giám sát các nhiệm vụ của nó. Vì vậy, chúng tôi chia thành phần “Agent” thành các nhiệm vụ. Đối với mỗi nhiệm vụ, chúng tôi sẽ tạo một thành phần riêng biệt trong hệ thống giám sát, trong đó thành phần “Tác nhân” sẽ là “mẹ”.

Chúng tôi chia thành phần Tác nhân thành các thành phần con (nhiệm vụ):

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Vì vậy, chúng tôi đã chia một thành phần phức tạp thành nhiều thành phần đơn giản. Bây giờ chúng ta cần đưa ra các bước kiểm tra cho từng thành phần đơn giản. Xin lưu ý rằng thành phần chính “Tác nhân” sẽ không có bất kỳ kiểm tra nào vì hệ thống giám sát sẽ tính toán trạng thái của nó một cách độc lập dựa trên trạng thái của các thành phần con của nó. Nói cách khác, nếu tất cả các nhiệm vụ được hoàn thành thành công thì tác nhân đang chạy thành công.

Có hơn một trăm nhiệm vụ trong hệ thống ASMO, có thực sự cần thiết phải đưa ra các bước kiểm tra riêng cho từng nhiệm vụ không? Tất nhiên, việc kiểm soát sẽ tốt hơn nếu chúng ta nghĩ ra và thực hiện các biện pháp kiểm tra đặc biệt của riêng mình cho từng nhiệm vụ của tác nhân, nhưng trong hầu hết các trường hợp, chỉ cần sử dụng các biện pháp kiểm tra chung là đủ.

Hệ thống ASMO chỉ sử dụng các biện pháp kiểm tra chung cho các tác vụ và điều này đủ để giám sát hiệu suất của hệ thống.

Kiểm tra tiến độ
Kiểm tra đơn giản và hiệu quả nhất là kiểm tra thực thi. Kiểm tra xác minh rằng nhiệm vụ được hoàn thành mà không có lỗi. Tất cả các nhiệm vụ đều có kiểm tra này.

Kiểm tra thuật toán

Sau mỗi lần thực hiện tác vụ, bạn cần gửi kết quả kiểm tra THÀNH CÔNG đến hệ thống giám sát nếu thực hiện tác vụ thành công hoặc LỖI nếu quá trình thực thi hoàn tất có lỗi.

Kiểm tra này có thể phát hiện các vấn đề sau:

  1. Tác vụ chạy nhưng không thành công và có lỗi.
  2. Tác vụ đã ngừng chạy, ví dụ như nó bị treo.

Chúng ta hãy xem cách giải quyết những vấn đề này một cách chi tiết hơn.

Sự cố 1 – Tác vụ chạy nhưng không thành công và có lỗi
Dưới đây là trường hợp tác vụ chạy nhưng không thành công trong khoảng thời gian từ 14:00 đến 16:00.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Hình vẽ cho thấy khi một tác vụ bị lỗi, tín hiệu sẽ ngay lập tức được gửi đến hệ thống giám sát và trạng thái kiểm tra tương ứng trong hệ thống giám sát sẽ trở thành báo động.

Xin lưu ý rằng trong hệ thống giám sát, trạng thái của thành phần phụ thuộc vào trạng thái xác minh. Trạng thái cảnh báo khi kiểm tra sẽ thay đổi tất cả các thành phần cấp cao hơn thành cảnh báo, xem hình bên dưới.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Vấn đề 2 - Tác vụ đã ngừng thực thi (bị treo)
Làm thế nào hệ thống giám sát hiểu được rằng một nhiệm vụ đang bị mắc kẹt?

Kết quả kiểm tra có thời hạn hiệu lực, ví dụ: 1 giờ. Nếu một giờ trôi qua mà không có kết quả xét nghiệm mới, hệ thống giám sát sẽ đặt trạng thái xét nghiệm ở mức báo động.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Trong hình trên, đèn đã tắt lúc 14 giờ chiều. Đến 00h hệ thống giám sát sẽ phát hiện kết quả xét nghiệm (từ 15h) bị hỏng, do Thời gian liên quan đã hết (một giờ) nhưng không có kết quả mới và sẽ chuyển kiểm tra sang trạng thái cảnh báo.

Đến 16h00 đèn được bật trở lại, chương trình sẽ hoàn thành nhiệm vụ và gửi kết quả thực hiện về hệ thống giám sát, trạng thái kiểm tra lại là thành công.

Tôi nên sử dụng thời gian kiểm tra mức độ liên quan nào?

Thời gian liên quan phải lớn hơn thời gian thực hiện nhiệm vụ. Tôi khuyên bạn nên đặt thời gian liên quan dài hơn 2-3 lần so với thời gian thực hiện nhiệm vụ. Điều này là cần thiết để tránh nhận được thông báo sai, chẳng hạn như khi một tác vụ mất nhiều thời gian hơn bình thường hoặc ai đó tải lại chương trình.

Kiểm tra tiến độ

Hệ thống ASMO có nhiệm vụ "Tải dự báo", nhiệm vụ này cố gắng tải xuống dự báo mới từ nguồn bên ngoài mỗi giờ một lần. Thời gian chính xác khi một dự báo mới xuất hiện trong hệ thống bên ngoài vẫn chưa được biết, nhưng người ta biết rằng điều này xảy ra 2 lần một ngày. Hóa ra nếu không có dự báo mới trong vài giờ thì điều này là bình thường, nhưng nếu không có dự báo mới trong hơn một ngày thì có gì đó đã hỏng ở đâu đó. Ví dụ: định dạng dữ liệu trong hệ thống dự báo bên ngoài có thể thay đổi, đó là lý do tại sao ASMO sẽ không thấy bản phát hành dự báo mới.

Kiểm tra thuật toán

Tác vụ sẽ gửi kết quả kiểm tra THÀNH CÔNG đến hệ thống giám sát khi nó đạt được tiến độ (tải xuống dự báo thời tiết mới). Nếu không có tiến triển hoặc xảy ra lỗi thì sẽ không có gì được gửi đến hệ thống giám sát.

Việc kiểm tra phải có khoảng thời gian liên quan sao cho trong thời gian này nó được đảm bảo nhận được tiến trình mới.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Xin lưu ý rằng chúng tôi sẽ tìm hiểu vấn đề với độ trễ vì hệ thống giám sát sẽ đợi cho đến khi hết thời hạn hiệu lực của kết quả quét cuối cùng. Vì vậy, thời hạn hiệu lực của séc không cần phải kéo dài quá lâu.

Giám sát cơ sở dữ liệu

Để kiểm soát cơ sở dữ liệu trong hệ thống ASMO, chúng tôi thực hiện các kiểm tra sau:

  1. Xác minh việc tạo bản sao lưu
  2. Kiểm tra dung lượng đĩa trống

Xác minh việc tạo bản sao lưu
Trong hầu hết các ứng dụng, điều quan trọng là phải có bản sao lưu cơ sở dữ liệu cập nhật để nếu máy chủ bị lỗi, bạn có thể triển khai chương trình lên máy chủ mới.

ASMO tạo bản sao lưu mỗi tuần một lần và gửi nó vào bộ lưu trữ. Khi quy trình này hoàn tất thành công, kết quả kiểm tra thành công sẽ được gửi đến hệ thống giám sát. Kết quả xác minh có giá trị trong 9 ngày. Những thứ kia. Để kiểm soát việc tạo bản sao lưu, cơ chế “kiểm tra tiến trình” mà chúng ta đã thảo luận ở trên sẽ được sử dụng.

Kiểm tra dung lượng đĩa trống
Nếu không có đủ dung lượng trống trên đĩa, cơ sở dữ liệu sẽ không thể hoạt động bình thường, vì vậy điều quan trọng là phải kiểm soát lượng dung lượng trống.

Thật thuận tiện khi sử dụng số liệu để kiểm tra các tham số số.

Số liệu là một biến số, giá trị của nó được truyền đến hệ thống giám sát. Hệ thống giám sát kiểm tra các giá trị ngưỡng và tính toán trạng thái số liệu.

Dưới đây là hình ảnh thành phần “Cơ sở dữ liệu” trông như thế nào trong hệ thống giám sát:

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Giám sát máy chủ

Để giám sát máy chủ, chúng tôi sử dụng các biện pháp kiểm tra và số liệu sau:

1. Dung lượng đĩa trống
Nếu hết dung lượng ổ đĩa, ứng dụng sẽ không thể hoạt động. Chúng tôi sử dụng 2 giá trị ngưỡng: cấp đầu tiên là CẢNH BÁO, cấp thứ hai là BÁO ĐỘNG.

2. Giá trị trung bình của RAM tính bằng phần trăm mỗi giờ
Chúng tôi sử dụng mức trung bình hàng giờ vì... chúng tôi không quan tâm đến những cuộc đua hiếm hoi.

3. Tỷ lệ phần trăm CPU trung bình mỗi giờ
Chúng tôi sử dụng mức trung bình hàng giờ vì... chúng tôi không quan tâm đến những cuộc đua hiếm hoi.

4. Kiểm tra ping
Kiểm tra xem máy chủ có trực tuyến không. Hệ thống giám sát có thể thực hiện việc kiểm tra này mà không cần phải viết mã.

Dưới đây là hình ảnh thành phần “Máy chủ” trông như thế nào trong hệ thống giám sát:

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Giám sát thiết bị

Tôi sẽ cho bạn biết cách lấy dữ liệu. Đối với mỗi điểm kiểm soát đường (MPC) có một nhiệm vụ trong bảng lập kế hoạch nhiệm vụ, ví dụ: “Khảo sát MPC M2 km 200”. Tác vụ nhận dữ liệu từ tất cả các thiết bị MPC cứ sau 30 phút.

Vấn đề về kênh truyền thông
Hầu hết các thiết bị đều được đặt ở ngoài thành phố, sử dụng mạng GSM để truyền dữ liệu, hoạt động không ổn định (có mạng hoặc không có).

Do mạng thường xuyên bị lỗi nên lúc đầu, việc kiểm tra khảo sát MPC trong quá trình giám sát trông như thế này:

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Rõ ràng rằng đây không phải là một phương án khả thi vì có nhiều thông báo sai về các vấn đề. Sau đó, người ta quyết định sử dụng “kiểm tra tiến trình” cho từng thiết bị, tức là. Chỉ có tín hiệu thành công được gửi đến hệ thống giám sát khi thiết bị được thăm dò không có lỗi. Thời gian liên quan được đặt thành 5 giờ.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Hiện tại, giám sát chỉ gửi thông báo về sự cố khi thiết bị không thể thăm dò ý kiến ​​trong hơn 5 giờ. Với khả năng xảy ra cao, đây không phải là những cảnh báo sai mà là những vấn đề thực sự.

Dưới đây là hình ảnh thiết bị trông như thế nào trong hệ thống giám sát:

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Quan trọng!
Khi mạng GSM ngừng hoạt động, tất cả các thiết bị MDC sẽ không được thăm dò. Để giảm số lượng email từ hệ thống giám sát, các kỹ sư của chúng tôi đăng ký nhận thông báo về các sự cố thành phần bằng loại “MPC” thay vì “Thiết bị”. Điều này cho phép bạn nhận được một thông báo cho mỗi MPC, thay vì nhận thông báo riêng cho từng thiết bị.

Kế hoạch giám sát ASMO cuối cùng

Chúng ta hãy tổng hợp mọi thứ lại với nhau và xem chúng ta có loại chương trình giám sát nào.

Chúng tôi ăn thịt con voi theo từng phần. Chiến lược theo dõi tình trạng ứng dụng với các ví dụ

Kết luận

Hãy tóm tắt.
Việc theo dõi hiệu suất của ASMO đã mang lại cho chúng ta điều gì?

1. Thời gian loại bỏ lỗi đã giảm
Trước đây chúng tôi đã nghe nói về lỗi từ người dùng, nhưng không phải tất cả người dùng đều báo cáo lỗi. Tình cờ là chúng tôi biết về sự cố của một thành phần hệ thống một tuần sau khi nó xuất hiện. Bây giờ hệ thống giám sát sẽ thông báo cho chúng tôi về sự cố ngay khi phát hiện sự cố.

2. Độ ổn định của hệ thống đã tăng lên
Vì các khiếm khuyết bắt đầu được loại bỏ sớm hơn nên toàn bộ hệ thống bắt đầu hoạt động ổn định hơn nhiều.

3. Giảm số lượng cuộc gọi hỗ trợ kỹ thuật
Nhiều vấn đề hiện đã được khắc phục trước khi người dùng biết về chúng. Người dùng bắt đầu liên hệ với bộ phận hỗ trợ kỹ thuật ít thường xuyên hơn. Tất cả điều này có ảnh hưởng tốt đến danh tiếng của chúng tôi.

4. Tăng lòng trung thành của khách hàng và người dùng
Khách hàng nhận thấy những thay đổi tích cực về tính ổn định của hệ thống. Người dùng gặp ít vấn đề hơn khi sử dụng hệ thống.

5. Giảm chi phí hỗ trợ kỹ thuật
Chúng tôi đã ngừng thực hiện bất kỳ kiểm tra thủ công nào. Bây giờ tất cả các kiểm tra đều được tự động hóa. Trước đây, chúng tôi đã tìm hiểu về các vấn đề từ người dùng; thường rất khó hiểu người dùng đang nói đến vấn đề gì. Giờ đây, hầu hết các vấn đề đều được hệ thống giám sát báo cáo; các thông báo chứa dữ liệu kỹ thuật, luôn cho thấy rõ điều gì đã xảy ra và ở đâu.

Quan trọng!
Bạn không thể cài đặt hệ thống giám sát trên cùng một máy chủ nơi ứng dụng của bạn chạy. Nếu máy chủ ngừng hoạt động, các ứng dụng sẽ ngừng hoạt động và sẽ không có ai thông báo về điều đó.

Hệ thống giám sát phải chạy trên một máy chủ riêng ở trung tâm dữ liệu khác.

Nếu bạn không muốn sử dụng máy chủ chuyên dụng trong trung tâm dữ liệu mới, bạn có thể sử dụng hệ thống giám sát đám mây. Công ty chúng tôi sử dụng hệ thống giám sát đám mây Zidium, nhưng bạn có thể sử dụng bất kỳ hệ thống giám sát nào khác. Chi phí của hệ thống giám sát đám mây thấp hơn so với việc thuê máy chủ mới.

Khuyến nghị:

  1. Chia nhỏ các ứng dụng và hệ thống dưới dạng cây gồm các thành phần càng chi tiết càng tốt, như vậy sẽ thuận tiện để hiểu vị trí và cái gì bị hỏng, đồng thời việc kiểm soát sẽ hoàn thiện hơn.
  2. Để kiểm tra chức năng của một thành phần, hãy sử dụng các bài kiểm tra. Sẽ tốt hơn nếu sử dụng nhiều bước kiểm tra đơn giản hơn là sử dụng một bước kiểm tra phức tạp.
  3. Định cấu hình ngưỡng số liệu ở bên cạnh hệ thống giám sát, thay vì viết chúng bằng mã. Điều này sẽ giúp bạn không phải biên dịch lại, cấu hình lại hoặc khởi động lại ứng dụng.
  4. Đối với các bước kiểm tra tùy chỉnh, hãy sử dụng một khoảng thời gian phù hợp để tránh nhận được thông báo sai vì một số bước kiểm tra mất nhiều thời gian hơn để hoàn thành so với bình thường.
  5. Cố gắng làm cho các thành phần trong hệ thống giám sát chỉ chuyển sang màu đỏ khi chắc chắn có vấn đề. Nếu chúng chuyển sang màu đỏ mà không có lý do gì thì bạn sẽ không còn chú ý đến các thông báo của hệ thống giám sát nữa, ý nghĩa của nó sẽ mất đi.

Nếu bạn chưa sử dụng hệ thống giám sát, hãy bắt đầu! Nó không khó như nó có vẻ. Hãy tận hưởng niềm vui khi ngắm nhìn cây nguyên liệu xanh do chính bạn trồng.

Chúc may mắn.

Nguồn: www.habr.com

Thêm một lời nhận xét