Giám sát + kiểm tra tải = dự đoán và không có lỗi

Bộ phận CNTT của VTB đã nhiều lần phải xử lý các tình huống khẩn cấp trong quá trình vận hành hệ thống khi tải trọng tăng lên gấp nhiều lần. Do đó, cần phải phát triển và thử nghiệm một mô hình có thể dự đoán tải tối đa trên các hệ thống quan trọng. Để làm được điều này, các chuyên gia CNTT của ngân hàng đã thiết lập chức năng giám sát, phân tích dữ liệu và học cách tự động hóa dự báo. Chúng tôi sẽ cho bạn biết trong một bài viết ngắn những công cụ nào đã giúp dự đoán tải và liệu chúng có giúp tối ưu hóa công việc hay không.

Giám sát + kiểm tra tải = dự đoán và không có lỗi

Các vấn đề về dịch vụ tải trọng cao phát sinh ở hầu hết các ngành, nhưng đối với lĩnh vực tài chính thì chúng rất nghiêm trọng. Vào giờ X, tất cả các đơn vị chiến đấu phải sẵn sàng, và do đó cần phải biết trước điều gì có thể xảy ra và thậm chí xác định ngày tải sẽ nhảy và hệ thống nào sẽ gặp phải nó. Các lỗi cần phải được xử lý và ngăn chặn, do đó, nhu cầu triển khai hệ thống phân tích dự đoán thậm chí còn không được thảo luận. Cần phải hiện đại hóa hệ thống dựa trên dữ liệu giám sát.

Phân tích trên đầu gối của bạn

Dự án trả lương là một trong những dự án nhạy cảm nhất trong trường hợp thất bại. Đây là cách dự báo dễ hiểu nhất nên chúng tôi quyết định bắt đầu với nó. Do khả năng kết nối cao, các hệ thống con khác, bao gồm cả dịch vụ ngân hàng từ xa (RBS), có thể gặp sự cố vào thời điểm tải cao điểm. Ví dụ: những khách hàng hài lòng với tin nhắn SMS về việc nhận tiền đã bắt đầu tích cực sử dụng nó. Tải có thể tăng vọt hơn một bậc độ lớn. 

Mô hình dự báo đầu tiên được tạo thủ công. Chúng tôi đã lấy số lượt tải lên của năm ngoái và tính toán xem những ngày nào sẽ đạt mức cao nhất: ví dụ: ngày 1, ngày 15 và ngày 25, cũng như những ngày cuối cùng của tháng. Mô hình này đòi hỏi chi phí lao động đáng kể và không đưa ra dự báo chính xác. Tuy nhiên, nó đã xác định được những điểm nghẽn khi cần bổ sung phần cứng và có thể tối ưu hóa quy trình chuyển tiền bằng cách thỏa thuận với các khách hàng cố định: để không trả lương trong một ngụm, các giao dịch từ các khu vực khác nhau đã được giãn cách theo thời gian. Bây giờ chúng tôi xử lý chúng theo từng phần mà cơ sở hạ tầng CNTT của ngân hàng có thể “nghiền” mà không bị lỗi.

Nhận được kết quả tích cực đầu tiên, chúng tôi chuyển sang tự động hóa dự báo, hàng chục lĩnh vực quan trọng khác đang chờ đến lượt.

Phương pháp tích hợp

VTB đã triển khai hệ thống giám sát từ MicroFocus. Từ đó chúng tôi thu thập dữ liệu để dự báo, hệ thống lưu trữ và hệ thống báo cáo. Trên thực tế, việc giám sát đã được thực hiện, tất cả những gì còn lại là thêm số liệu, mô-đun dự đoán và tạo báo cáo mới. Quyết định này được sự ủng hộ của nhà thầu bên ngoài Technoserv nên công việc chính thực hiện dự án do các chuyên gia của họ đảm nhận mà chúng tôi tự xây dựng mô hình. Hệ thống dự báo được thực hiện dựa trên Prophet, một sản phẩm nguồn mở do Facebook phát triển. Nó rất dễ sử dụng và dễ dàng tích hợp với các công cụ giám sát tích hợp đã cài đặt của chúng tôi và Vertica. Nói một cách đại khái, hệ thống phân tích biểu đồ tải và ngoại suy nó dựa trên chuỗi Fourier. Cũng có thể thêm các hệ số nhất định theo ngày, lấy từ mô hình của chúng tôi. Các số liệu được thực hiện mà không cần sự can thiệp của con người, dự báo được tự động tính toán lại mỗi tuần một lần và các báo cáo mới sẽ được gửi đến người nhận. 

Cách tiếp cận này xác định các chu kỳ chính, ví dụ: hàng năm, hàng tháng, hàng quý và hàng tuần. Thanh toán tiền lương và tạm ứng, thời gian nghỉ phép, ngày lễ và bán hàng - tất cả những điều này ảnh hưởng đến số lượng cuộc gọi đến hệ thống. Ví dụ, hóa ra một số chu kỳ chồng chéo lẫn nhau và tải chính (75%) trên hệ thống đến từ Quận Liên bang Trung ương. Các pháp nhân và cá nhân hành xử khác nhau. Nếu khối lượng công việc từ các “nhà vật lý” được phân bổ tương đối đồng đều vào các ngày trong tuần (đây là rất nhiều giao dịch nhỏ), thì đối với các công ty, 99,9% được dành cho giờ làm việc và các giao dịch có thể ngắn hoặc có thể được xử lý trong vòng vài ngày. phút hoặc thậm chí hàng giờ.

Giám sát + kiểm tra tải = dự đoán và không có lỗi

Dựa trên dữ liệu thu được, xu hướng dài hạn được xác định. Hệ thống mới đã tiết lộ rằng mọi người đang chuyển sang sử dụng các dịch vụ ngân hàng từ xa ồ ạt. Mọi người đều biết điều này, nhưng chúng tôi không mong đợi một quy mô như vậy và lúc đầu cũng không tin vào nó: số lượng cuộc gọi đến văn phòng ngân hàng đang giảm cực kỳ nhanh chóng và số lượng giao dịch từ xa đang tăng lên với số lượng tương đương. Theo đó, tải trọng trên hệ thống cũng ngày càng tăng và sẽ tiếp tục tăng. Chúng tôi hiện đang dự báo tải cho đến tháng 2020 năm 3. Những ngày bình thường có thể được dự đoán với sai số 10% và những ngày cao điểm có sai số XNUMX%. Đây là một kết quả tốt.

Cạm bẫy

Như thường lệ, việc này không phải là không có khó khăn. Cơ chế ngoại suy sử dụng chuỗi Fourier không vượt qua số XNUMX - chúng tôi biết rằng các pháp nhân tạo ra ít giao dịch vào cuối tuần, nhưng mô-đun dự đoán tạo ra các giá trị khác xa XNUMX. Có thể dùng vũ lực để sửa chúng, nhưng nạng không phải là phương pháp của chúng tôi. Ngoài ra, chúng tôi còn phải giải quyết vấn đề truy xuất dữ liệu từ hệ thống nguồn một cách dễ dàng. Việc thu thập thông tin thường xuyên đòi hỏi phải có tài nguyên máy tính nghiêm túc, vì vậy chúng tôi đã xây dựng bộ nhớ đệm nhanh bằng cách sử dụng bản sao và nhận dữ liệu kinh doanh từ các bản sao. Việc không có tải bổ sung trên hệ thống chính trong những trường hợp như vậy là một yêu cầu chặn.

Những thách thức mới

Nhiệm vụ đơn giản là dự đoán các đỉnh điểm đã được giải quyết: ngân hàng không có sự cố nào liên quan đến quá tải kể từ tháng 30 năm nay và hệ thống dự báo mới đóng một vai trò quan trọng trong việc này. Vâng, hóa ra là chưa đủ, và bây giờ ngân hàng muốn hiểu mức độ nguy hiểm của đỉnh điểm đối với nó. Chúng tôi cần dự đoán bằng cách sử dụng các số liệu từ thử nghiệm tải và khoảng XNUMX% hệ thống quan trọng đã hoạt động, phần còn lại đang trong quá trình lấy dự đoán. Ở giai đoạn tiếp theo, chúng tôi sẽ dự đoán tải trên các hệ thống không phải trong các giao dịch kinh doanh mà về mặt cơ sở hạ tầng CNTT, tức là chúng tôi sẽ đi xuống một lớp. Ngoài ra, chúng tôi cần tự động hóa hoàn toàn việc thu thập các số liệu và xây dựng dự báo dựa trên chúng để không phải xử lý các lượt tải xuống. Không có gì lạ lùng về điều đó - chúng tôi chỉ vượt qua việc giám sát và kiểm tra tải theo các phương pháp thực hành tốt nhất trên toàn cầu.

Nguồn: www.habr.com

Thêm một lời nhận xét