İzleme + yük testi = tahmin ve hata yok

VTB BT departmanı, sistemlerin işletiminde, üzerlerindeki yükün kat kat arttığı acil durumlarla birkaç kez uğraşmak zorunda kaldı. Bu nedenle kritik sistemlerdeki pik yükü tahmin edecek bir modelin geliştirilmesine ve test edilmesine ihtiyaç vardı. Bunu yapmak için bankanın BT uzmanları izlemeyi kurdu, verileri analiz etti ve tahminleri otomatikleştirmeyi öğrendi. Hangi araçların yükü tahmin etmeye yardımcı olduğunu ve işin optimize edilmesine yardımcı olup olmadıklarını kısa bir makalede size anlatacağız.

İzleme + yük testi = tahmin ve hata yok

Yüksek yüklü hizmetlerle ilgili sorunlar hemen hemen tüm endüstrilerde ortaya çıkıyor, ancak finans sektörü için bunlar kritik öneme sahip. X saatinde tüm muharebe birimlerinin hazır olması gerekiyordu ve bu nedenle ne olabileceğini önceden bilmek, hatta yükün ne zaman atlayacağı günü ve hangi sistemlerin bununla karşılaşacağını belirlemek gerekiyordu. Başarısızlıkların ele alınması ve önlenmesi gerekiyor, dolayısıyla tahmine dayalı bir analitik sisteminin uygulanması ihtiyacı tartışılmadı bile. İzleme verilerine dayalı sistemlerin modernize edilmesi gerekiyordu.

Analitik dizlerinin üstünde

Bordro projesi başarısızlık durumunda en hassas projelerden biridir. Tahmin için en anlaşılır olanı bu, bu yüzden onunla başlamaya karar verdik. Yüksek bağlantı nedeniyle, uzaktan bankacılık hizmetleri (RBS) de dahil olmak üzere diğer alt sistemler, yükün yoğun olduğu zamanlarda sorunlarla karşılaşabilir. Örneğin paranın alındığına dair SMS'den memnun kalan müşteriler onu aktif olarak kullanmaya başladı. Yük, bir büyüklük mertebesinden daha fazla sıçrayabilir. 

İlk tahmin modeli manuel olarak oluşturuldu. Geçen yılın yüklemelerini aldık ve maksimum zirvelerin hangi günlerde beklendiğini hesapladık: örneğin 1., 15. ve 25. günlerin yanı sıra ayın son günleri. Bu model önemli miktarda işçilik maliyeti gerektiriyordu ve doğru bir tahmin sunmuyordu. Bununla birlikte, donanım eklemenin gerekli olduğu darboğazları tespit etti ve ana müşterilerle anlaşarak para transfer sürecini optimize etmeyi mümkün kıldı: Maaşların bir çırpıda verilmemesi için farklı bölgelerden yapılan işlemler zaman içinde aralandı. Artık bunları bankanın BT altyapısının hatasız "çiğneyebileceği" parçalar halinde işliyoruz.

İlk olumlu sonucu aldıktan sonra tahminleri otomatikleştirmeye geçtik, bir düzine kritik alan daha sırasını bekliyordu.

Kapsamlı yaklaşım

VTB, MicroFocus'tan bir izleme sistemi uyguladı. Buradan tahmin için veri toplamayı, depolama sistemini ve raporlama sistemini aldık. Aslında izleme zaten mevcuttu, geriye kalan tek şey metrikleri, tahmin modülünü eklemek ve yeni raporlar oluşturmaktı. Bu karar, dış yüklenici Technoserv tarafından destekleniyor, bu nedenle projenin uygulanmasına ilişkin ana iş uzmanlarına düştü, ancak modeli kendimiz oluşturduk. Tahmin sistemi, Facebook'un geliştirdiği açık kaynak kodlu Prophet ürünü baz alınarak yapıldı. Kullanımı kolaydır ve kurulu entegre izleme araçlarımız ve Vertica ile kolayca entegre olur. Kabaca söylemek gerekirse, sistem yük grafiğini analiz eder ve onu Fourier serisine göre tahmin eder. Modelimizden alınan belirli katsayıları gün bazında eklemek de mümkündür. Metrikler insan müdahalesi olmadan alınır, tahmin haftada bir kez otomatik olarak yeniden hesaplanır ve alıcılara yeni raporlar gönderilir. 

Bu yaklaşım, örneğin yıllık, aylık, üç aylık ve haftalık gibi ana döngüsellikleri tanımlar. Maaş ve avans ödemeleri, tatil dönemleri, tatiller ve satışlar - bunların tümü sistemlere yapılan çağrı sayısını etkiler. Örneğin bazı döngülerin birbiriyle örtüştüğü ve sistemler üzerindeki ana yükün (%75) Merkezi Federal Bölgeden geldiği ortaya çıktı. Tüzel kişiler ve bireyler farklı davranırlar. "Fizikçilerin" yükü haftanın günlerine nispeten eşit bir şekilde dağılmışsa (bu çok sayıda küçük işlemdir), o zaman şirketler için %99,9'u çalışma saatlerine harcanır ve işlemler kısa olabilir veya birkaç dakika içinde tamamlanabilir. dakikalar hatta saatler.

İzleme + yük testi = tahmin ve hata yok

Elde edilen verilere dayanarak uzun vadeli eğilimler belirlenir. Yeni sistem, insanların toplu olarak uzaktan bankacılık hizmetlerine yöneldiğini ortaya çıkardı. Bunu herkes biliyor ama biz böyle bir ölçek beklemiyorduk ve ilk başta buna inanmadık: Banka ofislerine yapılan çağrıların sayısı son derece hızlı bir şekilde azalıyor ve uzaktan yapılan işlemlerin sayısı da aynı oranda artıyor. Buna bağlı olarak sistemlerin üzerindeki yük de artıyor ve artmaya da devam edecek. Şimdi Şubat 2020'ye kadar olan yükü tahmin ediyoruz. Normal günler %3 hatayla, yoğun günler ise %10 hatayla tahmin edilebiliyor. Bu iyi bir sonuçtur.

Tuzaklar

Her zamanki gibi bu da zorluksuz olmadı. Fourier serisini kullanan ekstrapolasyon mekanizması sıfırı iyi geçmiyor; tüzel kişilerin hafta sonları az sayıda işlem gerçekleştirdiğini biliyoruz, ancak tahmin modülü sıfırdan uzak değerler üretiyor. Bunları zorla düzeltmek mümkündü ama koltuk değneği bizim yöntemimiz değil. Ayrıca kaynak sistemlerden veriyi ağrısız bir şekilde alma sorununu da çözmemiz gerekiyordu. Bilgilerin düzenli olarak toplanması ciddi bilgi işlem kaynakları gerektirir; bu nedenle çoğaltmayı kullanarak hızlı önbellekler oluşturduk ve kopyalardan iş verilerini aldık. Bu gibi durumlarda ana sistemlere ek yük gelmemesi bir engelleme gereksinimidir.

Yeni zorluklar

Zirveleri tahmin etme gibi basit bir görev çözüldü: Bu yılın Mayıs ayından bu yana bankada aşırı yükten kaynaklanan herhangi bir arıza yaşanmadı ve yeni tahmin sistemi bunda önemli bir rol oynadı. Evet, bunun yeterli olmadığı ortaya çıktı ve şimdi banka zirvelerin kendisi için ne kadar tehlikeli olduğunu anlamak istiyor. Yük testinden elde edilen ölçümleri kullanarak tahminlere ihtiyacımız var ve kritik sistemlerin yaklaşık %30'u için bu zaten çalışıyor, geri kalanı ise tahmin elde etme sürecinde. Bir sonraki aşamada ticari işlemlerde değil, BT altyapısı açısından sistemler üzerindeki yükü tahmin edeceğiz, yani bir katmana ineceğiz. Ayrıca, indirmelerle uğraşmamak için metriklerin toplanmasını ve bunlara dayalı tahminlerin oluşturulmasını tamamen otomatikleştirmemiz gerekiyor. Bunda süslü bir şey yok; biz sadece küresel en iyi uygulamalara uygun olarak izleme ve yük testini geçiyoruz.

Kaynak: habr.com

Yorum ekle