En mislykket migrering af it-infrastruktur resulterede i korruption af 1,3 milliarder bankkunderegistre. Alt dette skyldtes utilstrækkelig test og en useriøs holdning til komplekse it-systemer. Cloud4Y fortæller, hvordan det skete.
I 2018 engelsk
De færreste kan lide at betale penge til deres ekser, så den 22. april 2018 kl. 18:00 begyndte TSB den sidste fase af en 18-måneders plan, der skulle ændre alt. Det var planlagt at overføre milliarder af kunderegistre til it-systemet hos det spanske firma Banco Sabadell, som købte TSB for 2,2 milliarder dollar tilbage i 2015.
Banco Sabadell CEO José Olu talte om den kommende begivenhed 2 uger før jul 2017 under et festligt personalemøde i en prestigefyldt konferencesal i Barcelona. Det vigtigste migreringsværktøj skulle være en ny version af systemet udviklet af Banco Sabadell: Proteo. Det blev endda omdøbt til Proteo4UK specifikt til TSB-migreringsprojektet.
Ved præsentationen af Proteo4UK pralede Banco Sabadells administrerende direktør Jaime Guardiola Romojaro, at det nye system er et storstilet projekt, der ikke har nogen analoger i Europa, som over 1000 specialister arbejdede på. Og at implementeringen heraf vil give et markant løft til Banco Sabadells vækst i Storbritannien.
22. april 2018 blev sat som migrationsdag. Det var en stille søndag aften midt på foråret. Bankens it-systemer var nede, da registreringer blev overført fra et system til et andet. Med offentlig adgang til bankkonti genoprettet sent på søndag, ville man forvente, at banken langsomt og gnidningsløst ville vende tilbage til tjeneste.
Men mens Olyu og Guardiola Romojaro gladeligt udsendte fra scenen om implementeringen af Proteo4UK-projektet, var de ansatte, der var ansvarlige for migrationsprocessen, meget nervøse. Projektet, som tog 18 måneder at gennemføre, var alvorligt forsinket og over budgettet. Der var ikke tid til at udføre yderligere tests. Men at overføre alle virksomhedens data (som, husk, er milliarder af poster) til et andet system er en herkulisk opgave.
Det viste sig, at ingeniørerne var nervøse med god grund.
En stump på siden, som kunderne så for længe
20 minutter efter, at TSB åbnede adgang til konti, da de var fuldt overbevist om, at migreringen gik glat, ankom de første rapporter om problemer.
Folks opsparing forsvandt pludselig fra deres konti. Køb af ubetydelige beløb blev fejlagtigt registreret som udgifter på flere tusinde dollars. Nogle mennesker loggede ind på deres personlige konti og så ikke deres bankkonti, men konti for helt andre mennesker.
Klokken 21 informerede TSB-repræsentanter den lokale finanstilsynsmyndighed (den britiske finanstilsynsmyndighed, FCA), om, at banken var i problemer. Men FCA har allerede lagt mærke til det: TSB har virkelig skruet dårligt op, og kunderne er blevet til grin. Og de begyndte selvfølgelig at klage til
Allerede et godt stykke efter midnat lykkedes det at komme igennem til en af bankrepræsentanterne. Og stil dem det eneste spørgsmål: "hvad fanden foregår der?"
Det tog tid at forstå omfanget af tragedien, men vi ved nu, at 1,3 milliarder poster på 5,4 millioner kunder blev beskadiget under migreringen. I mindst en uge var kunderne ude af stand til at administrere deres penge fra deres computere eller mobile enheder. De var ude af stand til at betale lånet, og mange bankkunder fik en skamplet på deres kredithistorik såvel som forsinkelsesgebyrer.
Sådan så TSB-kundens netbank ud
Da fejlene begyndte at dukke op, næsten umiddelbart efter, insisterede bankrepræsentanter på, at problemerne var "intermitterende". Tre dage senere blev der udsendt en erklæring om, at alle systemer var normale. Men kunderne fortsatte med at rapportere problemer. Det var først den 26. april 2018, at bankens administrerende direktør, Paul Pester, indrømmede, at TSB var "på knæ", da bankens it-infrastruktur fortsat havde et "båndbreddeproblem", der forhindrede omkring en million kunder i at få adgang til netbanktjenester.
To uger inde i migreringen blev netbankapplikationen stadig rapporteret at opleve interne fejl relateret til SQL-databasen.
Betalingsvanskeligheder, især med erhvervs- og realkreditregninger, fortsatte i op til fire uger. Og allestedsnærværende journalister fandt ud af, at TSB afviste et tilbud om hjælp fra Lloyds Banking Group i begyndelsen af migrationskrisen. Generelt blev der observeret problemer forbundet med at logge ind på onlinetjenester og muligheden for at overføre penge indtil den 3. september.
Lidt historie
Den første pengeautomat åbnede den 27. juni 1967 nær Barclays i Enfield
Bankernes it-systemer bliver stadig mere komplekse i takt med, at kundernes behov og forventninger fra banken øges. For omkring 40-60 år siden ville vi have været glade for at besøge vores lokale bankafdeling i åbningstiden for at indbetale kontanter eller hæve dem gennem kassen.
Mængden af penge på kontoen var direkte relateret til de kontanter og mønter, vi gav til banken. Vores hjemmeregnskab kunne spores med pen og papir, og computersystemer var ikke tilgængelige for kunderne. Bankansatte placerede data fra adgangsbøger og andre medier i enheder, der talte pengene.
Men i 1967 i det nordlige London for første gang
Hæveautomater var kun begyndelsen. Snart kunne folk undgå køen ved kasseapparatet ved blot at ringe til banken på telefon. Dette krævede specielle kort indsat i en læser, der var i stand til at dechifrere de dual-tone multi-frequency (DTMF) signaler, der blev transmitteret, når brugeren trykkede på tasten "1" (hæve penge) eller "2" (indskudsmidler).
Internettet og mobilbankerne har bragt kunderne tættere på de kernesystemer, som driver bankerne. På trods af deres forskellige begrænsninger og indstillinger skal alle disse systemer interagere effektivt med hinanden og med mainframen, udføre kontosaldokontrol, foretage pengeoverførsler og så videre.
De færreste kunder tænker over, hvor kompleks informationsstien er, når du for eksempel logger ind i en netbank for at se eller opdatere oplysninger om pengene på din konto. Når du logger ind, sendes disse data gennem et sæt servere; når du foretager en transaktion, duplikerer systemet disse data i backend-infrastrukturen, som derefter udfører det tunge løft - overfører penge fra en konto til en anden for at betale regninger, betalinger og fortsætte abonnementer.
Gang nu denne proces med flere milliarder. Ifølge data indsamlet af Verdensbanken med hjælp fra Bill og Melinda Gates Foundation,
Adskillige interne it-systemer i én bank (mobilbank, pengeautomater osv.) må ikke blot interagere med hinanden. De skal interagere med andre banksystemer i Brasilien, Kina og Tyskland. En fransk pengeautomat burde kunne uddele penge, der er på et bankkort, der er udstedt et sted i Bolivia.
Penge har altid været globale, men aldrig før har systemet været så komplekst. Antallet af måder at bruge bankers it-systemer på er stigende, men de gamle måder er stadig i brug. En banks succes afhænger i høj grad af, hvor "vedligeholdelig" dens it-infrastruktur er, og hvor effektivt banken kan klare et pludseligt nedbrud, som skyldes, at systemet vil være inaktivt.
Ingen test - forbered dig på problemer
Banco de Sabadell CEO Jaime Guardiola (venstre) var overbevist om, at alt ville gå glat. Det lykkedes ikke.
TSB's computersystemer var ikke særlig gode til at løse problemer hurtigt. Der var selvfølgelig softwarefejl, men i virkeligheden "brød" banken på grund af dens it-systemers alt for kompleksitet. Ifølge rapporten, som blev udarbejdet i de tidlige dage af det massive udfald, "førte kombinationen af nye applikationer, øget brug af mikrotjenester kombineret med brugen af to aktive/aktive datacentre til komplekse risici i produktionen."
Nogle banker, såsom HSBC, opererer globalt og har derfor også meget komplekse, sammenkoblede systemer. Men de bliver jævnligt testet, migreret og opdateret, ifølge en HSBC IT-chef i Lancaster. Han ser HSBC som en model for, hvordan andre banker skal styre deres it-systemer: ved at afsætte personale og bruge deres tid. Men han indrømmer samtidig, at for en mindre bank, især en der ikke har migrationserfaring, er det en meget vanskelig opgave at gøre dette korrekt.
TSB-migreringen var vanskelig. Og ifølge eksperter kunne bankpersonalet simpelthen ikke nå dette kompleksitetsniveau med hensyn til kvalifikationer. Derudover gad de ikke engang tjekke deres løsning eller teste migreringen på forhånd.
Under en tale i det britiske parlament om bankproblemer bekræftede Andrew Bailey, administrerende direktør for FCA, denne mistanke. Dårlig kode forårsagede sandsynligvis kun de indledende problemer hos TSB, men de indbyrdes forbundne systemer i det globale finansielle netværk betød, at dets fejl blev foreviget og irreversible. Banken fortsatte med at se uventede fejl andre steder i sin it-arkitektur. Kunder modtog beskeder, der var meningsløse eller uden relation til deres problemer.
Regressionstest kunne hjælpe med at forhindre katastrofe ved at fange dårlig kode, før den blev frigivet til produktion, og forårsage skade ved at skabe fejl, der ikke kunne rulles tilbage. Men banken besluttede at køre gennem et minefelt, som den ikke engang kendte til. Konsekvenserne var forudsigelige. Et andet problem var "optimering" af omkostninger. Hvordan kom det til udtryk? Faktum er, at det tidligere blev besluttet at gøre op med sikkerhedskopierne gemt hos Lloyds, da de "spiste" for mange penge.
Britiske banker (og andre også) stræber efter at opnå et tilgængelighedsniveau på fire-ni, det vil sige 99,99 %. I praksis betyder det, at it-systemet skal være tilgængeligt til enhver tid med op til 52 minutters nedetid om året. "Tre ni"-systemet, 99,9%, adskiller sig ved første øjekast ikke meget. Men i virkeligheden betyder det, at nedetiden når op på 8 timer om året. For banken er "fire niere" godt, men "tre niere" er det ikke.
Men hver gang en virksomhed foretager ændringer i sin it-infrastruktur, tager den risici. Noget kan jo gå galt. Reduktion af ændringer kan hjælpe med at undgå problemer, mens nødvendige ændringer kræver omhyggelig test. Og britiske tilsynsmyndigheder har fokuseret deres opmærksomhed på dette punkt.
Den måske nemmeste måde at undgå nedetid på er blot at foretage færre ændringer. Men hver bank, som enhver anden virksomhed, er tvunget til at introducere flere og flere nyttige funktioner for kunder og sin egen virksomhed for at forblive konkurrencedygtig. Samtidig er bankerne stadig forpligtet til at tage sig af deres kunder, beskytte deres opsparinger og personlige data, give behagelige betingelser for at bruge tjenester. Det viser sig, at organisationer er tvunget til at bruge en masse tid og penge på at vedligeholde sundheden i deres it-infrastruktur og samtidig tilbyde nye tjenester.
Antallet af rapporterede teknologifejl i den finansielle sektor i Storbritannien steg med 187 procent mellem 2017 og 2018, ifølge data udgivet af den britiske Financial Conduct Authority. Oftest er årsagen til fejl problemer i driften af ny funktionalitet. Samtidig er det afgørende for bankerne at sikre en konstant uafbrudt drift af alle tjenester og næsten øjeblikkelig indberetning af transaktioner. Kunder er altid nervøse, når deres penge hænger ud et sted. Og en klient, der er nervøs for penge, er altid et tegn på problemer.
Et par måneder efter fiaskoen i TSB (på hvilket tidspunkt bankens administrerende direktør havde trukket sig), britiske finanstilsyn og Bank of England
Dokumentet foreslog også ændringer i lovgivningen. Det handlede om at holde folk i virksomheden ansvarlige for, hvad der går galt i virksomhedens it-systemer. Britiske parlamentarikere forklarede det på denne måde: "Når du er personligt ansvarlig, og du kan gå konkurs eller komme i fængsel, vil dette i høj grad ændre holdningen til arbejde, herunder øge mængden af tid afsat til spørgsmålet om pålidelighed og sikkerhed."
Resultaterne af
Hver opdatering og patch kommer ned til risikostyring, især når hundredvis af millioner af dollars er involveret. Hvis noget går galt, kan det jo være dyrt i form af penge og omdømme. Det ville virke indlysende ting. Og bankens fiasko under migrationen burde have lært dem meget.
Havde. Men han lærte mig ikke. I november 2019 "glade" TSB, som igen opnåede rentabilitet og langsomt forbedrede sit omdømme, kunderne
Nærhed med IT har i sidste ende en pris. TSB rapporterede et tab på $134 millioner i 2018 sammenlignet med et overskud på $206 millioner i 2017. Omkostninger efter migration, herunder kundekompensation, korrektion af svigagtige transaktioner (som steg kraftigt under bankkaosset) og tredjepartshjælp, beløb sig til 419 millioner dollars. Bankens it-udbyder blev også faktureret 194 millioner dollars for sin rolle i krisen.
Men uanset hvilke erfaringer der drages af TSB-banksvigtet, vil der stadig forekomme forstyrrelser. De er uundgåelige. Men med test og god kode kan nedbrud og nedetid reduceres markant. Cloud4Y, som ofte hjælper store virksomheder med at migrere til cloud-infrastruktur, forstår vigtigheden af hurtigt at flytte fra et system til et andet. Derfor kan vi udføre belastningstest og bruge et backup-system på flere niveauer, samt andre muligheder, der giver dig mulighed for at tjekke alt muligt, før du starter migreringen.
Hvad kan du ellers læse på bloggen?
→
→
→
→
→
Abonner på vores
Kilde: www.habr.com