Hvordan fejlede banken?

Hvordan fejlede banken?

En mislykket migrering af it-infrastruktur resulterede i korruption af 1,3 milliarder bankkunderegistre. Alt dette skyldtes utilstrækkelig test og en useriøs holdning til komplekse it-systemer. Cloud4Y fortæller, hvordan det skete.

I 2018 engelsk TSB bank indså, at hans to år gamle "skilsmisse" med bankkoncernen Lloyds (begge selskaber fusionerede i 1995) var for dyr. TSB var stadig knyttet til sin tidligere partner gennem hastigt klonede Lloyds it-systemer. Det værste af alt var, at banken skulle betale "alimentation", et årligt licensgebyr på 127 millioner dollars.

De færreste kan lide at betale penge til deres ekser, så den 22. april 2018 kl. 18:00 begyndte TSB den sidste fase af en 18-måneders plan, der skulle ændre alt. Det var planlagt at overføre milliarder af kunderegistre til it-systemet hos det spanske firma Banco Sabadell, som købte TSB for 2,2 milliarder dollar tilbage i 2015.

Banco Sabadell CEO José Olu talte om den kommende begivenhed 2 uger før jul 2017 under et festligt personalemøde i en prestigefyldt konferencesal i Barcelona. Det vigtigste migreringsværktøj skulle være en ny version af systemet udviklet af Banco Sabadell: Proteo. Det blev endda omdøbt til Proteo4UK specifikt til TSB-migreringsprojektet.

Ved præsentationen af ​​Proteo4UK pralede Banco Sabadells administrerende direktør Jaime Guardiola Romojaro, at det nye system er et storstilet projekt, der ikke har nogen analoger i Europa, som over 1000 specialister arbejdede på. Og at implementeringen heraf vil give et markant løft til Banco Sabadells vækst i Storbritannien.

22. april 2018 blev sat som migrationsdag. Det var en stille søndag aften midt på foråret. Bankens it-systemer var nede, da registreringer blev overført fra et system til et andet. Med offentlig adgang til bankkonti genoprettet sent på søndag, ville man forvente, at banken langsomt og gnidningsløst ville vende tilbage til tjeneste.

Men mens Olyu og Guardiola Romojaro gladeligt udsendte fra scenen om implementeringen af ​​Proteo4UK-projektet, var de ansatte, der var ansvarlige for migrationsprocessen, meget nervøse. Projektet, som tog 18 måneder at gennemføre, var alvorligt forsinket og over budgettet. Der var ikke tid til at udføre yderligere tests. Men at overføre alle virksomhedens data (som, husk, er milliarder af poster) til et andet system er en herkulisk opgave.

Det viste sig, at ingeniørerne var nervøse med god grund.

Hvordan fejlede banken?
En stump på siden, som kunderne så for længe

20 minutter efter, at TSB åbnede adgang til konti, da de var fuldt overbevist om, at migreringen gik glat, ankom de første rapporter om problemer.

Folks opsparing forsvandt pludselig fra deres konti. Køb af ubetydelige beløb blev fejlagtigt registreret som udgifter på flere tusinde dollars. Nogle mennesker loggede ind på deres personlige konti og så ikke deres bankkonti, men konti for helt andre mennesker.

Klokken 21 informerede TSB-repræsentanter den lokale finanstilsynsmyndighed (den britiske finanstilsynsmyndighed, FCA), om, at banken var i problemer. Men FCA har allerede lagt mærke til det: TSB har virkelig skruet dårligt op, og kunderne er blevet til grin. Og de begyndte selvfølgelig at klage til sociale netværk (og i dag er det ikke specielt svært at droppe et par linjer på Twitter eller Facebook). Klokken 23 blev FCA kontaktet af en anden finansiel regulator, Prudential Regulation Authority (PRA), som også fornemmede, at der var noget galt.

Allerede et godt stykke efter midnat lykkedes det at komme igennem til en af ​​bankrepræsentanterne. Og stil dem det eneste spørgsmål: "hvad fanden foregår der?"

Det tog tid at forstå omfanget af tragedien, men vi ved nu, at 1,3 milliarder poster på 5,4 millioner kunder blev beskadiget under migreringen. I mindst en uge var kunderne ude af stand til at administrere deres penge fra deres computere eller mobile enheder. De var ude af stand til at betale lånet, og mange bankkunder fik en skamplet på deres kredithistorik såvel som forsinkelsesgebyrer.

Hvordan fejlede banken?
Sådan så TSB-kundens netbank ud

Da fejlene begyndte at dukke op, næsten umiddelbart efter, insisterede bankrepræsentanter på, at problemerne var "intermitterende". Tre dage senere blev der udsendt en erklæring om, at alle systemer var normale. Men kunderne fortsatte med at rapportere problemer. Det var først den 26. april 2018, at bankens administrerende direktør, Paul Pester, indrømmede, at TSB var "på knæ", da bankens it-infrastruktur fortsat havde et "båndbreddeproblem", der forhindrede omkring en million kunder i at få adgang til netbanktjenester.

To uger inde i migreringen blev netbankapplikationen stadig rapporteret at opleve interne fejl relateret til SQL-databasen.
Betalingsvanskeligheder, især med erhvervs- og realkreditregninger, fortsatte i op til fire uger. Og allestedsnærværende journalister fandt ud af, at TSB afviste et tilbud om hjælp fra Lloyds Banking Group i begyndelsen af ​​migrationskrisen. Generelt blev der observeret problemer forbundet med at logge ind på onlinetjenester og muligheden for at overføre penge indtil den 3. september.

Lidt historie

Hvordan fejlede banken?
Den første pengeautomat åbnede den 27. juni 1967 nær Barclays i Enfield

Bankernes it-systemer bliver stadig mere komplekse i takt med, at kundernes behov og forventninger fra banken øges. For omkring 40-60 år siden ville vi have været glade for at besøge vores lokale bankafdeling i åbningstiden for at indbetale kontanter eller hæve dem gennem kassen.

Mængden af ​​penge på kontoen var direkte relateret til de kontanter og mønter, vi gav til banken. Vores hjemmeregnskab kunne spores med pen og papir, og computersystemer var ikke tilgængelige for kunderne. Bankansatte placerede data fra adgangsbøger og andre medier i enheder, der talte pengene.

Men i 1967 i det nordlige London for første gang Blev installeret en hæveautomat, der ikke var placeret i bankens område. Og denne begivenhed ændrede bank. Brugervenlighed er blevet et benchmark for udviklingen af ​​finansielle institutioner. Og det har hjulpet banker med at blive mere sofistikerede i forhold til at arbejde med kunder og deres penge. Selvom computersystemer kun var tilgængelige for bankansatte, var de tilfredse med den gamle "papir" måde at interagere med kunder på. Det var først med fremkomsten af ​​pengeautomater og derefter netbank, at offentligheden fik direkte adgang til bankernes it-systemer.

Hæveautomater var kun begyndelsen. Snart kunne folk undgå køen ved kasseapparatet ved blot at ringe til banken på telefon. Dette krævede specielle kort indsat i en læser, der var i stand til at dechifrere de dual-tone multi-frequency (DTMF) signaler, der blev transmitteret, når brugeren trykkede på tasten "1" (hæve penge) eller "2" (indskudsmidler).

Internettet og mobilbankerne har bragt kunderne tættere på de kernesystemer, som driver bankerne. På trods af deres forskellige begrænsninger og indstillinger skal alle disse systemer interagere effektivt med hinanden og med mainframen, udføre kontosaldokontrol, foretage pengeoverførsler og så videre.

De færreste kunder tænker over, hvor kompleks informationsstien er, når du for eksempel logger ind i en netbank for at se eller opdatere oplysninger om pengene på din konto. Når du logger ind, sendes disse data gennem et sæt servere; når du foretager en transaktion, duplikerer systemet disse data i backend-infrastrukturen, som derefter udfører det tunge løft - overfører penge fra en konto til en anden for at betale regninger, betalinger og fortsætte abonnementer.

Gang nu denne proces med flere milliarder. Ifølge data indsamlet af Verdensbanken med hjælp fra Bill og Melinda Gates Foundation, 69 procent voksne over hele verden har en bankkonto. Hver af disse mennesker skal betale regninger. Nogen betaler et realkreditlån eller overfører penge til børneklubber, nogen betaler for et Netflix-abonnement eller lejer en cloud-server. Og alle disse mennesker bruger mere end én bank.

Adskillige interne it-systemer i én bank (mobilbank, pengeautomater osv.) må ikke blot interagere med hinanden. De skal interagere med andre banksystemer i Brasilien, Kina og Tyskland. En fransk pengeautomat burde kunne uddele penge, der er på et bankkort, der er udstedt et sted i Bolivia.

Penge har altid været globale, men aldrig før har systemet været så komplekst. Antallet af måder at bruge bankers it-systemer på er stigende, men de gamle måder er stadig i brug. En banks succes afhænger i høj grad af, hvor "vedligeholdelig" dens it-infrastruktur er, og hvor effektivt banken kan klare et pludseligt nedbrud, som skyldes, at systemet vil være inaktivt.

Ingen test - forbered dig på problemer

Hvordan fejlede banken?
Banco de Sabadell CEO Jaime Guardiola (venstre) var overbevist om, at alt ville gå glat. Det lykkedes ikke.

TSB's computersystemer var ikke særlig gode til at løse problemer hurtigt. Der var selvfølgelig softwarefejl, men i virkeligheden "brød" banken på grund af dens it-systemers alt for kompleksitet. Ifølge rapporten, som blev udarbejdet i de tidlige dage af det massive udfald, "førte kombinationen af ​​nye applikationer, øget brug af mikrotjenester kombineret med brugen af ​​to aktive/aktive datacentre til komplekse risici i produktionen."

Nogle banker, såsom HSBC, opererer globalt og har derfor også meget komplekse, sammenkoblede systemer. Men de bliver jævnligt testet, migreret og opdateret, ifølge en HSBC IT-chef i Lancaster. Han ser HSBC som en model for, hvordan andre banker skal styre deres it-systemer: ved at afsætte personale og bruge deres tid. Men han indrømmer samtidig, at for en mindre bank, især en der ikke har migrationserfaring, er det en meget vanskelig opgave at gøre dette korrekt.

TSB-migreringen var vanskelig. Og ifølge eksperter kunne bankpersonalet simpelthen ikke nå dette kompleksitetsniveau med hensyn til kvalifikationer. Derudover gad de ikke engang tjekke deres løsning eller teste migreringen på forhånd.

Under en tale i det britiske parlament om bankproblemer bekræftede Andrew Bailey, administrerende direktør for FCA, denne mistanke. Dårlig kode forårsagede sandsynligvis kun de indledende problemer hos TSB, men de indbyrdes forbundne systemer i det globale finansielle netværk betød, at dets fejl blev foreviget og irreversible. Banken fortsatte med at se uventede fejl andre steder i sin it-arkitektur. Kunder modtog beskeder, der var meningsløse eller uden relation til deres problemer.

Regressionstest kunne hjælpe med at forhindre katastrofe ved at fange dårlig kode, før den blev frigivet til produktion, og forårsage skade ved at skabe fejl, der ikke kunne rulles tilbage. Men banken besluttede at køre gennem et minefelt, som den ikke engang kendte til. Konsekvenserne var forudsigelige. Et andet problem var "optimering" af omkostninger. Hvordan kom det til udtryk? Faktum er, at det tidligere blev besluttet at gøre op med sikkerhedskopierne gemt hos Lloyds, da de "spiste" for mange penge.

Britiske banker (og andre også) stræber efter at opnå et tilgængelighedsniveau på fire-ni, det vil sige 99,99 %. I praksis betyder det, at it-systemet skal være tilgængeligt til enhver tid med op til 52 minutters nedetid om året. "Tre ni"-systemet, 99,9%, adskiller sig ved første øjekast ikke meget. Men i virkeligheden betyder det, at nedetiden når op på 8 timer om året. For banken er "fire niere" godt, men "tre niere" er det ikke.

Men hver gang en virksomhed foretager ændringer i sin it-infrastruktur, tager den risici. Noget kan jo gå galt. Reduktion af ændringer kan hjælpe med at undgå problemer, mens nødvendige ændringer kræver omhyggelig test. Og britiske tilsynsmyndigheder har fokuseret deres opmærksomhed på dette punkt.

Den måske nemmeste måde at undgå nedetid på er blot at foretage færre ændringer. Men hver bank, som enhver anden virksomhed, er tvunget til at introducere flere og flere nyttige funktioner for kunder og sin egen virksomhed for at forblive konkurrencedygtig. Samtidig er bankerne stadig forpligtet til at tage sig af deres kunder, beskytte deres opsparinger og personlige data, give behagelige betingelser for at bruge tjenester. Det viser sig, at organisationer er tvunget til at bruge en masse tid og penge på at vedligeholde sundheden i deres it-infrastruktur og samtidig tilbyde nye tjenester.

Antallet af rapporterede teknologifejl i den finansielle sektor i Storbritannien steg med 187 procent mellem 2017 og 2018, ifølge data udgivet af den britiske Financial Conduct Authority. Oftest er årsagen til fejl problemer i driften af ​​ny funktionalitet. Samtidig er det afgørende for bankerne at sikre en konstant uafbrudt drift af alle tjenester og næsten øjeblikkelig indberetning af transaktioner. Kunder er altid nervøse, når deres penge hænger ud et sted. Og en klient, der er nervøs for penge, er altid et tegn på problemer.

Et par måneder efter fiaskoen i TSB (på hvilket tidspunkt bankens administrerende direktør havde trukket sig), britiske finanstilsyn og Bank of England udgivet et dokument til diskussion om operationelle bæredygtighedsspørgsmål. Så de forsøgte at rejse spørgsmålet om, hvor dybt bankerne er gået i jagten på innovation, og om de kan garantere den stabile drift af systemet, som de har nu.

Dokumentet foreslog også ændringer i lovgivningen. Det handlede om at holde folk i virksomheden ansvarlige for, hvad der går galt i virksomhedens it-systemer. Britiske parlamentarikere forklarede det på denne måde: "Når du er personligt ansvarlig, og du kan gå konkurs eller komme i fængsel, vil dette i høj grad ændre holdningen til arbejde, herunder øge mængden af ​​tid afsat til spørgsmålet om pålidelighed og sikkerhed."

Resultaterne af

Hver opdatering og patch kommer ned til risikostyring, især når hundredvis af millioner af dollars er involveret. Hvis noget går galt, kan det jo være dyrt i form af penge og omdømme. Det ville virke indlysende ting. Og bankens fiasko under migrationen burde have lært dem meget.

Havde. Men han lærte mig ikke. I november 2019 "glade" TSB, som igen opnåede rentabilitet og langsomt forbedrede sit omdømme, kunderne ny fiasko inden for informationsteknologi. Det andet slag til banken betød, at den vil blive tvunget til at lukke 82 filialer i 2020 for at reducere omkostningerne. Eller han kunne simpelthen ikke spare på it-specialister.

Nærhed med IT har i sidste ende en pris. TSB rapporterede et tab på $134 millioner i 2018 sammenlignet med et overskud på $206 millioner i 2017. Omkostninger efter migration, herunder kundekompensation, korrektion af svigagtige transaktioner (som steg kraftigt under bankkaosset) og tredjepartshjælp, beløb sig til 419 millioner dollars. Bankens it-udbyder blev også faktureret 194 millioner dollars for sin rolle i krisen.

Men uanset hvilke erfaringer der drages af TSB-banksvigtet, vil der stadig forekomme forstyrrelser. De er uundgåelige. Men med test og god kode kan nedbrud og nedetid reduceres markant. Cloud4Y, som ofte hjælper store virksomheder med at migrere til cloud-infrastruktur, forstår vigtigheden af ​​hurtigt at flytte fra et system til et andet. Derfor kan vi udføre belastningstest og bruge et backup-system på flere niveauer, samt andre muligheder, der giver dig mulighed for at tjekke alt muligt, før du starter migreringen.

Hvad kan du ellers læse på bloggen? Cloud4Y

Salt solenergi
Pentesters på forkant med cybersikkerhed
The Great Snowflake Theory
Internet på balloner
Er der brug for puder i et datacenter?

Abonner på vores Telegram-kanal, for ikke at gå glip af næste artikel! Vi skriver ikke mere end to gange om ugen og kun på forretningsrejse.

Kilde: www.habr.com

Tilføj en kommentar