Hur misslyckades banken?

Hur misslyckades banken?

En misslyckad migrering av IT-infrastruktur resulterade i korruption av 1,3 miljarder bankkunder. Allt berodde på otillräckliga tester och en oseriös inställning till komplexa IT-system. Cloud4Y berättar hur det gick till.

På engelska 2018 TSB Bank insåg att hans två år gamla "skilsmässa" med bankgruppen Lloyds (båda företagen slogs samman 1995) var för dyr. TSB var fortfarande knuten till sin tidigare partner genom hastigt klonade Lloyds IT-system. Det värsta av allt var att banken var tvungen att betala "alimentation", en årlig licensavgift på 127 miljoner dollar.

Få människor gillar att betala pengar till sina ex, så den 22 april 2018 klockan 18:00 påbörjade TSB slutskedet av en 18-månaders plan som var tänkt att förändra allt. Det var planerat att överföra miljarder kundregister till det spanska företaget Banco Sabadells IT-system, som köpte TSB för 2,2 miljarder dollar redan 2015.

Banco Sabadells VD José Olu talade om det kommande evenemanget 2 veckor före jul 2017 under ett festligt personalmöte i en prestigefylld konferenshall i Barcelona. Det viktigaste migreringsverktyget skulle vara en ny version av systemet utvecklat av Banco Sabadell: Proteo. Det döptes till och med om till Proteo4UK specifikt för TSB-migreringsprojektet.

Vid presentationen av Proteo4UK skröt Banco Sabadells verkställande direktör Jaime Guardiola Romojaro att det nya systemet är ett storskaligt projekt som inte har några motsvarigheter i Europa, som över 1000 XNUMX specialister arbetade på. Och att dess implementering kommer att ge ett betydande lyft för Banco Sabadells tillväxt i Storbritannien.

Den 22 april 2018 fastställdes som migrationsdag. Det var en lugn söndagskväll mitt på våren. Bankens IT-system låg nere då journaler överfördes från ett system till ett annat. Med allmänhetens tillgång till bankkonton återställd sent på söndagen skulle man förvänta sig att banken långsamt och smidigt skulle återgå till tjänsten.

Men medan Olyu och Guardiola Romojaro glatt sände från scenen om genomförandet av Proteo4UK-projektet, var de anställda som ansvarade för migrationsprocessen väldigt nervösa. Projektet, som tog 18 månader att slutföra, låg rejält efter schemat och över budget. Det fanns inte tid att genomföra ytterligare tester. Men att överföra alla företagets data (vilket, kom ihåg, är miljarder poster) till ett annat system är en herkulisk uppgift.

Det visade sig att ingenjörerna var nervösa av goda skäl.

Hur misslyckades banken?
En stubb på sajten som kunder såg för länge

20 minuter efter att TSB öppnade åtkomst till kontona, och var helt säker på att migreringen gick smidigt, kom de första rapporterna om problem.

Människors besparingar försvann plötsligt från deras konton. Inköp av obetydliga belopp bokfördes felaktigt som utgifter på flera tusen dollar. Vissa personer loggade in på sina personliga konton och såg inte sina bankkonton, utan konton för helt andra personer.

Klockan 21:00 informerade TSB-representanter den lokala finanstillsynsmyndigheten (den brittiska finansinspektionen, FCA) om att banken var i trubbel. Men FCA har redan lagt märke till det: TSB har verkligen skruvat illa och kunderna har gjorts idioter. Och naturligtvis började de klaga på sociala nätverk (och nuförtiden är det inte särskilt svårt att släppa några rader på Twitter eller Facebook). Klockan 23:30 kontaktades FCA av en annan finansiell regulator, Prudential Regulation Authority (PRA), som också kände att något var fel.

Redan långt efter midnatt lyckades de ta sig fram till en av bankrepresentanterna. Och ställ dem den enda frågan: "vad fan är det som händer?"

Det tog tid att förstå omfattningen av tragedin, men vi vet nu att 1,3 miljarder poster med 5,4 miljoner kunder skadades under migreringen. Under minst en vecka kunde kunderna inte hantera sina pengar från sina datorer eller mobila enheter. De kunde inte betala lånet och många bankkunder fick en fläck på sin kredithistorik, såväl som förseningsavgifter.

Hur misslyckades banken?
Så här såg TSB-kundens nätbank ut

När felen började dyka upp, nästan omedelbart efter, insisterade bankrepresentanter på att problemen var "intermittent". Tre dagar senare kom ett uttalande om att alla system var normala. Men kunderna fortsatte att rapportera problem. Det var inte förrän den 26 april 2018 som bankens verkställande direktör, Paul Pester, medgav att TSB var "på knä" eftersom bankens IT-infrastruktur fortsatte att ha ett "bandbreddsproblem" som hindrade omkring en miljon kunder från att få tillgång till onlinebanktjänster.

Två veckor efter migreringen rapporterades nätbanksapplikationen fortfarande ha interna fel relaterade till SQL-databasen.
Betalningssvårigheter, särskilt med företags- och bolåneräkningar, fortsatte i upp till fyra veckor. Och allestädes närvarande journalister fick reda på att TSB avvisade ett erbjudande om hjälp från Lloyds Banking Group i början av migrationskrisen. I allmänhet observerades problem i samband med inloggning på onlinetjänster och möjligheten att överföra pengar fram till den 3 september.

Lite historia

Hur misslyckades banken?
Den första bankomaten öppnade den 27 juni 1967 nära Barclays i Enfield

Bankernas IT-system blir allt mer komplexa i takt med att kundernas behov och förväntningar från banken ökar. För cirka 40-60 år sedan hade vi gärna besökt vårt lokala bankkontor under kontorstid för att sätta in kontanter eller ta ut dem via kassan.

Mängden pengar på kontot var direkt relaterad till de kontanter och mynt vi gav till banken. Vår hembokföring kunde spåras med penna och papper, och datorsystem var inte tillgängliga för kunder. Bankanställda placerade data från bankböcker och andra medier i enheter som räknade pengarna.

Men 1967 i norra London för första gången Installerades en bankomat som inte fanns i bankens lokaler. Och denna händelse förändrade bankverksamheten. Användarbekvämlighet har blivit ett riktmärke för utvecklingen av finansiella institutioner. Och detta har hjälpt bankerna att bli mer sofistikerade när det gäller att arbeta med kunder och deras pengar. Trots allt, medan datorsystem endast var tillgängliga för bankanställda, var de nöjda med det gamla, "pappers" sättet att interagera med kunder. Det var först med tillkomsten av bankomater och sedan nätbanker som allmänheten fick direkt tillgång till bankernas IT-system.

Bankomater var bara början. Snart kunde folk undvika kö vid kassan genom att helt enkelt ringa banken per telefon. Detta krävde speciella kort som sattes in i en läsare som kunde dechiffrera DTMF-signalerna med dubbla toner som sänds när användaren tryckte på tangenten "1" (ta ut pengar) eller "2" (sätta in pengar).

Internet och mobilbank har fört kunderna närmare de kärnsystem som driver banker. Trots deras varierande begränsningar och inställningar måste alla dessa system interagera effektivt med varandra och med stordatorn, utföra kontobalanskontroller, göra pengaöverföringar och så vidare.

Få kunder tänker på hur komplex informationsvägen är när du till exempel loggar in på en nätbank för att se eller uppdatera information om pengarna på ditt konto. När du loggar in skickas denna data genom en uppsättning servrar; när du gör en transaktion duplicerar systemet denna data i backend-infrastrukturen, som sedan gör det tunga arbetet – överföra pengar från ett konto till ett annat för att betala räkningar, göra betalningar och fortsätta prenumerationer.

Multiplicera nu denna process med flera miljarder. Enligt uppgifter sammanställda av Världsbanken med hjälp av Bill och Melinda Gates Foundation, 69 procent vuxna över hela världen har ett bankkonto. Var och en av dessa människor har räkningar att betala. Någon betalar ett bolån eller för över pengar till barnklubbar, någon betalar för ett Netflix-abonnemang eller hyr en molnserver. Och alla dessa människor använder mer än en bank.

Många interna IT-system i en bank (mobilbanker, bankomater, etc.) får inte bara interagera med varandra. De måste interagera med andra banksystem i Brasilien, Kina och Tyskland. En fransk bankomat ska kunna dela ut pengar som finns på ett bankkort som utfärdats någonstans i Bolivia.

Pengar har alltid varit globala, men aldrig tidigare har systemet varit så komplext. Antalet sätt att använda bankers IT-system ökar, men de gamla sätten används fortfarande. En banks framgång beror till stor del på hur "underhållbar" dess IT-infrastruktur är, och hur effektivt banken kan hantera ett plötsligt misslyckande som gör att systemet blir inaktivt.

Inga tester - förbered dig på problem

Hur misslyckades banken?
Banco de Sabadells vd Jaime Guardiola (till vänster) var övertygad om att allt skulle gå smidigt. Det funkade inte.

TSB:s datorsystem var inte särskilt bra på att lösa problem snabbt. Det fanns naturligtvis mjukvarufel, men i verkligheten "bröt banken" på grund av den överdrivna komplexiteten i dess IT-system. Enligt rapporten, som utarbetades i början av det massiva avbrottet, "ledde kombinationen av nya applikationer, ökad användning av mikrotjänster i kombination med användningen av två Active/Active datacenter till komplexa risker i produktionen."

Vissa banker, som HSBC, verkar globalt och har därför också mycket komplexa, sammanlänkade system. Men de testas, migreras och uppdateras regelbundet, enligt en HSBC IT-chef i Lancaster. Han ser HSBC som en modell för hur andra banker ska hantera sina IT-system: genom att ägna personal och spendera sin tid. Men han medger samtidigt att för en mindre bank, särskilt en som inte har erfarenhet av migration, är det en mycket svår uppgift att göra detta på rätt sätt.

TSB-migreringen var svår. Och enligt experter kunde bankpersonalen helt enkelt inte nå denna komplexitetsnivå när det gäller kvalifikationer. Dessutom brydde de sig inte ens om att kontrollera sin lösning eller testa migreringen i förväg.

Under ett tal i det brittiska parlamentet om bankproblem bekräftade Andrew Bailey, VD för FCA, denna misstanke. Dålig kod orsakade förmodligen bara de initiala problemen hos TSB, men de sammankopplade systemen i det globala finansiella nätverket gjorde att dess misstag vidmakthölls och var oåterkalleliga. Banken fortsatte att se oväntade fel på andra ställen i sin IT-arkitektur. Kunder fick meddelanden som var meningslösa eller orelaterade till deras problem.

Regressionstestning kan hjälpa till att förhindra katastrof genom att fånga upp dålig kod innan den släpptes i produktion och orsaka skada genom att skapa buggar som inte kunde återställas. Men banken bestämde sig för att gå igenom ett minfält som den inte ens kände till. Konsekvenserna var förutsägbara. Ett annat problem var "optimeringen" av kostnaderna. Hur visade det sig? Faktum är att det tidigare beslutades att ta bort säkerhetskopiorna som lagrats hos Lloyds, eftersom de "ätit upp" för mycket pengar.

Brittiska banker (och andra också) strävar efter att uppnå en tillgänglighetsnivå på fyra nio, det vill säga 99,99 %. I praktiken innebär det att IT-systemet ska vara tillgängligt hela tiden, med upp till 52 minuters driftstopp per år. Systemet "tre nior", 99,9%, skiljer sig vid första anblicken inte mycket. Men i verkligheten innebär detta att stilleståndstiden når 8 timmar per år. För banken är "fyra nior" bra, men "tre nior" är det inte.

Men varje gång ett företag gör förändringar i sin IT-infrastruktur tar det risker. När allt kommer omkring kan något gå fel. Att minska ändringarna kan hjälpa till att undvika problem, medan nödvändiga ändringar kräver noggrann testning. Och brittiska tillsynsmyndigheter har fokuserat sin uppmärksamhet på denna punkt.

Det kanske enklaste sättet att undvika stillestånd är att helt enkelt göra färre ändringar. Men varje bank, som alla andra företag, tvingas införa fler och fler användbara funktioner för kunder och sin egen verksamhet för att förbli konkurrenskraftig. Samtidigt är bankerna fortfarande skyldiga att ta hand om sina kunder, skydda deras besparingar och personuppgifter, tillhandahålla bekväma villkor för att använda tjänster. Det visar sig att organisationer tvingas lägga mycket tid och pengar på att upprätthålla sin IT-infrastrukturs hälsa, samtidigt som de erbjuder nya tjänster.

Antalet rapporterade teknikfel i den finansiella tjänstesektorn i Storbritannien ökade med 187 procent mellan 2017 och 2018, enligt uppgifter som släppts av Storbritanniens Financial Conduct Authority. Oftast är orsaken till fel problem i driften av ny funktionalitet. Samtidigt är det avgörande för bankerna att säkerställa en konstant oavbruten drift av alla tjänster och nästan omedelbar rapportering av transaktioner. Kunder är alltid nervösa när deras pengar hänger någonstans. Och en klient som är nervös för pengar är alltid ett tecken på problem.

Några månader efter misslyckandet i TSB (då bankens vd hade avgått), brittiska finanstillsynsmyndigheter och Bank of England släppt ett dokument för diskussion om operativa hållbarhetsfrågor. Så de försökte ta upp frågan om hur djupt banker har gått i jakten på innovation, och om de kan garantera den stabila driften av systemet som de har nu.

Dokumentet föreslog också ändringar i lagstiftningen. Det handlade om att ställa människor inom företaget till svars för vad som går fel i det företagets IT-system. Brittiska parlamentariker förklarade det så här: "När du är personligt ansvarig, och du kan gå i konkurs eller gå i fängelse, kommer detta avsevärt att förändra attityden till arbete, inklusive att öka mängden tid som ägnas åt frågan om tillförlitlighet och säkerhet."

Resultat av

Varje uppdatering och patch handlar om riskhantering, särskilt när hundratals miljoner dollar är inblandade. När allt kommer omkring, om något går fel kan det bli dyrt i form av pengar och anseende. Det verkar uppenbara saker. Och bankens misslyckande under migrationen borde ha lärt dem mycket.

Hade. Men han lärde mig inte. I november 2019 "glade" TSB, som återigen uppnådde lönsamhet och sakta höll på att förbättra sitt rykte, kunder nytt misslyckande inom informationsteknikområdet. Det andra slaget mot banken innebar att den kommer att tvingas stänga 82 kontor 2020 för att minska sina kostnader. Eller så kunde han helt enkelt inte spara på IT-specialister.

Snålhet med IT kommer i slutändan till en kostnad. TSB rapporterade en förlust på 134 miljoner dollar 2018, jämfört med en vinst på 206 miljoner dollar 2017. Kostnader efter migration, inklusive kundkompensation, korrigering av bedrägliga transaktioner (som ökade kraftigt under bankkaoset) och tredjepartshjälp, uppgick till 419 miljoner dollar. Bankens IT-leverantör fakturerades också 194 miljoner dollar för sin roll i krisen.

Men oavsett vilka lärdomar man drar av TSB-bankmisslyckandet kommer störningar fortfarande att uppstå. De är oundvikliga. Men med testning och bra kod kan krascher och stilleståndstider reduceras avsevärt. Cloud4Y, som ofta hjälper stora företag att migrera till molninfrastruktur, förstår vikten av att snabbt flytta från ett system till ett annat. Därför kan vi genomföra belastningstestning och använda ett backupsystem på flera nivåer, samt andra alternativ som låter dig kontrollera allt möjligt innan du startar migreringen.

Vad mer kan du läsa på bloggen? Cloud4Y

Salt solenergi
Pentesters i framkanten av cybersäkerhet
The Great Snowflake Theory
Internet på ballonger
Behövs kuddar i ett datacenter?

Prenumerera på vår Telegram-kanal så att du inte missar nästa artikel! Vi skriver inte mer än två gånger i veckan och endast i affärer.

Källa: will.com

Lägg en kommentar