Wie ist die Bank gescheitert?

Wie ist die Bank gescheitert?

Eine fehlgeschlagene Migration der IT-Infrastruktur führte zur Beschädigung von 1,3 Milliarden Bankkundendaten. Dies alles war auf unzureichende Tests und eine leichtfertige Haltung gegenüber komplexen IT-Systemen zurückzuführen. Cloud4Y erzählt, wie es dazu kam.

Im Jahr 2018 Englisch TSB Bank erkannte, dass seine zwei Jahre alte „Scheidung“ mit der Lloyds-Bankengruppe (beide Unternehmen fusionierten 1995) zu teuer war. TSB war weiterhin über hastig geklonte Lloyds-IT-Systeme an seinen früheren Partner gebunden. Am schlimmsten war, dass die Bank „Unterhalt“ zahlen musste, eine jährliche Lizenzgebühr von 127 Millionen US-Dollar.

Nur wenige Menschen zahlen ihren Ex-Partnern gerne Geld, daher begann TSB am 22. April 2018 um 18:00 Uhr mit der letzten Phase eines 18-Monats-Plans, der alles verändern sollte. Geplant war, Milliarden von Kundendaten in das IT-System des spanischen Unternehmens Banco Sabadell zu übertragen, das TSB bereits 2,2 für 2015 Milliarden US-Dollar gekauft hatte.

José Olu, CEO der Banco Sabadell, sprach zwei Wochen vor Weihnachten 2 während einer festlichen Mitarbeiterversammlung in einem prestigeträchtigen Konferenzsaal in Barcelona über die bevorstehende Veranstaltung. Das wichtigste Migrationstool sollte eine neue Version des von der Banco Sabadell entwickelten Systems sein: Proteo. Es wurde sogar speziell für das TSB-Migrationsprojekt in Proteo2017UK umbenannt.

Bei der Präsentation von Proteo4UK prahlte der Geschäftsführer der Banco Sabadell, Jaime Guardiola Romojaro, dass es sich bei dem neuen System um ein Großprojekt handele, das in Europa keine Entsprechungen habe und an dem über 1000 Spezialisten gearbeitet hätten. Und dass seine Umsetzung dem Wachstum der Banco Sabadell im Vereinigten Königreich einen deutlichen Schub verleihen wird.

Der 22. April 2018 wurde als Tag der Migration festgelegt. Es war ein ruhiger Sonntagabend mitten im Frühling. Die IT-Systeme der Bank waren ausgefallen, da Aufzeichnungen von einem System in ein anderes übertragen wurden. Da am späten Sonntag der öffentliche Zugang zu Bankkonten wiederhergestellt wurde, würde man davon ausgehen, dass die Bank langsam und reibungslos wieder ihren Betrieb aufnehmen wird.

Doch während Olyu und Guardiola Romojaro fröhlich von der Bühne über die Umsetzung des Proteo4UK-Projekts berichteten, waren die für den Migrationsprozess verantwortlichen Mitarbeiter sehr nervös. Das Projekt, dessen Fertigstellung 18 Monate dauerte, lag deutlich hinter dem Zeitplan und über dem Budget. Es war keine Zeit, zusätzliche Tests durchzuführen. Aber die Übertragung aller Unternehmensdaten (die Milliarden von Datensätzen umfassen) in ein anderes System ist eine Herkulesaufgabe.

Es stellte sich heraus, dass die Ingenieure aus gutem Grund nervös waren.

Wie ist die Bank gescheitert?
Ein Stub auf der Website, den Kunden zu lange gesehen haben

20 Minuten nachdem TSB den Zugriff auf die Konten eröffnet hatte und völlig zuversichtlich war, dass die Migration reibungslos verlief, trafen die ersten Meldungen über Probleme ein.

Die Ersparnisse der Menschen verschwanden plötzlich von ihren Konten. Einkäufe in unbedeutender Höhe wurden fälschlicherweise als Ausgaben in Höhe von mehreren tausend Dollar verbucht. Manche Leute loggten sich in ihre persönlichen Konten ein und sahen nicht ihre Bankkonten, sondern die Konten völlig anderer Personen.

Um 21:00 Uhr informierten TSB-Vertreter die örtliche Finanzaufsichtsbehörde (die britische Financial Conduct Authority, FCA), dass die Bank in Schwierigkeiten sei. Doch die FCA hat es bereits bemerkt: TSB hat es wirklich gewaltig vermasselt, und die Kunden wurden zum Narren gehalten. Und natürlich fingen sie an, sich darüber zu beschweren soziale Netzwerke (und heutzutage ist es nicht besonders schwierig, ein paar Zeilen auf Twitter oder Facebook zu hinterlassen). Um 23:30 Uhr wurde die FCA von einer anderen Finanzaufsichtsbehörde, der Prudential Regulation Authority (PRA), kontaktiert, die ebenfalls spürte, dass etwas nicht stimmte.

Bereits weit nach Mitternacht gelang es ihnen, einen der Bankvertreter zu erreichen. Und stellen Sie ihnen die einzige Frage: „Was zum Teufel ist los?“

Es hat einige Zeit gedauert, das Ausmaß der Tragödie zu verstehen, aber wir wissen jetzt, dass 1,3 Milliarden Datensätze von 5,4 Millionen Kunden während der Migration beschädigt wurden. Mindestens eine Woche lang konnten Kunden ihr Geld nicht über ihren Computer oder ihr Mobilgerät verwalten. Sie waren nicht in der Lage, den Kredit zu bezahlen, und viele Bankkunden erlitten einen Makel in ihrer Bonität sowie Verzugszinsen.

Wie ist die Bank gescheitert?
So sah die TSB-Kunden-Onlinebank aus

Als die Pannen fast unmittelbar danach auftraten, bestanden Bankvertreter darauf, dass die Probleme „zeitweilig“ seien. Drei Tage später wurde eine Erklärung abgegeben, dass alle Systeme normal seien. Doch Kunden meldeten weiterhin Probleme. Erst am 26. April 2018 gab der Vorstandsvorsitzende der Bank, Paul Pester, zu, dass TSB „auf den Knien“ sei, da die IT-Infrastruktur der Bank weiterhin ein „Bandbreitenproblem“ habe, das rund eine Million Kunden daran hindere, auf Online-Banking-Dienste zuzugreifen.

Zwei Wochen nach der Migration wurden in der Online-Banking-Anwendung immer noch interne Fehler im Zusammenhang mit der SQL-Datenbank gemeldet.
Zahlungsschwierigkeiten, insbesondere bei Geschäfts- und Hypothekenrechnungen, hielten bis zu vier Wochen an. Und allgegenwärtige Journalisten fanden heraus, dass TSB gleich zu Beginn der Migrationskrise ein Hilfsangebot der Lloyds Banking Group abgelehnt hatte. Im Allgemeinen wurden bis zum 3. September Probleme im Zusammenhang mit der Anmeldung bei Online-Diensten und der Möglichkeit, Geld zu überweisen, beobachtet.

Ein wenig Geschichte

Wie ist die Bank gescheitert?
Der erste Geldautomat wurde am 27. Juni 1967 in der Nähe von Barclays in Enfield eröffnet

Die IT-Systeme von Banken werden immer komplexer, da die Bedürfnisse und Erwartungen der Kunden an die Bank steigen. Vor etwa 40 bis 60 Jahren wären wir gerne während der Geschäftszeiten in unsere örtliche Bankfiliale gegangen, um Bargeld einzuzahlen oder am Schalter abzuheben.

Der Geldbetrag auf dem Konto stand in direktem Zusammenhang mit dem Bargeld und den Münzen, die wir der Bank gegeben hatten. Die Buchhaltung zu Hause konnte mit Stift und Papier verfolgt werden, und die Computersysteme waren für Kunden nicht zugänglich. Bankmitarbeiter gaben Daten aus Sparbüchern und anderen Medien in Geräte ein, die das Geld zählten.

Aber 1967 zum ersten Mal im Norden Londons Wurde installiert ein Geldautomat, der sich nicht auf dem Bankgelände befand. Und dieses Ereignis veränderte das Bankwesen. Benutzerfreundlichkeit ist zum Maßstab für die Entwicklung von Finanzinstituten geworden. Und dies hat dazu beigetragen, dass Banken in Bezug auf die Arbeit mit Kunden und deren Geld anspruchsvoller geworden sind. Denn obwohl Computersysteme nur den Bankangestellten zur Verfügung standen, waren sie mit der alten „Papierform“ der Interaktion mit Kunden zufrieden. Erst mit dem Aufkommen von Geldautomaten und dem späteren Online-Banking erhielt die breite Öffentlichkeit einen direkten Zugang zu den IT-Systemen der Banken.

Geldautomaten waren nur der Anfang. Schon bald konnte man die Warteschlange an der Kasse umgehen, indem man einfach telefonisch bei der Bank anrief. Dazu waren spezielle Karten erforderlich, die in ein Lesegerät eingeführt wurden, das in der Lage war, die Dual-Tone-Multi-Frequency-Signale (DTMF) zu entschlüsseln, die gesendet wurden, wenn der Benutzer die Taste „1“ (Geld abheben) oder „2“ (Geld einzahlen) drückte.

Das Internet und das Mobile Banking haben Kunden näher an die Kernsysteme gebracht, die Banken antreiben. Trotz ihrer unterschiedlichen Einschränkungen und Einstellungen müssen alle diese Systeme effektiv miteinander und mit dem Hauptrechner interagieren, Kontostandsprüfungen durchführen, Geldtransfers durchführen usw.

Nur wenige Kunden denken darüber nach, wie komplex der Informationsweg ist, wenn Sie sich beispielsweise bei einer Online-Bank anmelden, um Informationen über das Geld auf Ihrem Konto einzusehen oder zu aktualisieren. Wenn Sie sich anmelden, werden diese Daten über eine Reihe von Servern weitergeleitet. Wenn Sie eine Transaktion durchführen, dupliziert das System diese Daten in der Backend-Infrastruktur, die dann die schwere Arbeit übernimmt – Geld von einem Konto auf ein anderes zu überweisen, um Rechnungen zu bezahlen Zahlungen und Fortsetzung von Abonnements.

Multiplizieren Sie diesen Vorgang nun mit mehreren Milliarden. Laut Daten, die die Weltbank mit Hilfe der Bill and Melinda Gates Foundation zusammengestellt hat, 69 Prozent Erwachsene auf der ganzen Welt haben ein Bankkonto. Jeder dieser Menschen hat Rechnungen zu bezahlen. Jemand zahlt eine Hypothek oder überweist Geld für Kinderclubs, jemand bezahlt ein Netflix-Abonnement oder mietet einen Cloud-Server. Und all diese Leute nutzen mehr als eine Bank.

Zahlreiche interne IT-Systeme einer Bank (Mobile Banking, Geldautomaten etc.) dürfen nicht einfach miteinander interagieren. Sie müssen mit anderen Bankensystemen in Brasilien, China und Deutschland interagieren. Ein französischer Geldautomat sollte in der Lage sein, Geld auszuzahlen, das sich auf einer irgendwo in Bolivien ausgestellten Bankkarte befindet.

Geld war schon immer global, aber noch nie war das System so komplex. Die Möglichkeiten, Bank-IT-Systeme zu nutzen, nehmen zu, doch die alten Wege sind immer noch im Einsatz. Der Erfolg einer Bank hängt weitgehend davon ab, wie „wartbar“ ihre IT-Infrastruktur ist und wie effektiv die Bank mit einem plötzlichen Ausfall umgehen kann, der zum Stillstand des Systems führt.

Keine Tests – bereiten Sie sich auf Probleme vor

Wie ist die Bank gescheitert?
Jaime Guardiola (links), CEO der Banco de Sabadell, zeigte sich zuversichtlich, dass alles reibungslos verlaufen würde. Hat nicht funktioniert.

Die Computersysteme von TSB waren nicht besonders gut darin, Probleme schnell zu lösen. Natürlich gab es Softwarefehler, aber in Wirklichkeit war die Bank aufgrund der übermäßigen Komplexität ihrer IT-Systeme „pleite“. Laut dem Bericht, der in den frühen Tagen des massiven Ausfalls erstellt wurde, „führte die Kombination aus neuen Anwendungen, der verstärkten Nutzung von Microservices in Kombination mit der Nutzung von zwei Aktiv/Aktiv-Rechenzentren zu komplexen Risiken in der Produktion.“

Einige Banken, wie beispielsweise HSBC, sind global tätig und verfügen daher auch über sehr komplexe, vernetzte Systeme. Laut einem HSBC-IT-Manager in Lancaster werden sie jedoch regelmäßig getestet, migriert und aktualisiert. Er sieht HSBC als Vorbild dafür, wie andere Banken ihre IT-Systeme verwalten sollten: durch engagiertes Personal und Zeitaufwand. Gleichzeitig räumt er jedoch ein, dass es für eine kleinere Bank, insbesondere eine, die keine Migrationserfahrung hat, eine sehr schwierige Aufgabe ist, dies richtig zu machen.

Die TSB-Migration war schwierig. Und Experten zufolge könnten die Mitarbeiter der Bank diese Komplexität von ihrer Qualifikation her einfach nicht erreichen. Darüber hinaus machten sie sich nicht einmal die Mühe, ihre Lösung vorab zu prüfen oder die Migration zu testen.

Während einer Rede im britischen Parlament zu Bankenproblemen bestätigte Andrew Bailey, Vorstandsvorsitzender der FCA, diesen Verdacht. Schlechter Code verursachte wahrscheinlich nur die anfänglichen Probleme bei TSB, aber die vernetzten Systeme des globalen Finanznetzwerks führten dazu, dass seine Fehler andauerten und irreversibel waren. Die Bank stellte weiterhin an anderer Stelle in ihrer IT-Architektur unerwartete Fehler fest. Kunden erhielten Nachrichten, die bedeutungslos waren oder nichts mit ihren Problemen zu tun hatten.

Regressionstests könnten dazu beitragen, Katastrophen zu verhindern, indem sie fehlerhaften Code erkennen, bevor er in die Produktion freigegeben wird, und Schaden anrichten, indem sie Fehler erzeugen, die nicht rückgängig gemacht werden können. Aber die Bank beschloss, durch ein Minenfeld zu rennen, von dem sie nicht einmal wusste. Die Folgen waren vorhersehbar. Ein weiteres Problem war die „Optimierung“ der Kosten. Wie hat es sich manifestiert? Fakt ist, dass zuvor beschlossen wurde, die bei Lloyds gelagerten Sicherungskopien zu löschen, da sie zu viel Geld „fressen“.

Britische Banken (und auch andere) streben eine Verfügbarkeit von vier Neunen an, also 99,99 %. In der Praxis bedeutet dies, dass das IT-System jederzeit verfügbar sein muss, bei bis zu 52 Minuten Ausfallzeit pro Jahr. Das „Drei-Neunen“-System, 99,9 %, unterscheidet sich auf den ersten Blick kaum. In Wirklichkeit bedeutet dies jedoch, dass die Ausfallzeit 8 Stunden pro Jahr beträgt. Für die Bank sind „vier Neunen“ gut, „drei Neunen“ jedoch nicht.

Doch jedes Mal, wenn ein Unternehmen Änderungen an seiner IT-Infrastruktur vornimmt, geht es Risiken ein. Schließlich kann etwas schief gehen. Durch die Reduzierung von Änderungen können Probleme vermieden werden, während erforderliche Änderungen sorgfältig getestet werden müssen. Und die britischen Regulierungsbehörden haben ihre Aufmerksamkeit auf diesen Punkt gerichtet.

Der vielleicht einfachste Weg, Ausfallzeiten zu vermeiden, besteht darin, einfach weniger Änderungen vorzunehmen. Aber jede Bank ist wie jedes andere Unternehmen gezwungen, immer mehr nützliche Funktionen für Kunden und das eigene Geschäft einzuführen, um wettbewerbsfähig zu bleiben. Gleichzeitig sind Banken weiterhin verpflichtet, sich um ihre Kunden zu kümmern, ihre Ersparnisse und persönlichen Daten zu schützen und ihnen komfortable Bedingungen für die Nutzung von Dienstleistungen zu bieten. Es stellt sich heraus, dass Unternehmen gezwungen sind, viel Zeit und Geld in die Aufrechterhaltung der Funktionsfähigkeit ihrer IT-Infrastruktur zu investieren und gleichzeitig neue Dienste anzubieten.

Nach Angaben der britischen Financial Conduct Authority ist die Zahl der gemeldeten Technologieausfälle im Finanzdienstleistungssektor im Vereinigten Königreich zwischen 187 und 2017 um 2018 Prozent gestiegen. Die häufigste Ursache für Ausfälle sind Probleme beim Betrieb neuer Funktionen. Gleichzeitig ist es für Banken von entscheidender Bedeutung, den ständigen, unterbrechungsfreien Betrieb aller Dienste und die nahezu sofortige Meldung von Transaktionen sicherzustellen. Kunden sind immer nervös, wenn ihr Geld irgendwo herumhängt. Und ein Kunde, der wegen Geld nervös ist, ist immer ein Zeichen von Ärger.

Wenige Monate nach dem Scheitern der TSB (zu diesem Zeitpunkt war der CEO der Bank zurückgetreten) meldeten sich die britischen Finanzaufsichtsbehörden und die Bank of England zu Wort ein Dokument veröffentlicht zur Diskussion über Fragen der betrieblichen Nachhaltigkeit. Deshalb versuchten sie, die Frage aufzuwerfen, wie weit die Banken bei der Suche nach Innovationen gegangen sind und ob sie den stabilen Betrieb des Systems, über das sie jetzt verfügen, garantieren können.

Das Dokument schlug auch Gesetzesänderungen vor. Es ging darum, die Mitarbeiter des Unternehmens für Fehler in den IT-Systemen des Unternehmens zur Verantwortung zu ziehen. Britische Parlamentarier erklärten es so: „Wenn man persönlich Verantwortung trägt und bankrott gehen oder ins Gefängnis gehen kann, wird sich die Einstellung zur Arbeit stark verändern, einschließlich der Erhöhung der Zeit, die man dem Thema Zuverlässigkeit und Sicherheit widmet.“

Ergebnisse

Bei jedem Update und Patch kommt es auf das Risikomanagement an, insbesondere wenn es um Hunderte Millionen Dollar geht. Denn wenn etwas schief geht, kann das Geld und Reputation kosten. Es scheint offensichtliche Dinge zu sein. Und das Scheitern der Bank während der Migration hätte sie viel lehren müssen.

Hatte. Aber er hat es mir nicht beigebracht. Im November 2019 „begeisterte“ TSB die Kunden, das erneut die Gewinnzone erreichte und seinen Ruf langsam verbesserte neuer Misserfolg im Bereich Informationstechnologie. Der zweite Schlag für die Bank bedeutete, dass sie im Jahr 82 2020 Filialen schließen musste, um ihre Kosten zu senken. Oder er konnte einfach nicht an IT-Spezialisten sparen.

Geiz mit der IT hat letztlich seinen Preis. TSB meldete 134 einen Verlust von 2018 Millionen US-Dollar, verglichen mit einem Gewinn von 206 Millionen US-Dollar im Jahr 2017. Die Kosten nach der Migration, einschließlich Kundenentschädigung, Korrektur betrügerischer Transaktionen (die während des Bankenchaos stark anstiegen) und Unterstützung durch Dritte, beliefen sich auf insgesamt 419 Millionen US-Dollar. Dem IT-Anbieter der Bank wurden für seine Rolle in der Krise außerdem 194 Millionen US-Dollar in Rechnung gestellt.

Unabhängig davon, welche Lehren aus der Pleite der TSB-Bank gezogen werden, wird es jedoch weiterhin zu Störungen kommen. Sie sind unvermeidlich. Aber durch Tests und guten Code können Abstürze und Ausfallzeiten erheblich reduziert werden. Cloud4Y, das häufig große Unternehmen bei der Migration zur Cloud-Infrastruktur unterstützt, weiß, wie wichtig es ist, schnell von einem System auf ein anderes umzusteigen. Daher können wir Lasttests durchführen und ein mehrstufiges Backup-System sowie andere Optionen verwenden, die es Ihnen ermöglichen, alles Mögliche zu überprüfen, bevor Sie mit der Migration beginnen.

Was können Sie sonst noch auf dem Blog lesen? Cloud4Y

Salzige Sonnenenergie
Pentester an der Spitze der Cybersicherheit
Die große Schneeflockentheorie
Internet auf Ballons
Werden in einem Rechenzentrum Kissen benötigt?

Abonnieren Sie unseren Telegram-Kanal, um den nächsten Artikel nicht zu verpassen! Wir schreiben höchstens zweimal pro Woche und nur geschäftlich.

Source: habr.com

Kommentar hinzufügen