Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur

D'ETL Komponent vum Datelager gëtt dacks vum Lager selwer iwwerschësseg a kritt manner Opmierksamkeet wéi d'Haaptdatenbank oder Front-End Komponent, BI a Berichterstattung. Zur selwechter Zäit, aus der Siicht vun der Mechanik fir de Lager mat Daten ze fëllen, spillt ETL eng Schlësselroll an erfuerdert net manner Opmierksamkeet vun Administrateuren wéi aner Komponenten. Mäin Numm ass Alexander, ech verwalten elo ETL bei Rostelecom, an an dësem Artikel probéieren ech e bëssen ze deelen wat den Administrateur vun engem vun de bekanntste ETL Systemer an engem groussen Datelager bei Rostelecom ze dinn huet.

Wann léif Lieser schonn allgemeng mat eisem Datelagerprojet a mam Informatica PowerCenter Produkt vertraut sinn, da kënnt Dir direkt op déi nächst Rubrik weidergoen.

Virun e puer Joer ass d'Iddi vun engem eenzege Firmendatenlager reift an huet ugefaang a Rostelecom ëmzesetzen. Eng Zuel vu Repositories, déi individuell Problemer geléist hunn, ware scho geschaf, awer d'Zuel vun den Szenarie ass gewuess, d'Ënnerstëtzungskäschte sinn och eropgaang, an et gouf kloer datt d'Zukunft an der Zentraliséierung läit. Architektonesch ass dëst d'Späichere selwer, besteet aus verschiddene Schichten, implementéiert op Hadoop a GreenPlum, Hëllefsdatenbanken, ETL Mechanismen a BI.

Zur selwechter Zäit, wéinst der grousser Zuel vu geographesch verdeelt, heterogen Datenquellen, gouf e speziellen Dateuploadmechanismus erstallt, deen d'Operatioun vun der Informatica kontrolléiert gëtt. Als Resultat kommen d'Datepakete am Hadoop Interface Beräich op, duerno fänken d'Prozesser vun der Luede vun Daten duerch Späicherschichten, Hadoop a GreenPlum un, a si gi vum sougenannten ETL Kontrollmechanismus verwalt, deen an Informatica implementéiert ass. Also ass den Informatica System ee vun de Schlësselelementer déi d'Operatioun vum Lager garantéiert.

Eis Lagerung gëtt méi detailléiert an engem vun de folgende Posts beschriwwen.

Informatica PowerCenter / Big Data Management gëtt de Moment als déi féierend Software am Beräich vun Datenintegratiounsinstrumenter ugesinn. Dëst ass e Produkt vun der amerikanescher Firma Informatica, déi ee vun de stäerkste Spiller an ETL (Extract Transform Load), Datequalitéitsmanagement, MDM (Master Data Management), ILM (Information Lifecycle Management) a méi ass.

De PowerCenter dee mir benotzen ass en integréierten Tomcat Applikatiounsserver an deem d'Informatica Uwendungen selwer lafen, hir Servicer implementéieren:

DomainTatsächlech ass dëst d'Basis fir alles anescht; Servicer, Benotzer a GRID Komponenten funktionnéieren am Domain.

Administrator Konsol, e Web-baséiert Gestiouns- an Iwwerwaachungsinstrument, nieft dem Informatica Developer Client, den Haaptinstrument fir mat dem Produkt ze interagéieren

MRS, Model Repository Service, e Metadatenrepository, ass eng Schicht tëscht der Datebank an där Metadaten kierperlech gespäichert sinn an dem Informatica Developer Client an deem d'Entwécklung stattfënnt. Repositories späicheren Datenbeschreiwungen an aner Informatioun, och fir eng Rei aner Infromatica-Servicer, zum Beispill Zäitplang fir Aufgaben (Schedules) oder Iwwerwaachungsdaten, souwéi Applikatiounsparameter, besonnesch, déi d'Benotzung vun der selwechter Applikatioun erlaben fir ze schaffen mat verschidden Datequellen an Empfänger.

DIS, Data Integratioun Service, dëst ass e Service an deem d'Haaptfunktionell Prozesser stattfannen, Uwendungen dra lafen an déi aktuell Starte vu Workflows (Beschreiwunge vun der Sequenz vun de Mappingen an hir Interaktiounen) a Mappings (Transformatiounen, Blocken an deenen d'Transformatiounen selwer optrieden, Datenveraarbechtung ) Huel Plaz.

GRID Konfiguratioun - am Wesentlechen, eng Optioun fir e Komplex mat verschiddene Serveren ze bauen, wann d'Laascht, déi vum DIS lancéiert gëtt, tëscht de Wirbelen verdeelt gëtt (dat ass Serveren déi Deel vum Domain sinn). Am Fall vun dëser Optioun, nieft der Verdeelung vun der Belaaschtung am DIS duerch eng zousätzlech GRID Abstraktiounsschicht déi verschidde Wirbelen verbënnt, op deenen DIS leeft anstatt op engem spezifeschen eenzegen Node ze schaffen, kënnen och zousätzlech Backup MRS Instanzen erstallt ginn. Dir kënnt souguer héich Disponibilitéit implementéieren, wou extern Uriff duerch Backupknäppchen gemaach kënne ginn, wann den Haaptfehler. Mir hunn dës Bauoptioun fir de Moment opginn.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Informatica PowerCenter, schematic

An de fréie Stadien vun der Aarbecht als Deel vun der Datenversuergungskette koumen regelméisseg Problemer, e puer vun hinnen wéinst der onbestänneger Operatioun vun Informatica zu där Zäit. Ech wäert e puer vun de memorablen Momenter vun dëser Saga deelen - Mastering Informatica 10.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Fréiere Informatica Logo

Eist Verantwortungsberäich enthält och aner Informatica Ëmfeld, si hunn hir eege Spezifizitéiten wéinst enger anerer Laascht, awer fir de Moment wäert ech mech erënneren wéi d'Informatica sech als ETL Komponent vum Datelager selwer entwéckelt huet.

Wéi ass dat geschitt

Am Joer 2016, wéi mir fir d'Aarbecht vun Informatica verantwortlech gi sinn, ass et schonn d'Versioun 10.0 erreecht, a fir optimistesch Kollegen, déi decidéiert hunn e Produkt mat enger klenger Versioun .0 an enger seriöer Léisung ze benotzen, war alles offensichtlech - mir musse benotzen déi nei Versioun! Aus der Siicht vun Hardware Ressourcen war alles gutt zu där Zäit.

Zënter dem Fréijoer 2016 ass en Optraghueler verantwortlech fir d'Aarbecht vun Informatica, an no de wéinege Benotzer vum System, "Et huet e puer Mol d'Woch geschafft." Hei ass et néideg ze klären datt de Repository de facto an der PoC Stadium war, et waren keng Administrateuren am Team an de System ass stänneg aus verschiddene Grënn erofgefall, duerno huet den Ingenieur vum Optraghueler et erëm opgeholl.

Am Hierscht sinn dräi Administrateuren an d'Team bäitrieden, hir Verantwortungsberäicher ënnerenee verdeelen, an normal Aarbecht huet ugefaang d'Operatioun vu Systemer am Projet ze organiséieren, dorënner Informatica. Separat muss et gesot ginn datt dëst Produkt net verbreet ass an eng grouss Gemeinschaft huet an där Dir Äntwerten op all Froen fannt an all Problem léisen. Dofir war voll technesch Ënnerstëtzung vum russesche Partner Informatica ganz wichteg, mat der Hëllef vun där all eis Feeler a Feeler vun der deemoleger jonker Informatica 10 korrigéiert goufen.

Déi éischt Saach, déi mir fir d'Entwéckler vun eisem Team an den Optraghueler misse maachen, war d'Aarbecht vun Informatica selwer ze stabiliséieren, fir d'Funktionalitéit vun der Webadministratiounskonsole (Informatica Administrator) ze garantéieren.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Dëst ass wéi mir dacks Informatica Entwéckler begéint hunn

Ofgesinn vum Prozess fir d'Grënn erauszefannen, war den Haaptgrond fir d'Accidenter d'Interaktiounsmuster vun der Informatica Software mat der Repository-Datebank, déi aus der Siicht vun der Netzlandschaft op engem relativ fernen Server läit. Dëst huet Verspéidungen verursaacht an d'Mechanismen gestéiert, déi den Zoustand vun der Informatica-Domain iwwerwaachen. No e puer Tuning vun der Datebank, Ännerung vun de Parameteren vun Informatica, déi et méi tolerant vun Datebank Verzögerungen gemaach huet, a schliisslech d'Informatica Versioun op 10.1 aktualiséieren an d'Datebank vum fréiere Server op e Server méi no bei Informatica transferéieren, huet de Problem seng verluer. Relevanz, an zënterhier goufen et esou Crashen, déi mir net beobachten.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Ee vun de Versuche fir den Informatica Monitor ze schaffen

D'Situatioun mat der Administratiounskonsole war och kritesch. Zënter datt d'aktiv Entwécklung direkt op dat relativ produktivt Ëmfeld amgaang ass, hunn d'Kollegen dauernd d'Aarbecht vu Mappingen a Workflow "ënnerwee" analyséiert. An der neier Informatica huet den Data Integration Service keen separaten Tool fir sou Iwwerwaachung, awer eng Iwwerwaachungssektioun ass an der Administratiounswebkonsole (Informatica Administrator Monitor) opgetaucht, an där Dir d'Operatioun vun Uwendungen, Workflow a Mappings iwwerwaache kënnt, lancéiert, Logbicher. Periodesch gouf d'Konsole komplett net verfügbar, oder d'Informatioun iwwer aktuell Prozesser am DIS huet opgehalen ze aktualiséieren, oder Feeler sinn geschitt beim Luede vu Säiten.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Selektioun vu Java Parameteren fir d'Performance ze stabiliséieren

De Problem gouf op vill Manéiere korrigéiert, Experimenter goufen duerchgefouert fir Parameteren z'änneren, Logbicher an jstack goufen gesammelt, geschéckt fir ze ënnerstëtzen, gläichzäiteg gouf et aktiv Googelen an einfach Observatioun.

Als éischt gouf eng separat MRS fir d'Iwwerwaachung erstallt; wéi et spéider erausgestallt gouf, ass dëst ee vun den Haaptverbraucher vu Ressourcen an eisem Ëmfeld, well d'Mappings ganz intensiv lancéiert ginn. Parameteren betreffend Java Heap an eng Rei vun aneren goufen geännert.
Als Resultat, duerch den nächsten Update Informatica 10.1.1, ass d'Operatioun vun der Konsole an dem Monitor stabiliséiert, d'Entwéckler hunn ugefaang méi effizient ze schaffen, a regelméisseg Prozesser ginn ëmmer méi reegelméisseg.

D'Erfahrung vun der Interaktioun tëscht Entwécklung an Administratioun kann interessant sinn. D'Fro vun engem allgemenge Verständnis vu wéi d'Saache funktionnéieren, wat ka gemaach ginn a wat net gemaach ka ginn, ass ëmmer wichteg wann Dir komplex Systemer benotzt. Dofir kënne mir sécher recommandéieren, datt Dir éischt d'Verwaltungsteam trainéiert wéi d'Software verwalten, an d'Entwécklungsteam wéi Dir Code schreift an d'Prozesser am System zéien, an nëmmen dann déi éischt an zweet schécken fir un d'Resultat ze schaffen. Dëst ass wierklech wichteg wann Zäit net eng onendlech Ressource ass. Vill Problemer kënne souguer duerch eng zoufälleg Sich vun Optiounen geléist ginn, awer heiansdo erfuerderen e puer a priori Wëssen - eise Fall bestätegt d'Wichtegkeet vun dësem Axiom ze verstoen.

Zum Beispill, wa mir probéiert hunn d'Versionéierung am MRS z'aktivéieren (wéi et sech um Enn erausstellt, eng aner Versioun vum SVN war néideg), no enger Zäit ware mir alarméiert fir ze entdecken datt d'System Neistartzäit op e puer Zénger vu Minutten eropgaang ass. Nodeems mir de Grond fir d'Verspéidung am Start fonnt hunn an d'Versionéierung auszeschalten, hu mir et erëm gutt gemaach.

Notabele Hindernisser verbonne mat Informatica enthalen déi epesch Schluecht mat wuessende Java Threads. Irgendwann ass d'Zäit fir d'Replikatioun komm, dat heescht, d'etabléiert Prozesser op eng grouss Zuel vu Quellsystemer ze verlängeren. Et huet sech erausgestallt datt net all Prozesser am 10.1.1 gutt geschafft hunn, an no enger Zäit gouf DIS inoperabel. Zéngdausende vun Threads goufen entdeckt, hir Zuel wiisst besonnesch bemierkenswäert wärend der Uwendungsdeployment Prozedur. Heiansdo hunn ech e puer Mol am Dag missen nei starten fir d'Funktionalitéit ze restauréieren.

Hei musse mer der Ënnerstëtzung Merci soen; d'Problemer goufen lokaliséiert a relativ séier mat EBF (Emergency Bug Fix) fixéiert - duerno huet jiddereen d'Gefill datt den Tool wierklech funktionnéiert.

Et funktionnéiert nach ëmmer!

Wéi mir ugefaang hunn am Zilmodus ze schaffen, huet Informatica esou ausgesinn. Versioun vun Informatica 10.1.1HF1 (HF1 ass HotFix1, e Verkeefer Assemblée aus engem Komplex vun EBFs) mat zousätzlech installéiert EBF, déi eis Problemer mat Skaléieren an e puer anerer korrigéiert, op engem Server vun dräi, déi Deel vun GRID waren, 20 x86_64 Cores a Lagerung, op enger riseger lueser Palette vu lokalen Disken - dëst ass d'Serverkonfiguratioun fir en Hadoop Cluster. Op engem aneren ähnlechen Server - den Oracle DBMS mat deem souwuel d'Informatica Domain an den ETL Kontrollmechanismus funktionnéieren. All dëst gëtt iwwerwaacht duerch Standard Iwwerwachungsinstrumenter, déi am Team benotzt ginn (Zabbix + Grafana) op béide Säiten - Informatica selwer mat senge Servicer, an d'Laaschtprozesser déi an et ginn. Elo souwuel d'Performance wéi d'Stabilitéit, ouni extern Faktoren ze berücksichtegen, hänkt elo vun den Astellungen of, déi d'Laascht limitéieren.

Separat kënne mir iwwer GRID soen. D'Ëmfeld gouf op dräi Wirbelen gebaut, mat der Méiglechkeet vun der Belaaschtung. Wéi och ëmmer, wärend dem Test gouf entdeckt datt wéinst Interaktiounsproblemer tëscht de Lafen Instanzen vun eisen Uwendungen dës Konfiguratioun net funktionnéiert wéi erwaart, a si hunn decidéiert dës Konstruktiounsschema temporär opzeginn, zwee vun den dräi Noden aus dem Domain ze läschen. Zur selwechter Zäit ass de Schema selwer d'selwecht bliwwen, an elo ass et e GRID Service, awer degeneréiert zu engem Node.

Momentan bleift d'Schwieregkeet mat engem Réckgang vun der Leeschtung verbonne wann Dir de Monitorkrees regelméisseg botzt - mat simultane Prozesser am CNN a lafend Botzen, Feelfunktioune bei der Operatioun vum ETL Kontrollmechanismus kënnen optrieden. Dëst gëtt am Moment geléist "als Crutch" - andeems de Monitorschaltung manuell geläscht gëtt, mam Verloscht vun all sengen fréieren Donnéeën. Dëst ass net ze kritesch fir d'Produktivitéit, während der normaler Routine Operatioun, awer fir de Moment ass eng Sich no enger normaler Léisung amgaang.

En anere Problem entsteet aus dëser selwechter Situatioun - heiansdo geschéien multiple Starte vun eisem Kontrollmechanismus.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Multiple Applikatioun lancéiert féiert zu Mechanismus Echec

Wann Dir no engem Zäitplang leeft, an Zäite vu schwéierer Belaaschtung op de System, kommen heiansdo Situatiounen op, déi zu engem Decompte vum Mechanismus féieren. De Problem gëtt nach ëmmer manuell fixéiert, an eng permanent Léisung gëtt gesicht.

Am Allgemengen kënne mir zesummefaassen datt wann et eng schwéier Belaaschtung ass, et ganz wichteg ass Ressourcen adäquat dofir ze bidden, dëst gëllt och fir Hardware Ressourcen fir Informatica selwer, an datselwecht fir seng Datebankrepository, souwéi fir optimal Astellungen ze bidden. fir hinnen. Zousätzlech bleift d'Fro op wéi eng Datebankplazéierungsschema besser ass - op engem getrennten Host, oder op deemselwechte wou d'Informatica Software leeft. Engersäits wäert et op engem Server méi bëlleg sinn, a wann et kombinéiert gëtt, gëtt de méigleche Problem mat der Netzwierkinteraktioun praktesch eliminéiert; op der anerer Säit gëtt d'Laascht op den Host vun der Datebank ergänzt duerch d'Laascht vun Informatica.

Wéi mat all sérieux Produkt huet Informatica och witzeg Momenter.
Eemol, wärend ech eng Aart Accident auszortéieren, hunn ech gemierkt datt d'MRS Logbicher komesch d'Zäit vun den Eventer uginn.

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Temporal Dualismus a MRS Logbicher "vum Design"

Et huet sech erausgestallt, datt Zäitstempel am 12-Stonne-Format geschriwwe sinn, ouni AM/PM ze spezifizéieren, dat heescht virun Mëttes oder no. Eng Applikatioun gouf souguer iwwer dës Saach opgemaach, an eng offiziell Äntwert gouf kritt - dat ass wéi et geduecht war, d'Marken sinn am MRS-Log an genau dësem Format geschriwwen. Dat ass, heiansdo bleift et e puer Intrig iwwer d'Zäit vum Optriede vun e puer FEELER ...

Striewen fir dat Bescht

Haut ass Informatica e zimlech stabilt Tool, praktesch fir Administrateuren a Benotzer, extrem mächteg wat seng aktuell Fäegkeeten a Potenzial ugeet. Et iwwerschreift eis funktionell Bedierfnesser vill Mol an de facto gëtt elo am Projet benotzt op eng Manéier déi net déi typesch an typesch ass. D'Schwieregkeeten sinn deelweis verbonne mat der Aart a Weis wéi d'Mechanismen funktionnéieren - déi spezifesch Saach ass datt an enger kuerzer Zäit eng grouss Zuel vu Threads lancéiert ginn, déi intensiv Parameteren aktualiséieren a mat der Repository Datebank schaffen, während d'Server Hardware Ressourcen bal komplett genotzt ginn. vun der CPU.

Mir sinn elo no bei Informatica 10.2.1 oder 10.2.2 ze plënneren, déi e puer vun den internen Mechanismen ëmgebaut hunn an Ënnerstëtzung verspriechen fir e puer vun de Performance- a Funktionalitéitsprobleemer ze eliminéieren déi mir am Moment hunn. A vun engem Hardware Siicht erwaarden mir Serveren mat enger optimaler Konfiguratioun fir eis, andeems Dir d'Reserve fir d'nächst Zukunft berécksiichtegt wéinst dem Wuesstum an der Entwécklung vun der Späichere.

Natierlech gëtt et Testen, Kompatibilitéitsprüfung, a méiglecherweis architektonesch Ännerungen am HA GRID Deel. D'Entwécklung bannent Informatica wäert weidergoen, well mir kuerzfristeg näischt zur Ersetzen vum System kënne liwweren.
An déi, déi an Zukunft fir dëse System verantwortlech sinn, wäerten definitiv fäeg sinn et op déi erfuerderlech Zouverlässegkeet an d'Leeschtungsindikatoren ze bréngen, déi vu Cliente virgestallt ginn.

Den Artikel gouf vum Rostelecom Datemanagement Team virbereet

Vun alldeeglechen Accidenter op Stabilitéit: Informatica 10 duerch d'Ae vun engem Administrateur
Aktuelle Informatica Logo

Source: will.com

Setzt e Commentaire