Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik

Datu biltegiaren ETL osagaia biltegiak berak itzaltzen du sarritan eta datu-base edo front-end osagai nagusiak, BI eta txostenak baino arreta gutxiago jasotzen du. Aldi berean, biltegia datuz betetzeko mekanikaren ikuspuntutik, ETL-k funtsezko eginkizuna betetzen du eta ez die administratzaileei beste osagai batzuek baino arreta gutxiago eskatzen. Nire izena Alexander da, orain ETL administratzen dut Rostelecom-en, eta artikulu honetan Rostelecom-en datu biltegi handi bateko ETL sistema ospetsuenetako baten administratzaileak aurre egin behar dionaren apur bat partekatzen saiatuko naiz.

Irakurle maiteak, oro har, gure datu biltegiaren proiektua eta Informatica PowerCenter produktua ezagutzen badituzu, berehala joan zaitezke hurrengo atalera.

Duela urte batzuk, datu-biltegi korporatibo bakarraren ideia heldu zen eta Rostelecom-en ezartzen hasi zen. Banakako arazoak konpontzen zituzten biltegi batzuk sortu ziren jada, baina eszenatoki kopurua hazi zen, laguntza-kostuak ere handitu ziren, eta argi geratu zen etorkizuna zentralizazioan zegoela. Arkitektorikoki, biltegiratze bera da, hainbat geruzaz osatua, Hadoop eta GreenPlum-en inplementatuta, datu-base laguntzaileak, ETL mekanismoak eta BI.

Aldi berean, geografikoki banatutako datu-iturri heterogeneo ugarien ondorioz, datuak igotzeko mekanismo berezi bat sortu zen, eta horren funtzionamendua Informatica-k kontrolatzen du. Ondorioz, datu-paketeak Hadoop interfaze-eremuan amaitzen dira, eta, ondoren, biltegiratze-geruzen bidez datuak kargatzeko prozesuak hasten dira, Hadoop eta GreenPlum, eta Informatican inplementatutako ETL kontrol-mekanismo deritzonaren bidez kudeatzen dira. Horrela, Informatica sistema biltegiaren funtzionamendua bermatzen duen funtsezko elementuetako bat da.

Gure biltegiratzea zehatzago deskribatuko da hurrengo mezuetako batean.

Informatica PowerCenter/Big Data Management gaur egun datuen integrazio tresnen arloan software lidertzat hartzen da. Informatica konpainia estatubatuarraren produktua da, hau da, ETL (Extract Transform Load), datuen kalitatearen kudeaketa, MDM (Master Data Management), ILM (Information Lifecycle Management) eta abarretako eragilerik indartsuenetako bat.

Erabiltzen dugun PowerCenter Tomcat aplikazio-zerbitzari integratua da eta bertan Informatica aplikazioak beraiek exekutatzen dituzte, bere zerbitzuak ezarriz:

domeinuIzan ere, hori da gainerako guztiaren oinarria; zerbitzuek, erabiltzaileek eta GRID osagaiek domeinuaren barruan funtzionatzen dute.

Administratzailearen kontsola, web-oinarritutako kudeaketa eta monitorizazio tresna bat, Informatica Developer bezeroaz gain, produktuarekin elkarreragiteko tresna nagusia.

MRS, Ereduen Biltegi Zerbitzua, metadatuen biltegia, metadatuak fisikoki gordetzen diren datu-basearen eta garapena egiten ari den Informatica Developer bezeroaren arteko geruza bat da. Biltegietan datuen deskribapenak eta beste informazio batzuk gordetzen dira, besteak beste, beste Infromatica zerbitzu batzuetarako, adibidez, zereginak exekutatzeko programazioak (Ordutegiak) edo jarraipena egiteko datuak, baita aplikazio parametroak ere, bereziki, aplikazio bera erabiltzeko aukera ematen dutenak. hainbat datu-iturri eta hartzaile.

DIS, Datuak Integratzeko Zerbitzua, prozesu funtzional nagusiak, bertan exekutatzen diren aplikazioak eta Workflow-en (mapeen sekuentziaren deskribapenak eta haien elkarrekintzen deskribapenak) eta Mappings (eraldaketak, eraldaketak beraiek gertatzen diren blokeak, datuen tratamendua) egiten diren zerbitzu bat da. ) gauzatu.

GRID konfigurazioa – funtsean, hainbat zerbitzari erabiliz konplexu bat eraikitzeko aukera, DISek abiarazitako karga nodoen artean banatzen denean (hau da, domeinuaren parte diren zerbitzariak). Aukera honen kasuan, hainbat nodo batzen dituen GRID abstrakzio geruza gehigarri baten bidez DIS-en karga banatzeaz gain, zeinetan DIS nodo bakar batean lan egin beharrean exekutatzen den, babeskopiko MRS instantzia osagarriak ere sor daitezke. Erabilgarritasun handia ere ezar dezakezu, non kanpoko deiak egin daitezkeen babeskopiko nodoen bidez nagusiak huts egiten badu. Eraikuntza aukera hori alde batera utzi dugu oraingoz.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Informatica PowerCenter, eskema

Datuen hornikuntza-katearen parte gisa lanaren hasierako faseetan, arazoak aldian-aldian sortzen ziren, horietako batzuk Informaticaren funtzionamendu ezegonkorra zela eta. Saga honetako une gogoangarri batzuk partekatuko ditut - Informatica 10 menderatzea.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Informatica-ren logotipo ohia

Gure ardura-eremuak Informatica beste ingurune batzuk ere barne hartzen ditu, beren berezitasunak dituzte beste karga baten ondorioz, baina oraingoz gogoratuko dut nola garatu zen Informatica datu biltegiaren beraren ETL osagai gisa.

Nola gertatu zen hau

2016an, Informaticaren lanaren arduradun bihurtu ginenean, jada 10.0 bertsiora iritsi zen, eta .0 bertsio txikiko produktu bat irtenbide serio batean erabiltzea erabakitzen zuten lankide baikorrentzat, dena begi-bistakoa zirudien - erabili behar dugu. bertsio berria! Hardware baliabideen ikuspuntutik, dena ondo zegoen garai hartan.

2016ko udaberritik, kontratista bat arduratzen da Informaticako lanaz, eta sistemaren erabiltzaile gutxi batzuen arabera, Β«astean pare bat aldiz egiten zuen lanΒ». Hemen argitu behar da biltegia de facto izan zela PoC fasean, ez zegoen administratzailerik taldean eta sistema etengabe huts egin zela hainbat arrazoirengatik, eta ondoren kontratistaren ingeniariak berriro jaso zuen.

Udazkenean hiru administrari sartu ziren taldean, euren ardura-eremuak euren artean banatuz, eta lan arrunta hasi zen proiektuko sistemen funtzionamendua antolatzeko, Informatica barne. Bereizita, esan beharra dago produktu hau ez dagoela hedatuta eta komunitate zabala duela, non edozein galderari erantzunak aurkitu eta edozein arazo konpontzeko. Hori dela eta, Informatica Errusiako bazkidearen laguntza tekniko osoa oso garrantzitsua izan zen, eta horren laguntzarekin Informatica 10 gaztearen gure akats eta akats guztiak zuzendu ziren.

Gure taldeko garatzaileentzat eta kontratistarentzat egin behar izan genuen lehenengo gauza Informaticaren beraren lana egonkortzea izan zen, web administrazio kontsolaren (Informatica Administrator) funtzionaltasuna bermatzeko.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Horrela ezagutu genuen askotan Informatica garatzaileak

Arrazoiak ezagutzeko prozesua alde batera utzita, hutsegiteen arrazoi nagusia Informatica softwareak biltegiko datu-basearekin duen interakzio-eredua izan zen, urrun samarreko zerbitzari batean kokatuta zegoena, sarearen paisaiaren ikuspuntutik. Horrek atzerapenak eragin zituen eta Informatica domeinuaren egoera kontrolatzen duten mekanismoak eten zituen. Datu-basea zenbait sintonizatu ondoren, Informatica-ren parametroak aldatu ondoren, datu-basearen atzerapenekiko tolerantzia handiagoa izan zelarik, eta azkenean Informatica bertsioa 10.1era eguneratu eta datu-basea aurreko zerbitzaritik Informaticatik gertuago dagoen zerbitzari batera transferitu ondoren, arazoa galdu egin zen. garrantzia, eta harrezkero antzematen ez ditugun mota honetako istripuak izan dira.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Informatica Monitor funtzionatzeko saiakeretako bat

Administrazio kontsolaren egoera ere larria zen. Garapen aktiboa ingurune produktibo samarrean zuzenean abian zegoenez, lankideek etengabe aztertu behar zuten mapak eta lan-fluxua "noranahi". Informatica berrian, Datuak Integratzeko Zerbitzuak ez du aparteko tresnarik monitorizazio hori egiteko, baina administrazioaren web kontsolan monitorizazio atal bat agertu da (Informatica Administrator Monitor), eta bertan aplikazioen, lan-fluxuen eta mapeen funtzionamendua kontrolatu ahal izango duzu. abiarazteak, erregistroak. Aldian-aldian, kontsola ez zegoen guztiz erabilgarri, edo DIS-en uneko prozesuei buruzko informazioa eguneratzeari uzten zitzaion, edo akatsak gertatu ziren orriak kargatzean.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Errendimendua egonkortzeko java parametroak hautatzea

Arazoa modu askotan zuzendu zen, parametroak aldatzeko esperimentuak egin ziren, log-ak eta jstack-a bildu, laguntzara bidali ziren, aldi berean, Google-n aktiboa zegoen eta behaketa besterik ez zen.

Lehenik eta behin, monitorizaziorako MRS bereizi bat sortu zen; geroago ikusi zenez, gure inguruneko baliabideen kontsumitzaile nagusietako bat da, kartografiak oso intentsiboki abian jartzen baitira. Java heap eta beste hainbat parametroak aldatu dira.
Ondorioz, Informatica 10.1.1 hurrengo eguneraketaren arabera, kontsolaren eta monitorearen funtzionamendua egonkortu zen, garatzaileak modu eraginkorragoan lan egiten hasi ziren eta ohiko prozesuak gero eta erregularagoak ziren.

Garapenaren eta administrazioaren arteko elkarrekintzaren esperientzia interesgarria izan daiteke. Gauzak nola funtzionatzen duten, zer egin daitekeen eta zer egin ezin den ulertzeko gaia beti da garrantzitsua sistema konplexuak erabiltzean. Hori dela eta, segurtasunez gomendatzen dizugu lehenik administrazio-taldea trebatzea softwarea nola administratu eta garapen-taldea sisteman kodea idazteko eta prozesuak marrazteko moduari buruz trebatzea, eta ondoren lehenengoa eta bigarrena bidaltzea emaitza lantzeko. Hau benetan garrantzitsua da denbora baliabide infinitua ez denean. Arazo asko konpon daitezke aukerak ausaz bilatuz ere, baina batzuetan batzuk a priori ezagutza eskatzen dute - gure kasuak axioma hau ulertzearen garrantzia baieztatzen du.

Adibidez, MRS-en bertsioa gaitzen saiatu ginenean (azkenean SVNren beste bertsio bat behar zela ikusi zenez), denbora pixka bat igaro ondoren, sistema berrabiarazteko denbora hainbat hamarnaka minutura handitu zela ohartu ginen. Hasieran atzerapenaren arrazoia aurkitu eta bertsioa desgaitu ondoren, ondo egin genuen berriro.

Informatica-rekin lotutako oztopo aipagarrien artean, java hari hazten ari den borroka epikoa da. Noizbait, erreplikatzeko garaia iritsi da, hau da, ezarritako prozesuak iturri-sistema ugaritara zabaltzeko. Agertu zen 10.1.1-ko prozesu guztiek ez zutela ondo funtzionatu, eta denboraren buruan DIS funtzionatu gabe geratu zen. Hamarnaka mila hari detektatu ziren, eta haien kopurua nabarmen hazi zen aplikazioa zabaltzeko prozeduran. Batzuetan, egunean hainbat aldiz berrabiarazi behar izaten nuen funtzionaltasuna berreskuratzeko.

Hemen laguntza eskertu behar dugu; arazoak nahiko azkar lokalizatu eta konpondu ziren EBF (Emergency Bug Fix) erabiliz; ondoren, denek tresnak benetan funtzionatzen duela uste zuten.

Oraindik funtzionatzen du!

Helburu moduan lanean hasi ginenerako, Informatica itxura hau zuen. Informatica 10.1.1HF1 bertsioa (HF1 HotFix1 da, EBF konplexu bateko hornitzaileen muntaia) EBF instalatuta duena, eskalatzeko ditugun arazoak eta beste batzuk zuzentzen dituena, GRID-en parte ziren hirutik zerbitzari batean, 20 x86_64 nukleoetan. eta biltegiratzea, tokiko diskoen sorta motel handi batean - hau da Hadoop kluster baten zerbitzariaren konfigurazioa. Antzeko beste zerbitzari batean: Informatica domeinuak eta ETL kontrol-mekanismoak lan egiten duten Oracle DBMSan. Hori guztia taldean erabiltzen diren monitorizazio tresna estandarrek (Zabbix + Grafana) bi aldeetan kontrolatzen dute - Informatica bera bere zerbitzuekin, eta bertan sartzen diren karga-prozesuak. Orain errendimendua eta egonkortasuna, kanpoko faktoreak kontuan hartu gabe, orain karga mugatzen duten ezarpenen araberakoak dira.

Bereiz, GRID-i buruz esan dezakegu. Ingurunea hiru nodotan eraiki zen, karga orekatzeko aukerarekin. Hala ere, probak egin bitartean, gure aplikazioen exekutatzen ari diren instantzien arteko interakzio arazoak zirela eta, konfigurazio honek ez zuela espero bezala funtzionatu, eta eraikuntza-eskema hau aldi baterako bertan behera uztea erabaki zuten, hiru nodoetatik bi domeinutik kenduz. Aldi berean, eskema bera mantendu da, eta orain, hain zuzen, GRID zerbitzu bat da, baina nodo batean endekatua.

Oraintxe bertan, zailtasunak monitorearen zirkuitua aldizka garbitzean errendimenduaren jaitsierarekin jarraitzen du - CNNn aldi bereko prozesuekin eta garbiketa martxan jarrita, ETL kontrol mekanismoaren funtzionamenduan akatsak gerta daitezke. Une honetan "makulu gisa" konpontzen ari da: monitorearen zirkuitua eskuz garbituz, aurreko datu guztiak galduz. Hau ez da oso kritikoa produktibitaterako, ohiko funtzionamendu arruntean, baina oraingoz irtenbide normal baten bilaketa abian da.

Egoera honetatik beste arazo bat sortzen da - batzuetan gure kontrol-mekanismoaren abiarazte anitz gertatzen dira.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Aplikazio anitz abiarazteko mekanismoak hutsegitea eragiten du

Ordutegi baten arabera exekutatzen denean, sisteman karga handia dagoen uneetan, batzuetan mekanismoa matxura dakarten egoerak gertatzen dira. Arazoa eskuz konpontzen ari da oraindik, eta irtenbide iraunkor bat bilatzen ari da.

Oro har, laburbildu dezakegu karga handia dagoenean oso garrantzitsua dela hari baliabide egokiak eskaintzea, hau Informatica beraren hardware-baliabideei ere aplikatzen zaie, eta berdin bere datu-baseen biltegirako, baita ezarpen optimoak eskaintzeko ere. haientzat. Horrez gain, galdera zabalik dago zein den hobea datu-basea kokatzeko eskema: ostalari bereizi batean edo Informatica softwarea exekutatzen den berean. Alde batetik, zerbitzari batean merkeagoa izango da, eta, konbinatuta, sare-interakzioarekin izan dezakeen arazoa ia ezabatzen da; bestetik, ostalariaren karga datu-basetik Informatica-ko kargarekin osatzen da.

Edozein produktu seriotan bezala, Informaticak ere une dibertigarriak ditu.
Behin, istripu motaren bat konpontzen ari nintzela, ohartu nintzen MRS erregistroek gertaeren ordua arraro adierazten zutela.

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
MRS erregistroetan denborazko dualismoa "diseinuz"

Agertu zen ordu-zigiluak 12 orduko formatuan idazten direla, AM/PM zehaztu gabe, hau da, eguerdi aurretik edo ondoren. Aplikazio bat ere ireki zen gai honi buruz, eta erantzun ofiziala jaso zen - horrela nahi zen, markak MRS erregistroan formatu honetan idazten dira. Hau da, batzuetan ERROREren bat gertatu den uneari buruzko intriga bat geratzen da...

Ahalegin onena lortzeko

Gaur egun, Informatica nahiko tresna egonkorra da, administratzaileentzat eta erabiltzaileentzat erosoa, oso indartsua egungo gaitasun eta potentzialari dagokionez. Gure behar funtzionalak askotan gainditzen ditu eta de facto orain proiektuan erabiltzen ari da ohikoena eta tipikoena ez den moduan. Zailtasunak neurri batean mekanismoen funtzionamenduarekin lotuta daude - gauza zehatza da denbora-tarte laburrean parametroak intentsiboki eguneratzen dituzten eta biltegiko datu-basearekin lan egiten duten hari kopuru handia abiarazten dela, zerbitzariaren hardware-baliabideak ia erabat erabiltzen diren bitartean. CPUaren bidez.

Orain Informatica 10.2.1 edo 10.2.2ra pasatzeko gertu gaude, barne-mekanismo batzuk eta laguntza-promesak berritu baititu gaur egun ditugun errendimendu- eta funtzionaltasun-arazo batzuk ezabatzeko. Eta hardwarearen ikuspuntutik, guretzat konfigurazio optimoa duten zerbitzariak espero ditugu, etorkizun hurbilerako erreserba kontuan hartuta biltegiratzearen hazkundearen eta garapenaren ondorioz.

Noski, HA GRID zatian probak, bateragarritasuna egiaztatzea eta agian aldaketa arkitektonikoak egongo dira. Informatica barruan garatzen jarraituko du, epe laburrean ezin baitugu ezer hornitu sistema ordezkatzeko.
Eta etorkizunean sistema honen ardura izango dutenek, zalantzarik gabe, bezeroek proposatutako fidagarritasun- eta errendimendu-adierazleetara eraman ahal izango dute.

Artikulua Rostelecom datuen kudeaketa taldeak prestatu du

Eguneroko istripuetatik egonkortasunera: Informatica 10 administratzaile baten begietatik
Gaur egungo Informatica logotipoa

Iturria: www.habr.com

Gehitu iruzkin berria