Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda

ETL hluti gagnageymslunnar er oft í skugga vöruhússins sjálfs og fær minni athygli en aðalgagnagrunnurinn eða framhliðarhlutinn, BI og skýrslur. Á sama tíma, frá sjónarhóli vélfræðinnar við að fylla vöruhúsið af gögnum, gegnir ETL lykilhlutverki og krefst ekki minni athygli frá stjórnendum en aðrir hlutir. Ég heiti Alexander, ég er nú með umsjón með ETL hjá Rostelecom og í þessari grein mun ég reyna að deila örlítið af því sem stjórnandi eins frægasta ETL kerfisins í stóru gagnavöruhúsi hjá Rostelecom þarf að takast á við.

Ef kæru lesendur eru nú þegar almennt kunnugir gagnavöruhúsaverkefninu okkar og Informatica PowerCenter vörunni, þá geturðu strax farið í næsta hluta.

Fyrir nokkrum árum þroskaðist hugmyndin um eitt fyrirtækisgagnageymslu og byrjaði að innleiða hana í Rostelecom. Nokkrar geymslur sem leystu einstök vandamál voru þegar búnar til, en sviðsmyndum fjölgaði, stuðningskostnaður jókst einnig og ljóst var að framtíðin lá í miðstýringu. Byggingarfræðilega séð er þetta geymslan sjálf, sem samanstendur af nokkrum lögum, útfærð á Hadoop og GreenPlum, aukagagnagrunna, ETL kerfi og BI.

Á sama tíma, vegna mikils fjölda landfræðilega dreifðra, ólíkra gagnagjafa, var búið til sérstakt gagnaupphleðslukerfi, sem er stjórnað af Informatica. Fyrir vikið lenda gagnapakkar á Hadoop viðmótssvæðinu, eftir það hefjast ferlar við að hlaða gögnum í gegnum geymslulög, Hadoop og GreenPlum, og þeim er stýrt af svokölluðu ETL stýrikerfi sem er útfært í Informatica. Þannig er Informatica kerfið einn af lykilþáttunum sem tryggir rekstur vöruhússins.

Geymslu okkar verður lýst nánar í einni af eftirfarandi færslum.

Informatica PowerCenter/Big Data Management er í dag talinn leiðandi hugbúnaður á sviði gagnasamþættingartækja. Um er að ræða afurð bandaríska fyrirtækisins Informatica sem er einn af sterkustu aðilunum í ETL (Extract Transform Load), gagnagæðastjórnun, MDM (Master Data Management), ILM (Information Lifecycle Management) og fleira.

PowerCenter sem við notum er samþættur Tomcat forritaþjónn þar sem Informatica forritin sjálf keyra og útfæra þjónustu sína:

lén, í raun er þetta grunnurinn að öllu öðru; þjónusta, notendur og GRID íhlutir starfa innan lénsins.

Stjórnborði, vefbundið stjórnunar- og eftirlitstæki, auk Informatica Developer viðskiptavinur, aðalverkfærið til að hafa samskipti við vöruna

MRS, Model Repository Service, lýsigagnageymsla, er lag á milli gagnagrunnsins sem lýsigögn eru geymd í og ​​Informatica Developer biðlarans þar sem þróun á sér stað. Geymslur geyma gagnalýsingar og aðrar upplýsingar, þar á meðal fyrir fjölda annarra Infromatica þjónustu, til dæmis tímaáætlun fyrir hlaupandi verkefni (áætlanir) eða eftirlitsgögn, svo og forritabreytur, sérstaklega, sem leyfa notkun sama forrits til að vinna með ýmsar gagnagjafar og móttakara.

DIS, Gagnasamþættingarþjónusta, þetta er þjónusta þar sem helstu virkniferlarnir eiga sér stað, forrit keyra í henni og raunverulegar ræsingar á verkflæði (lýsingum á röð kortlagninga og samskiptum þeirra) og kortlagningum (umbreytingar, blokkir þar sem umbreytingarnar sjálfar eiga sér stað, gagnavinnsla ) fara fram.

GRID stillingar - í meginatriðum, valkostur til að byggja upp flókið með því að nota nokkra netþjóna, þegar álagið sem DIS er hleypt af stokkunum er dreift á milli hnútanna (þ.e. netþjóna sem eru hluti af léninu). Þegar um er að ræða þennan valkost, auk þess að dreifa álaginu í DIS í gegnum viðbótar GRID abstraktlag sem sameinar nokkra hnúta, sem DIS keyrir á í stað þess að vinna á tilteknum einum hnút, er einnig hægt að búa til viðbótar öryggisafrit af MRS tilvikum. Þú getur jafnvel útfært mikið framboð, þar sem hægt er að hringja utanaðkomandi símtöl í gegnum varahnúta ef sá helsti bilar. Við höfum horfið frá þessum byggingarkosti í bili.

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Informatica PowerCenter, skýringarmynd

Á fyrstu stigum vinnu sem hluti af gagnabirgðakeðjunni komu reglulega upp vandamál, sum þeirra vegna óstöðugs starfsemi Informatica á þeim tíma. Ég ætla að deila nokkrum af eftirminnilegum augnablikum þessarar sögu - að ná tökum á Informatica 10.

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Fyrrum lógó Informatica

Ábyrgðarsvið okkar nær einnig yfir önnur Informatica umhverfi, þau hafa sínar eigin sérstöðu vegna mismunandi álags, en í bili mun ég muna nákvæmlega hvernig Informatica þróaðist sem ETL hluti af gagnageymslunni sjálfu.

Hvernig gerðist þetta

Árið 2016, þegar við tókum ábyrgð á starfi Informatica, var það þegar komið í útgáfu 10.0 og fyrir bjartsýna samstarfsmenn sem voru að ákveða að nota vöru með minni útgáfu .0 í alvarlegri lausn, virtist allt augljóst - við þurfum að nota nýja útgáfan! Frá sjónarhóli vélbúnaðarauðlinda var allt í lagi á þeim tíma.

Frá vori 2016 hefur verktaki verið ábyrgur fyrir starfi Informatica og að sögn fárra notenda kerfisins „virkaði það nokkrum sinnum í viku“. Hér er nauðsynlegt að skýra að geymslan var í reynd á PoC stigi, engir stjórnendur voru í teyminu og kerfið hrundi stöðugt af ýmsum ástæðum, eftir það tók verkfræðingur verktaka það upp aftur.

Í haust bættust þrír stjórnendur í hópinn sem skiptu ábyrgðarsviðum sín á milli og hófst eðlileg vinna við að skipuleggja rekstur kerfa í verkefninu, þar á meðal Informatica. Sérstaklega verður að segjast að þessi vara er ekki útbreidd og hefur stórt samfélag þar sem þú getur fundið svör við öllum spurningum og leyst hvaða vandamál sem er. Þess vegna var fullur tæknilegur stuðningur frá rússneska samstarfsaðilanum Informatica mjög mikilvægur, með hjálpinni voru allar villur okkar og villur hins þá unga Informatica 10 leiðréttar.

Það fyrsta sem við þurftum að gera fyrir þróunaraðila teymis okkar og verktaka var að koma á stöðugleika í starfi Informatica sjálfrar, til að tryggja virkni vefstjórnborðsins (Informatica Administrator).

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Þannig hittum við oft Informatica forritara

Sé sleppt ferlinu við að finna út ástæðurnar, var aðalástæðan fyrir hrununum samskiptamynstur Informatica hugbúnaðarins við gagnagrunn geymslunnar, sem var staðsettur á tiltölulega afskekktum netþjóni, frá sjónarhóli netlandslagsins. Þetta olli töfum og truflaði kerfin sem fylgjast með ástandi Informatica lénsins. Eftir smá lagfæringu á gagnagrunninum, breytingu á breytum Informatica, sem gerði hann þolnari fyrir töfum í gagnagrunni, og að lokum uppfærsla Informatica útgáfunnar í 10.1 og flutning gagnagrunnsins frá fyrri netþjóni yfir á netþjón sem staðsettur var nær Informatica, missti vandamálið. mikilvægi, og síðan þá hafa orðið hrun af þessu tagi sem við fylgjumst ekki með.

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Ein af tilraununum til að fá Informatica Monitor til að virka

Ástandið með stjórnborðið var einnig mikilvægt. Þar sem virk þróun var í gangi beint á tiltölulega afkastamiklu umhverfinu þurftu samstarfsmenn stöðugt að greina vinnu korta og vinnuflæðis „á ferðinni“. Í nýju Informatica er Gagnasamþættingarþjónustan ekki með sérstakt tól til slíkrar vöktunar, en vöktunarhluti hefur birst í stjórnborði stjórnunarvefsins (Informatica Administrator Monitor), þar sem hægt er að fylgjast með rekstri forrita, verkflæði og kortagerð, ræsir, logs. Reglulega varð stjórnborðið algjörlega ófáanlegt eða upplýsingar um núverandi ferla í DIS hættu að uppfæra eða villur komu upp við að hlaða síðum.

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Val á java breytum til að koma á stöðugleika í rekstri

Vandamálið var leiðrétt á margan hátt, tilraunir voru gerðar til að breyta breytum, annálum og jstack var safnað, sent til stuðnings, á sama tíma var virk googlað og einfaldlega athugun.

Í fyrsta lagi var búið til sérstakt MRS til vöktunar; eins og síðar kom í ljós er þetta einn helsti neytandi auðlinda í umhverfi okkar, þar sem kortlagning er hrundið af stað mjög ákaft. Færum varðandi java heap og fjölda annarra hefur verið breytt.
Fyrir vikið, með næstu uppfærslu Informatica 10.1.1, var rekstur stjórnborðsins og skjásins stöðugri, þróunaraðilar fóru að vinna skilvirkari og reglulegir ferlar urðu æ reglulegri.

Reynslan af samspili þróunar og stjórnsýslu getur verið áhugaverð. Spurningin um almennan skilning á því hvernig hlutir virka, hvað er hægt að gera og hvað má ekki, er alltaf mikilvægt þegar flókin kerfi eru notuð. Þess vegna getum við örugglega mælt með því að þú þjálfar fyrst stjórnunarteymi um hvernig eigi að stjórna hugbúnaðinum og þróunarteymi um hvernig eigi að skrifa kóða og teikna ferla í kerfið og sendir þá fyrst og annan til að vinna að niðurstöðunni. Þetta er mjög mikilvægt þegar tíminn er ekki óendanleg auðlind. Mörg vandamál geta verið leyst jafnvel með handahófskenndri leit að valkostum, en stundum krefjast sumir fyrirfram þekkingar - mál okkar staðfestir mikilvægi þess að skilja þetta aðalatriði.

Til dæmis, þegar við reyndum að virkja útgáfuútgáfu í MRS (eins og það kom í ljós á endanum var þörf á annarri útgáfu af SVN), eftir nokkurn tíma var okkur brugðið við að uppgötva að endurræsingartími kerfisins hafði aukist í nokkra tugi mínútna. Eftir að hafa fundið ástæðuna fyrir seinkuninni á ræsingu og slökkt á útgáfugerð, gekk okkur aftur vel.

Áberandi hindranir sem tengjast Informatica eru epísk barátta við vaxandi Java þræði. Á einhverjum tímapunkti er kominn tími til afritunar, það er að víkka út rótgróna ferla til fjölda frumkerfa. Það kom í ljós að ekki virkuðu allir ferlar í 10.1.1 vel og eftir nokkurn tíma varð DIS óstarfhæft. Tugþúsundir þráða fundust, fjöldi þeirra jókst sérstaklega áberandi við uppsetningu forritsins. Stundum þurfti ég að endurræsa nokkrum sinnum á dag til að endurheimta virkni.

Hér þurfum við að þakka stuðninginn; vandamálin voru staðbundin og lagfærð tiltölulega fljótt með því að nota EBF (Emergency Bug Fix) - eftir það fengu allir á tilfinninguna að tólið virki virkilega.

Það virkar samt!

Þegar við byrjuðum að vinna í markham leit Informatica svona út. Útgáfa af Informatica 10.1.1HF1 (HF1 er HotFix1, framleiðendasamsetning úr flóknu EBF) með viðbótar uppsettum EBF, sem leiðréttir vandamál okkar með skala og sumum öðrum, á einum netþjóni af þremur sem voru hluti af GRID, 20 x86_64 kjarna og geymsla, á gríðarstórum hægum fjölda staðbundinna diska - þetta er uppsetning miðlara fyrir Hadoop þyrping. Á öðrum svipuðum netþjóni - Oracle DBMS sem bæði Informatica lénið og ETL stýrikerfið vinna með. Allt þetta er fylgst með stöðluðum vöktunarverkfærum sem notuð eru í teyminu (Zabbix + Grafana) á báðum hliðum - Informatica sjálft með þjónustu sína og hleðsluferlana sem fara í það. Nú fer bæði frammistaða og stöðugleiki, án þess að taka tillit til ytri þátta, nú eftir stillingum sem takmarka álagið.

Sérstaklega getum við sagt um GRID. Umhverfið var byggt á þremur hnútum, með möguleika á álagsjafnvægi. Hins vegar, við prófun, kom í ljós að vegna víxlverkunarvandamála milli hlaupandi tilvika forritanna okkar virkaði þessi uppsetning ekki eins og búist var við og þeir ákváðu að hætta tímabundið við þetta byggingarkerfi og fjarlægja tvo af þremur hnútum úr léninu. Á sama tíma hefur kerfið sjálft verið það sama og nú er það einmitt GRID þjónusta, en úrkynjað í einn hnút.

Eins og er, eru erfiðleikarnir enn tengdir lækkun á frammistöðu þegar eftirlitsrásin er hreinsuð reglulega - með samtímis ferlum í CNN og keyrandi hreinsun, geta bilanir komið upp í rekstri ETL stýrikerfisins. Nú er verið að leysa þetta „sem hækja“ - með því að hreinsa skjárásina handvirkt, með því að tapa öllum fyrri gögnum hennar. Þetta er ekki of mikilvægt fyrir framleiðni, meðan á venjulegum venjulegum rekstri stendur, en í bili er verið að leita að eðlilegri lausn.

Annað vandamál stafar af sömu aðstæðum - stundum eiga sér stað margar kynningar á stjórnkerfi okkar.

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Mörg forrit ræst sem leiðir til bilunar í vélbúnaði

Þegar keyrt er samkvæmt áætlun, á tímum mikils álags á kerfið, koma stundum upp aðstæður sem leiða til bilunar á vélbúnaði. Enn er verið að laga vandann handvirkt og leitað varanlegrar lausnar.

Almennt má draga saman að þegar það er mikið álag er mjög mikilvægt að útvega tilföng sem nægja til þess, þetta á einnig við um vélbúnaðartilföng fyrir Informatica sjálfa, og það sama fyrir gagnagrunnsgeymsluna, sem og að veita bestu stillingar fyrir þau. Að auki er spurningin enn opin um hvaða gagnagrunnsstaðsetningarkerfi er betra - á aðskildum hýsil eða á þeim sama þar sem Informatica hugbúnaðurinn keyrir. Annars vegar verður það ódýrara á einum netþjóni og þegar það er sameinað er hugsanlegt vandamál með netsamskiptum nánast útrýmt; hins vegar bætist álagið á hýsilinn úr gagnagrunninum við álagið frá Informatica.

Eins og með allar alvarlegar vörur, þá hefur Informatica líka fyndnar stundir.
Einu sinni, þegar ég var að útkljá einhvers konar slys, tók ég eftir því að MRS logarnir sýndu á undarlegan hátt tíma atburða.

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Tvíhyggja í tíma í MRS annálum „eftir hönnun“

Í ljós kom að tímastimplar eru skrifaðir á 12 tíma sniði, án þess að tilgreina AM/PM, það er fyrir hádegi eða eftir. Meira að segja var opnað fyrir umsókn vegna þessa máls og opinbert svar barst - svona var það ætlað, merkingar eru skrifaðar í MRS-skrána á nákvæmlega þessu formi. Það er að segja, stundum er einhver óvissa um hvenær einhver VILLA átti sér stað...

Leitaðu að því besta

Í dag er Informatica nokkuð stöðugt tól, þægilegt fyrir stjórnendur og notendur, afar öflugt miðað við núverandi getu og möguleika. Það er margfalt umfram hagnýtar þarfir okkar og er í raun og veru notað í verkefnið á þann hátt sem er ekki sá dæmigerðasti og dæmigerðasti. Erfiðleikarnir eru að hluta til tengdir því hvernig kerfin virka - það sérstaka er að á stuttum tíma er mikill fjöldi þráða settur á markað sem uppfærir breytur ákaft og vinnur með gagnagrunni geymslunnar, á meðan vélbúnaðarauðlindir netþjónsins eru nýttar nánast að fullu. af örgjörvanum.

Við erum nú nálægt því að færa okkur yfir í Informatica 10.2.1 eða 10.2.2, sem hafa endurunnið suma innri aðferða og styðja loforð um að útrýma sumum afköstum og virknivandamálum sem við höfum nú. Og frá sjónarhóli vélbúnaðar, gerum við ráð fyrir netþjónum með ákjósanlegri uppsetningu fyrir okkur, að teknu tilliti til varasjóðs í náinni framtíð vegna vaxtar og þróunar geymslu.

Að sjálfsögðu verða prófanir, samhæfniskoðanir og hugsanlega byggingarbreytingar í HA GRID hlutanum. Þróun innan Informatica mun halda áfram, þar sem til skamms tíma getum við ekki útvegað neitt í staðinn fyrir kerfið.
Og þeir sem munu bera ábyrgð á þessu kerfi í framtíðinni munu örugglega geta fært það til nauðsynlegra áreiðanleika- og frammistöðuvísa sem viðskiptavinir setja fram.

Greinin var unnin af Rostelecom gagnastjórnunarteymi

Frá daglegum slysum til stöðugleika: Informatica 10 með augum stjórnanda
Núverandi Informatica lógó

Heimild: www.habr.com

Bæta við athugasemd