Datu noliktavas ETL komponentu bieži aizÄno pati noliktava, un tam tiek pievÄrsta mazÄka uzmanÄ«ba nekÄ galvenajai datubÄzei vai priekÅ”gala komponentei BI un atskaitÄm. TajÄ paÅ”Ä laikÄ no noliktavas aizpildÄ«Å”anas ar datiem mehÄnikas viedokļa ETL ir galvenÄ loma un prasa ne mazÄku uzmanÄ«bu no administratoriem nekÄ citas sastÄvdaļas. Mani sauc Aleksandrs, tagad es administrÄju ETL Rostelecom, un Å”ajÄ rakstÄ mÄÄ£inÄÅ”u mazliet pastÄstÄ«t par to, ar ko ir jÄsastopas vienas no slavenÄkajÄm ETL sistÄmÄm Rostelecom lielajÄ datu noliktavÄ.
Ja dÄrgie lasÄ«tÄji jau ir iepazinuÅ”ies ar mÅ«su datu noliktavas projektu un Informatica PowerCenter produktu, tad varat nekavÄjoties pÄriet uz nÄkamo sadaļu.
Pirms vairÄkiem gadiem ideja par vienotu korporatÄ«vo datu noliktavu nobrieda un sÄka Ä«stenot Rostelecom. Jau bija izveidotas vairÄkas krÄtuves, kas atrisinÄja atseviŔķas problÄmas, taÄu pieauga scenÄriju skaits, pieauga arÄ« atbalsta izmaksas, un kļuva skaidrs, ka nÄkotne ir centralizÄcijÄ. ArhitektÅ«ras ziÅÄ Å”Ä« ir pati krÄtuve, kas sastÄv no vairÄkiem slÄÅiem, kas ieviesti uz Hadoop un GreenPlum, papildu datu bÄzÄm, ETL mehÄnismiem un BI.
Vienlaikus lielÄ Ä£eogrÄfiski izkliedÄto, neviendabÄ«go datu avotu skaita dÄļ tika izveidots Ä«paÅ”s datu augÅ”upielÄdes mehÄnisms, kura darbÄ«bu kontrolÄ Informatica. RezultÄtÄ datu pakotnes nonÄk Hadoop saskarnes apgabalÄ, pÄc tam sÄkas datu ielÄdes procesi caur krÄtuves slÄÅiem, Hadoop un GreenPlum, un tÄs pÄrvalda tÄ saucamais ETL kontroles mehÄnisms, kas ieviests Informatica. TÄdÄjÄdi Informatica sistÄma ir viens no galvenajiem elementiem, kas nodroÅ”ina noliktavas darbÄ«bu.
MÅ«su krÄtuve tiks sÄ«kÄk aprakstÄ«ta vienÄ no turpmÄkajÄm ziÅÄm.
Informatica PowerCenter/Big Data Management Å”obrÄ«d tiek uzskatÄ«ta par vadoÅ”o programmatÅ«ru datu integrÄcijas rÄ«ku jomÄ. Å is ir amerikÄÅu kompÄnijas Informatica produkts, kas ir viens no spÄcÄ«gÄkajiem spÄlÄtÄjiem ETL (Extract Transform Load), datu kvalitÄtes pÄrvaldÄ«bÄ, MDM (Master Data Management), ILM (Information Lifecycle Management) un citur.
MÅ«su izmantotais PowerCenter ir integrÄts Tomcat aplikÄciju serveris, kurÄ darbojas paÅ”as Informatica lietojumprogrammas, ievieÅ”ot savus pakalpojumus:
DomÄns, patiesÄ«bÄ tas ir pamats visam pÄrÄjam; pakalpojumi, lietotÄji un GRID komponenti darbojas domÄnÄ.
Administratora konsole, tÄ«mekļa pÄrvaldÄ«bas un uzraudzÄ«bas rÄ«ks, papildus Informatica Developer klientam, kas ir galvenais rÄ«ks mijiedarbÄ«bai ar produktu.
MRS, modeļu krÄtuves pakalpojums, metadatu krÄtuve, ir slÄnis starp datu bÄzi, kurÄ fiziski tiek glabÄti metadati, un Informatica Developer klientu, kurÄ notiek izstrÄde. RepozitorijÄs tiek glabÄti datu apraksti un cita informÄcija, tostarp par vairÄkiem citiem Infromatica pakalpojumiem, piemÄram, uzdevumu izpildes grafiki (grafiki) vai pÄrraudzÄ«bas dati, kÄ arÄ« lietojumprogrammu parametri, jo Ä«paÅ”i ļaujot izmantot vienu un to paÅ”u lietojumprogrammu darbam ar dažÄdi datu avoti un uztvÄrÄji.
DIS, datu integrÄcijas pakalpojums, tas ir pakalpojums, kurÄ notiek galvenie funkcionÄlie procesi, tajÄ darbojas lietojumprogrammas un faktiski tiek palaists Workflows (kartÄjumu secÄ«bu un to mijiedarbÄ«bas apraksti) un Mappings (transformÄcijas, bloki, kuros notiek paÅ”as transformÄcijas, datu apstrÄde). ) norisinÄties.
GRID konfigurÄcija ā bÅ«tÄ«bÄ, iespÄja veidot kompleksu, izmantojot vairÄkus serverus, kad DIS palaitÄ slodze tiek sadalÄ«ta starp mezgliem (tas ir, serveriem, kas ir daļa no domÄna). Å Ä«s opcijas gadÄ«jumÄ papildus slodzes sadalei DIS caur papildu GRID abstrakcijas slÄni, kas apvieno vairÄkus mezglus, uz kuriem darbojas DIS, nevis strÄdÄ pie konkrÄta atseviŔķa mezgla, var izveidot arÄ« papildu rezerves MRS instances. JÅ«s pat varat ieviest augstu pieejamÄ«bu, kur ÄrÄjos zvanus var veikt, izmantojot rezerves mezglus, ja galvenais neizdodas. PagaidÄm no Ŕīs bÅ«vniecÄ«bas iespÄjas esam atteikuÅ”ies.
Informatica PowerCenter, shematisks
DarbÄ«bas sÄkumposmÄ datu piegÄdes Ä·ÄdÄ regulÄri radÄs problÄmas, dažas no tÄm saistÄ«tas ar tobrÄ«d nestabilo Informatica darbÄ«bu. Es dalÄ«Å”os ar dažiem Ŕīs sÄgas atmiÅÄ paliekoÅ”ajiem mirkļiem - Informatica 10 apgÅ«Å”ana.
BijuŔais Informatikas logotips
MÅ«su atbildÄ«bas sfÄrÄ ir arÄ« citas Informatica vides, tÄm ir sava specifika atŔķirÄ«gas slodzes dÄļ, bet pagaidÄm atcerÄÅ”os, kÄ tieÅ”i Informatica attÄ«stÄ«jÄs kÄ paÅ”as datu noliktavas ETL sastÄvdaļa.
KÄ tas notika
2016. gadÄ, kad kļuvÄm atbildÄ«gi par Informatikas darbu, tÄ jau bija sasniegusi 10.0 versiju, un optimistiski noskaÅotajiem kolÄÄ£iem, kuri lÄma nopietnÄ risinÄjumÄ izmantot produktu ar mazo versiju .0, viss Ŕķita paÅ”saprotami - jÄizmanto jaunÄ versija! No aparatÅ«ras resursu viedokļa tajÄ laikÄ viss bija kÄrtÄ«bÄ.
KopÅ” 2016. gada pavasara par Informatica darbu ir atbildÄ«gs darbuzÅÄmÄjs, un, pÄc dažu sistÄmas lietotÄju domÄm, tas "strÄdÄja pÄris reizes nedÄļÄ". Å eit ir jÄprecizÄ, ka repozitorijs de facto bija PoC stadijÄ, komandÄ nebija administratoru un sistÄma dažÄdu iemeslu dÄļ pastÄvÄ«gi avarÄja, pÄc tam darbuzÅÄmÄja inženieris to atkal paÅÄma.
RudenÄ« komandai pievienojÄs trÄ«s administratori, sadalot atbildÄ«bas jomas savÄ starpÄ, un sÄkÄs normÄls darbs pie sistÄmu darbÄ«bas organizÄÅ”anas projektÄ, tostarp Informatica. AtseviŔķi jÄsaka, ka Å”is produkts nav plaÅ”i izplatÄ«ts un tam ir liela kopiena, kurÄ varat atrast atbildes uz visiem jautÄjumiem un atrisinÄt jebkuru problÄmu. TÄpÄc ļoti svarÄ«gs bija pilnÄ«gs tehniskais atbalsts no Krievijas partnera Informatica, ar kura palÄ«dzÄ«bu tika izlabotas visas mÅ«su kļūdas un toreiz jaunÄ Informatica 10 kļūdas.
Pirmais, kas mums bija jÄdara mÅ«su komandas izstrÄdÄtÄjiem un darbuzÅÄmÄjam, bija stabilizÄt paÅ”as Informatica darbu, nodroÅ”inÄt tÄ«mekļa administrÄÅ”anas konsoles (Informatica Administrator) funkcionalitÄti.
TÄ mÄs bieži tikÄmies ar Informatica izstrÄdÄtÄjiem
Neskaitot iemeslu noskaidroÅ”anas procesu, galvenais avÄriju cÄlonis bija Informatica programmatÅ«ras mijiedarbÄ«bas modelis ar repozitorija datu bÄzi, kas no tÄ«kla ainavas viedokļa atradÄs uz salÄ«dzinoÅ”i attÄla servera. Tas izraisÄ«ja aizkavÄÅ”anos un izjauca mehÄnismus, kas uzrauga Informatica domÄna stÄvokli. PÄc nelielas datu bÄzes regulÄÅ”anas, Informatica parametru maiÅas, kas padarÄ«ja to izturÄ«gÄku pret datu bÄzes aizkavi, un beigu beigÄs Informatica versijas atjauninÄÅ”anas uz 10.1 un datu bÄzes pÄrsÅ«tÄ«Å”anu no iepriekÅ”ÄjÄ servera uz serveri, kas atrodas tuvÄk Informatica, problÄma zaudÄja savu spÄku. atbilstÄ«bu, un kopÅ” tÄ laika ir bijuÅ”as Å”Äda veida avÄrijas, kuras mÄs neievÄrojam.
Viens no mÄÄ£inÄjumiem iedarbinÄt Informatica Monitor
SituÄcija ar administrÄcijas konsoli arÄ« bija kritiska. TÄ kÄ aktÄ«va attÄ«stÄ«ba norisinÄjÄs tieÅ”i salÄ«dzinoÅ”i produktÄ«vajÄ vidÄ, kolÄÄ£iem pastÄvÄ«gi bija jÄanalizÄ kartÄÅ”anas un darbplÅ«smas darbs, atrodoties ceļÄ. JaunajÄ InformaticÄ Datu integrÄcijas dienestam nav atseviŔķa rÄ«ka Å”Ädai uzraudzÄ«bai, bet administrÄcijas tÄ«mekļa konsolÄ (Informatica Administrator Monitor) ir parÄdÄ«jusies uzraudzÄ«bas sadaļa, kurÄ var uzraudzÄ«t lietojumprogrammu darbÄ«bu, darbplÅ«smu un kartÄjumus, palaiÅ”ana, žurnÄli. Periodiski konsole kļuva pilnÄ«gi nepieejama, informÄcija par paÅ”reizÄjiem procesiem DIS tika pÄrtraukta vai, ielÄdÄjot lapas, radÄs kļūdas.
Java parametru izvÄle veiktspÄjas stabilizÄÅ”anai
ProblÄma tika daudzpusÄji novÄrsta, veikti eksperimenti parametru maiÅai, tika savÄkti žurnÄli un jstack, nosÅ«tÄ«ti atbalstam, paralÄli notika aktÄ«va googlÄÅ”ana un vienkÄrÅ”i vÄroÅ”ana.
PirmkÄrt, monitoringam tika izveidota atseviŔķa MRS, kas, kÄ vÄlÄk izrÄdÄ«jÄs, ir viens no galvenajiem resursu patÄrÄtÄjiem mÅ«su vidÄ, jo kartÄÅ”ana tiek uzsÄkta ļoti intensÄ«vi. Parametri attiecÄ«bÄ uz Java kaudzi un vairÄkiem citiem ir mainÄ«ti.
RezultÄtÄ ar nÄkamo Informatica 10.1.1 atjauninÄjumu konsoles un monitora darbÄ«ba tika stabilizÄta, izstrÄdÄtÄji sÄka strÄdÄt efektÄ«vÄk, un regulÄrie procesi kļuva arvien regulÄrÄki.
Interesanta var bÅ«t attÄ«stÄ«bas un administrÄÅ”anas mijiedarbÄ«bas pieredze. Lietojot sarežģītas sistÄmas, vienmÄr svarÄ«gs ir jautÄjums par vispÄrÄju izpratni par to, kÄ lietas darbojas, ko var un ko nevar izdarÄ«t. TÄpÄc mÄs varam droÅ”i ieteikt vispirms apmÄcÄ«t administratÄ«vo komandu, kÄ administrÄt programmatÅ«ru, un izstrÄdes komandu, kÄ rakstÄ«t kodu un zÄ«mÄt procesus sistÄmÄ, un tikai pÄc tam nosÅ«tÄ«t pirmo un otro strÄdÄt pie rezultÄta. Tas ir patieÅ”Äm svarÄ«gi, ja laiks nav bezgalÄ«gs resurss. Daudzas problÄmas var atrisinÄt pat nejauÅ”i meklÄjot iespÄjas, taÄu dažreiz dažÄm ir nepiecieÅ”amas a priori zinÄÅ”anas - mÅ«su gadÄ«jums apstiprina Ŕīs aksiomas izpratnes nozÄ«mi.
PiemÄram, kad mÄÄ£inÄjÄm iespÄjot versiju veidoÅ”anu MRS (kÄ izrÄdÄ«jÄs beigÄs, bija nepiecieÅ”ama cita SVN versija), pÄc kÄda laika mÄs satraukti atklÄjÄm, ka sistÄmas restartÄÅ”anas laiks ir palielinÄjies lÄ«dz vairÄkiem desmitiem minÅ«Å”u. Atrodot sÄkuma aizkavÄÅ”anÄs iemeslu un atspÄjojot versiju izveidi, mums atkal gÄja labi.
IevÄrojami ŔķÄrŔļi, kas saistÄ«ti ar Informatica, ir episkÄ cÄ«Åa ar pieaugoÅ”ajiem Java pavedieniem. KÄdÄ brÄ«dÄ« ir pienÄcis laiks replikÄcijai, tas ir, izveidoto procesu paplaÅ”inÄÅ”anai uz lielu skaitu avota sistÄmu. IzrÄdÄ«jÄs, ka ne visi 10.1.1 procesi darbojÄs labi, un pÄc kÄda laika DIS kļuva nederÄ«gs. Tika atklÄti desmitiem tÅ«kstoÅ”u pavedienu, un to skaits Ä«paÅ”i ievÄrojami pieauga lietojumprogrammas izvietoÅ”anas procedÅ«ras laikÄ. DažkÄrt man bija jÄrestartÄ vairÄkas reizes dienÄ, lai atjaunotu funkcionalitÄti.
Å eit jÄsaka paldies atbalstam, problÄmas tika lokalizÄtas un salÄ«dzinoÅ”i Ätri novÄrstas, izmantojot EBF (Emergency Bug Fix) ā pÄc tam visiem radÄs sajÅ«ta, ka rÄ«ks tieÅ”Äm darbojas.
Tas joprojÄm darbojas!
LÄ«dz brÄ«dim, kad sÄkÄm strÄdÄt mÄrÄ·a režīmÄ, Informatica izskatÄ«jÄs Å”Ädi. Informatica 10.1.1HF1 versija (HF1 ir HotFix1, pÄrdevÄja komplekts no EBF kompleksa) ar papildus instalÄtu EBF, kas novÄrÅ” mÅ«su mÄrogoÅ”anas problÄmas un dažas citas, vienÄ no trim serveriem, kas bija daļa no GRID, 20 x86_64 kodoli un krÄtuve milzÄ«gÄ lÄnÄ lokÄlo disku masÄ«vÄ ā Ŕī ir Hadoop klastera servera konfigurÄcija. CitÄ lÄ«dzÄ«gÄ serverÄ« - Oracle DBMS, ar kuru strÄdÄ gan Informatica domÄns, gan ETL vadÄ«bas mehÄnisms. To visu uzrauga abÄs pusÄs komandÄ izmantotie standarta monitoringa rÄ«ki (Zabbix + Grafana) - pati Informatica ar saviem pakalpojumiem un tajÄ notiekoÅ”ie ielÄdes procesi. Tagad gan veiktspÄja, gan stabilitÄte, neÅemot vÄrÄ ÄrÄjos faktorus, tagad ir atkarÄ«ga no iestatÄ«jumiem, kas ierobežo slodzi.
AtseviŔķi mÄs varam teikt par GRID. Vide tika veidota uz trim mezgliem, ar iespÄju balansÄt slodzi. TomÄr testÄÅ”anas laikÄ tika atklÄts, ka mijiedarbÄ«bas problÄmu dÄļ starp mÅ«su lietojumprogrammu palaistajiem gadÄ«jumiem Ŕī konfigurÄcija nedarbojÄs, kÄ paredzÄts, un viÅi nolÄma uz laiku atteikties no Ŕīs konstrukcijas shÄmas, no domÄna noÅemot divus no trim mezgliem. TajÄ paÅ”Ä laikÄ pati shÄma ir palikusi nemainÄ«ga, un tagad tas ir tieÅ”i GRID pakalpojums, bet deÄ£enerÄts lÄ«dz vienam mezglam.
PaÅ”laik grÅ«tÄ«bas joprojÄm ir saistÄ«tas ar veiktspÄjas samazinÄÅ”anos, regulÄri tÄ«rot monitora Ä·Ädi - vienlaikus veicot CNN procesus un veicot tÄ«rÄ«Å”anu, var rasties darbÄ«bas traucÄjumi ETL vadÄ«bas mehÄnisma darbÄ«bÄ. PaÅ”laik tas tiek atrisinÄts "kÄ kruÄ·is" - manuÄli notÄ«rot monitora Ä·Ädi, zaudÄjot visus iepriekÅ”Äjos datus. Tas nav pÄrÄk kritiski produktivitÄtei, parastas ikdienas darbÄ«bas laikÄ, bet Å”obrÄ«d notiek normÄla risinÄjuma meklÄÅ”ana.
VÄl viena problÄma rodas no Ŕīs paÅ”as situÄcijas ā dažkÄrt notiek vairÄkas mÅ«su kontroles mehÄnisma palaiÅ”anas.
VairÄku lietojumprogrammu palaiÅ”ana izraisa mehÄnisma kļūmi
Darbojoties saskaÅÄ ar grafiku, sistÄmas lielas slodzes laikÄ dažreiz rodas situÄcijas, kas izraisa mehÄnisma bojÄjumus. ProblÄma joprojÄm tiek novÄrsta manuÄli, un tiek meklÄts pastÄvÄ«gs risinÄjums.
KopumÄ var rezumÄt, ka lielas slodzes gadÄ«jumÄ ir ļoti svarÄ«gi nodroÅ”inÄt tai adekvÄtus resursus, tas attiecas arÄ« uz aparatÅ«ras resursiem paÅ”ai Informaticai un tas pats arÄ« tÄs datu bÄzes repozitorijai, kÄ arÄ« nodroÅ”inÄt optimÄlus iestatÄ«jumus. viÅiem. TurklÄt atklÄts paliek jautÄjums, kura datu bÄzes izvietoÅ”anas shÄma ir labÄka - uz atseviŔķa resursdatora vai tajÄ paÅ”Ä, kur darbojas Informatica programmatÅ«ra. No vienas puses, tas bÅ«s lÄtÄk uz viena servera, un, apvienojot, praktiski tiek novÄrsta iespÄjamÄ tÄ«kla mijiedarbÄ«bas problÄma, no otras puses, resursdatora slodzi no datu bÄzes papildina slodze no Informatica.
TÄpat kÄ jebkuram nopietnam produktam, Informatica ir arÄ« smieklÄ«gi brīži.
Reiz, kÄrtojot kaut kÄdu negadÄ«jumu, pamanÄ«ju, ka MRS žurnÄlos dÄ«vaini norÄdÄ«ts notikumu laiks.
TemporÄlais duÄlisms MRS baļķos āpÄc dizainaā
IzrÄdÄ«jÄs, ka laika zÄ«mogus raksta 12 stundu formÄtÄ, nenorÄdot AM/PM, tas ir, pirms pusdienlaika vai pÄc. Par Å”o lietu pat tika atvÄrts pieteikums, un saÅemta oficiÄla atbilde - tÄ tas bija domÄts, MRS žurnÄlÄ tiek ierakstÄ«tas atzÄ«mes tieÅ”i Å”ÄdÄ formÄtÄ. Tas ir, dažkÄrt paliek intriga par kÄdas KÄ»ÅŖDAS raÅ”anÄs laiku...
Tiecieties pÄc labÄkÄ
MÅ«sdienÄs Informatica ir diezgan stabils rÄ«ks, Ärts administratoriem un lietotÄjiem, ÄrkÄrtÄ«gi jaudÄ«gs, Åemot vÄrÄ paÅ”reizÄjÄs iespÄjas un potenciÄlu. Tas daudzkÄrt pÄrsniedz mÅ«su funkcionÄlÄs vajadzÄ«bas, un tagad projektÄ de facto tiek izmantots ne tipiskÄkÄ un tipiskÄkÄ veidÄ. GrÅ«tÄ«bas daļÄji ir saistÄ«tas ar mehÄnismu darbÄ«bas veidu - specifiski ir tas, ka Ä«sÄ laika periodÄ tiek palaists liels skaits pavedienu, kas intensÄ«vi atjaunina parametrus un strÄdÄ ar repozitorija datu bÄzi, savukÄrt servera aparatÅ«ras resursi tiek izmantoti gandrÄ«z pilnÄ«bÄ. ar centrÄlo procesoru.
Tagad mÄs esam tuvu pÄrejai uz Informatica 10.2.1 vai 10.2.2, kas ir pÄrstrÄdÄjuÅ”i dažus iekÅ”Äjos mehÄnismus un sola atbalstu, lai novÄrstu dažas no paÅ”laik pastÄvoÅ”ajÄm veiktspÄjas un funkcionalitÄtes problÄmÄm. Un no aparatÅ«ras viedokļa mÄs sagaidÄm serverus ar mums optimÄlu konfigurÄciju, Åemot vÄrÄ rezervi tuvÄkajai nÄkotnei saistÄ«bÄ ar krÄtuves izaugsmi un attÄ«stÄ«bu.
Protams, HA GRID daÄ¼Ä bÅ«s testÄÅ”ana, saderÄ«bas pÄrbaude un, iespÄjams, arÄ« arhitektÅ«ras izmaiÅas. AttÄ«stÄ«ba InformaticÄ turpinÄsies, jo Ä«stermiÅÄ nevaram piedÄvÄt neko, kas aizstÄtu sistÄmu.
Un tie, kas turpmÄk bÅ«s atbildÄ«gi par Å”o sistÄmu, noteikti varÄs to novest lÄ«dz klientu izvirzÄ«tajiem nepiecieÅ”amajiem uzticamÄ«bas un darbÄ«bas rÄdÄ«tÄjiem.
Rakstu sagatavoja Rostelecom datu pÄrvaldÄ«bas komanda
PaÅ”reizÄjais Informatikas logotips
Avots: www.habr.com