No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm

Datu noliktavas ETL komponentu bieži aizēno pati noliktava, un tam tiek pievērsta mazāka uzmanÄ«ba nekā galvenajai datubāzei vai priekÅ”gala komponentei BI un atskaitēm. Tajā paŔā laikā no noliktavas aizpildÄ«Å”anas ar datiem mehānikas viedokļa ETL ir galvenā loma un prasa ne mazāku uzmanÄ«bu no administratoriem nekā citas sastāvdaļas. Mani sauc Aleksandrs, tagad es administrēju ETL Rostelecom, un Å”ajā rakstā mēģināŔu mazliet pastāstÄ«t par to, ar ko ir jāsastopas vienas no slavenākajām ETL sistēmām Rostelecom lielajā datu noliktavā.

Ja dārgie lasÄ«tāji jau ir iepazinuÅ”ies ar mÅ«su datu noliktavas projektu un Informatica PowerCenter produktu, tad varat nekavējoties pāriet uz nākamo sadaļu.

Pirms vairākiem gadiem ideja par vienotu korporatÄ«vo datu noliktavu nobrieda un sāka Ä«stenot Rostelecom. Jau bija izveidotas vairākas krātuves, kas atrisināja atseviŔķas problēmas, taču pieauga scenāriju skaits, pieauga arÄ« atbalsta izmaksas, un kļuva skaidrs, ka nākotne ir centralizācijā. ArhitektÅ«ras ziņā Ŕī ir pati krātuve, kas sastāv no vairākiem slāņiem, kas ieviesti uz Hadoop un GreenPlum, papildu datu bāzēm, ETL mehānismiem un BI.

Vienlaikus lielā Ä£eogrāfiski izkliedēto, neviendabÄ«go datu avotu skaita dēļ tika izveidots Ä«paÅ”s datu augÅ”upielādes mehānisms, kura darbÄ«bu kontrolē Informatica. Rezultātā datu pakotnes nonāk Hadoop saskarnes apgabalā, pēc tam sākas datu ielādes procesi caur krātuves slāņiem, Hadoop un GreenPlum, un tās pārvalda tā saucamais ETL kontroles mehānisms, kas ieviests Informatica. Tādējādi Informatica sistēma ir viens no galvenajiem elementiem, kas nodroÅ”ina noliktavas darbÄ«bu.

Mūsu krātuve tiks sīkāk aprakstīta vienā no turpmākajām ziņām.

Informatica PowerCenter/Big Data Management Å”obrÄ«d tiek uzskatÄ«ta par vadoÅ”o programmatÅ«ru datu integrācijas rÄ«ku jomā. Å is ir amerikāņu kompānijas Informatica produkts, kas ir viens no spēcÄ«gākajiem spēlētājiem ETL (Extract Transform Load), datu kvalitātes pārvaldÄ«bā, MDM (Master Data Management), ILM (Information Lifecycle Management) un citur.

MÅ«su izmantotais PowerCenter ir integrēts Tomcat aplikāciju serveris, kurā darbojas paÅ”as Informatica lietojumprogrammas, ievieÅ”ot savus pakalpojumus:

Domēns, patiesībā tas ir pamats visam pārējam; pakalpojumi, lietotāji un GRID komponenti darbojas domēnā.

Administratora konsole, tīmekļa pārvaldības un uzraudzības rīks, papildus Informatica Developer klientam, kas ir galvenais rīks mijiedarbībai ar produktu.

MRS, modeļu krātuves pakalpojums, metadatu krātuve, ir slānis starp datu bāzi, kurā fiziski tiek glabāti metadati, un Informatica Developer klientu, kurā notiek izstrāde. Repozitorijās tiek glabāti datu apraksti un cita informācija, tostarp par vairākiem citiem Infromatica pakalpojumiem, piemēram, uzdevumu izpildes grafiki (grafiki) vai pārraudzÄ«bas dati, kā arÄ« lietojumprogrammu parametri, jo Ä«paÅ”i ļaujot izmantot vienu un to paÅ”u lietojumprogrammu darbam ar dažādi datu avoti un uztvērēji.

DIS, datu integrācijas pakalpojums, tas ir pakalpojums, kurā notiek galvenie funkcionālie procesi, tajā darbojas lietojumprogrammas un faktiski tiek palaists Workflows (kartējumu secÄ«bu un to mijiedarbÄ«bas apraksti) un Mappings (transformācijas, bloki, kuros notiek paÅ”as transformācijas, datu apstrāde). ) norisināties.

GRID konfigurācija ā€“ bÅ«tÄ«bā, iespēja veidot kompleksu, izmantojot vairākus serverus, kad DIS palaitā slodze tiek sadalÄ«ta starp mezgliem (tas ir, serveriem, kas ir daļa no domēna). Å Ä«s opcijas gadÄ«jumā papildus slodzes sadalei DIS caur papildu GRID abstrakcijas slāni, kas apvieno vairākus mezglus, uz kuriem darbojas DIS, nevis strādā pie konkrēta atseviŔķa mezgla, var izveidot arÄ« papildu rezerves MRS instances. JÅ«s pat varat ieviest augstu pieejamÄ«bu, kur ārējos zvanus var veikt, izmantojot rezerves mezglus, ja galvenais neizdodas. Pagaidām no Ŕīs bÅ«vniecÄ«bas iespējas esam atteikuÅ”ies.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
Informatica PowerCenter, shematisks

DarbÄ«bas sākumposmā datu piegādes ķēdē regulāri radās problēmas, dažas no tām saistÄ«tas ar tobrÄ«d nestabilo Informatica darbÄ«bu. Es dalÄ«Å”os ar dažiem Ŕīs sāgas atmiņā paliekoÅ”ajiem mirkļiem - Informatica 10 apgÅ«Å”ana.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
BijuŔais Informatikas logotips

MÅ«su atbildÄ«bas sfērā ir arÄ« citas Informatica vides, tām ir sava specifika atŔķirÄ«gas slodzes dēļ, bet pagaidām atcerÄ“Å”os, kā tieÅ”i Informatica attÄ«stÄ«jās kā paÅ”as datu noliktavas ETL sastāvdaļa.

Kā tas notika

2016. gadā, kad kļuvām atbildÄ«gi par Informatikas darbu, tā jau bija sasniegusi 10.0 versiju, un optimistiski noskaņotajiem kolēģiem, kuri lēma nopietnā risinājumā izmantot produktu ar mazo versiju .0, viss Ŕķita paÅ”saprotami - jāizmanto jaunā versija! No aparatÅ«ras resursu viedokļa tajā laikā viss bija kārtÄ«bā.

KopÅ” 2016. gada pavasara par Informatica darbu ir atbildÄ«gs darbuzņēmējs, un, pēc dažu sistēmas lietotāju domām, tas "strādāja pāris reizes nedēļā". Å eit ir jāprecizē, ka repozitorijs de facto bija PoC stadijā, komandā nebija administratoru un sistēma dažādu iemeslu dēļ pastāvÄ«gi avarēja, pēc tam darbuzņēmēja inženieris to atkal paņēma.

RudenÄ« komandai pievienojās trÄ«s administratori, sadalot atbildÄ«bas jomas savā starpā, un sākās normāls darbs pie sistēmu darbÄ«bas organizÄ“Å”anas projektā, tostarp Informatica. AtseviŔķi jāsaka, ka Å”is produkts nav plaÅ”i izplatÄ«ts un tam ir liela kopiena, kurā varat atrast atbildes uz visiem jautājumiem un atrisināt jebkuru problēmu. Tāpēc ļoti svarÄ«gs bija pilnÄ«gs tehniskais atbalsts no Krievijas partnera Informatica, ar kura palÄ«dzÄ«bu tika izlabotas visas mÅ«su kļūdas un toreiz jaunā Informatica 10 kļūdas.

Pirmais, kas mums bija jādara mÅ«su komandas izstrādātājiem un darbuzņēmējam, bija stabilizēt paÅ”as Informatica darbu, nodroÅ”ināt tÄ«mekļa administrÄ“Å”anas konsoles (Informatica Administrator) funkcionalitāti.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
Tā mēs bieži tikāmies ar Informatica izstrādātājiem

Neskaitot iemeslu noskaidroÅ”anas procesu, galvenais avāriju cēlonis bija Informatica programmatÅ«ras mijiedarbÄ«bas modelis ar repozitorija datu bāzi, kas no tÄ«kla ainavas viedokļa atradās uz salÄ«dzinoÅ”i attāla servera. Tas izraisÄ«ja aizkavÄ“Å”anos un izjauca mehānismus, kas uzrauga Informatica domēna stāvokli. Pēc nelielas datu bāzes regulÄ“Å”anas, Informatica parametru maiņas, kas padarÄ«ja to izturÄ«gāku pret datu bāzes aizkavi, un beigu beigās Informatica versijas atjaunināŔanas uz 10.1 un datu bāzes pārsÅ«tÄ«Å”anu no iepriekŔējā servera uz serveri, kas atrodas tuvāk Informatica, problēma zaudēja savu spēku. atbilstÄ«bu, un kopÅ” tā laika ir bijuÅ”as Ŕāda veida avārijas, kuras mēs neievērojam.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
Viens no mēģinājumiem iedarbināt Informatica Monitor

Situācija ar administrācijas konsoli arÄ« bija kritiska. Tā kā aktÄ«va attÄ«stÄ«ba norisinājās tieÅ”i salÄ«dzinoÅ”i produktÄ«vajā vidē, kolēģiem pastāvÄ«gi bija jāanalizē kartÄ“Å”anas un darbplÅ«smas darbs, atrodoties ceļā. Jaunajā Informaticā Datu integrācijas dienestam nav atseviŔķa rÄ«ka Ŕādai uzraudzÄ«bai, bet administrācijas tÄ«mekļa konsolē (Informatica Administrator Monitor) ir parādÄ«jusies uzraudzÄ«bas sadaļa, kurā var uzraudzÄ«t lietojumprogrammu darbÄ«bu, darbplÅ«smu un kartējumus, palaiÅ”ana, žurnāli. Periodiski konsole kļuva pilnÄ«gi nepieejama, informācija par paÅ”reizējiem procesiem DIS tika pārtraukta vai, ielādējot lapas, radās kļūdas.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
Java parametru izvēle veiktspējas stabilizÄ“Å”anai

Problēma tika daudzpusēji novērsta, veikti eksperimenti parametru maiņai, tika savākti žurnāli un jstack, nosÅ«tÄ«ti atbalstam, paralēli notika aktÄ«va googlÄ“Å”ana un vienkārÅ”i vēroÅ”ana.

Pirmkārt, monitoringam tika izveidota atseviŔķa MRS, kas, kā vēlāk izrādÄ«jās, ir viens no galvenajiem resursu patērētājiem mÅ«su vidē, jo kartÄ“Å”ana tiek uzsākta ļoti intensÄ«vi. Parametri attiecÄ«bā uz Java kaudzi un vairākiem citiem ir mainÄ«ti.
Rezultātā ar nākamo Informatica 10.1.1 atjauninājumu konsoles un monitora darbība tika stabilizēta, izstrādātāji sāka strādāt efektīvāk, un regulārie procesi kļuva arvien regulārāki.

Interesanta var bÅ«t attÄ«stÄ«bas un administrÄ“Å”anas mijiedarbÄ«bas pieredze. Lietojot sarežģītas sistēmas, vienmēr svarÄ«gs ir jautājums par vispārēju izpratni par to, kā lietas darbojas, ko var un ko nevar izdarÄ«t. Tāpēc mēs varam droÅ”i ieteikt vispirms apmācÄ«t administratÄ«vo komandu, kā administrēt programmatÅ«ru, un izstrādes komandu, kā rakstÄ«t kodu un zÄ«mēt procesus sistēmā, un tikai pēc tam nosÅ«tÄ«t pirmo un otro strādāt pie rezultāta. Tas ir patieŔām svarÄ«gi, ja laiks nav bezgalÄ«gs resurss. Daudzas problēmas var atrisināt pat nejauÅ”i meklējot iespējas, taču dažreiz dažām ir nepiecieÅ”amas a priori zināŔanas - mÅ«su gadÄ«jums apstiprina Ŕīs aksiomas izpratnes nozÄ«mi.

Piemēram, kad mēģinājām iespējot versiju veidoÅ”anu MRS (kā izrādÄ«jās beigās, bija nepiecieÅ”ama cita SVN versija), pēc kāda laika mēs satraukti atklājām, ka sistēmas restartÄ“Å”anas laiks ir palielinājies lÄ«dz vairākiem desmitiem minÅ«Å”u. Atrodot sākuma aizkavÄ“Å”anās iemeslu un atspējojot versiju izveidi, mums atkal gāja labi.

Ievērojami ŔķērŔļi, kas saistÄ«ti ar Informatica, ir episkā cīņa ar pieaugoÅ”ajiem Java pavedieniem. Kādā brÄ«dÄ« ir pienācis laiks replikācijai, tas ir, izveidoto procesu paplaÅ”ināŔanai uz lielu skaitu avota sistēmu. IzrādÄ«jās, ka ne visi 10.1.1 procesi darbojās labi, un pēc kāda laika DIS kļuva nederÄ«gs. Tika atklāti desmitiem tÅ«kstoÅ”u pavedienu, un to skaits Ä«paÅ”i ievērojami pieauga lietojumprogrammas izvietoÅ”anas procedÅ«ras laikā. Dažkārt man bija jārestartē vairākas reizes dienā, lai atjaunotu funkcionalitāti.

Å eit jāsaka paldies atbalstam, problēmas tika lokalizētas un salÄ«dzinoÅ”i ātri novērstas, izmantojot EBF (Emergency Bug Fix) ā€“ pēc tam visiem radās sajÅ«ta, ka rÄ«ks tieŔām darbojas.

Tas joprojām darbojas!

LÄ«dz brÄ«dim, kad sākām strādāt mērÄ·a režīmā, Informatica izskatÄ«jās Ŕādi. Informatica 10.1.1HF1 versija (HF1 ir HotFix1, pārdevēja komplekts no EBF kompleksa) ar papildus instalētu EBF, kas novērÅ” mÅ«su mērogoÅ”anas problēmas un dažas citas, vienā no trim serveriem, kas bija daļa no GRID, 20 x86_64 kodoli un krātuve milzÄ«gā lēnā lokālo disku masÄ«vā ā€” Ŕī ir Hadoop klastera servera konfigurācija. Citā lÄ«dzÄ«gā serverÄ« - Oracle DBMS, ar kuru strādā gan Informatica domēns, gan ETL vadÄ«bas mehānisms. To visu uzrauga abās pusēs komandā izmantotie standarta monitoringa rÄ«ki (Zabbix + Grafana) - pati Informatica ar saviem pakalpojumiem un tajā notiekoÅ”ie ielādes procesi. Tagad gan veiktspēja, gan stabilitāte, neņemot vērā ārējos faktorus, tagad ir atkarÄ«ga no iestatÄ«jumiem, kas ierobežo slodzi.

AtseviŔķi mēs varam teikt par GRID. Vide tika veidota uz trim mezgliem, ar iespēju balansēt slodzi. Tomēr testÄ“Å”anas laikā tika atklāts, ka mijiedarbÄ«bas problēmu dēļ starp mÅ«su lietojumprogrammu palaistajiem gadÄ«jumiem Ŕī konfigurācija nedarbojās, kā paredzēts, un viņi nolēma uz laiku atteikties no Ŕīs konstrukcijas shēmas, no domēna noņemot divus no trim mezgliem. Tajā paŔā laikā pati shēma ir palikusi nemainÄ«ga, un tagad tas ir tieÅ”i GRID pakalpojums, bet deÄ£enerēts lÄ«dz vienam mezglam.

PaÅ”laik grÅ«tÄ«bas joprojām ir saistÄ«tas ar veiktspējas samazināŔanos, regulāri tÄ«rot monitora ķēdi - vienlaikus veicot CNN procesus un veicot tÄ«rÄ«Å”anu, var rasties darbÄ«bas traucējumi ETL vadÄ«bas mehānisma darbÄ«bā. PaÅ”laik tas tiek atrisināts "kā kruÄ·is" - manuāli notÄ«rot monitora ķēdi, zaudējot visus iepriekŔējos datus. Tas nav pārāk kritiski produktivitātei, parastas ikdienas darbÄ«bas laikā, bet Å”obrÄ«d notiek normāla risinājuma meklÄ“Å”ana.

Vēl viena problēma rodas no Ŕīs paÅ”as situācijas ā€” dažkārt notiek vairākas mÅ«su kontroles mehānisma palaiÅ”anas.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
Vairāku lietojumprogrammu palaiŔana izraisa mehānisma kļūmi

Darbojoties saskaņā ar grafiku, sistēmas lielas slodzes laikā dažreiz rodas situācijas, kas izraisa mehānisma bojājumus. Problēma joprojām tiek novērsta manuāli, un tiek meklēts pastāvīgs risinājums.

Kopumā var rezumēt, ka lielas slodzes gadÄ«jumā ir ļoti svarÄ«gi nodroÅ”ināt tai adekvātus resursus, tas attiecas arÄ« uz aparatÅ«ras resursiem paÅ”ai Informaticai un tas pats arÄ« tās datu bāzes repozitorijai, kā arÄ« nodroÅ”ināt optimālus iestatÄ«jumus. viņiem. Turklāt atklāts paliek jautājums, kura datu bāzes izvietoÅ”anas shēma ir labāka - uz atseviŔķa resursdatora vai tajā paŔā, kur darbojas Informatica programmatÅ«ra. No vienas puses, tas bÅ«s lētāk uz viena servera, un, apvienojot, praktiski tiek novērsta iespējamā tÄ«kla mijiedarbÄ«bas problēma, no otras puses, resursdatora slodzi no datu bāzes papildina slodze no Informatica.

Tāpat kā jebkuram nopietnam produktam, Informatica ir arī smieklīgi brīži.
Reiz, kārtojot kaut kādu negadījumu, pamanīju, ka MRS žurnālos dīvaini norādīts notikumu laiks.

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
Temporālais duālisms MRS baļķos ā€œpēc dizainaā€

IzrādÄ«jās, ka laika zÄ«mogus raksta 12 stundu formātā, nenorādot AM/PM, tas ir, pirms pusdienlaika vai pēc. Par Å”o lietu pat tika atvērts pieteikums, un saņemta oficiāla atbilde - tā tas bija domāts, MRS žurnālā tiek ierakstÄ«tas atzÄ«mes tieÅ”i Ŕādā formātā. Tas ir, dažkārt paliek intriga par kādas KÄ»ÅŖDAS raÅ”anās laiku...

Tiecieties pēc labākā

MÅ«sdienās Informatica ir diezgan stabils rÄ«ks, ērts administratoriem un lietotājiem, ārkārtÄ«gi jaudÄ«gs, ņemot vērā paÅ”reizējās iespējas un potenciālu. Tas daudzkārt pārsniedz mÅ«su funkcionālās vajadzÄ«bas, un tagad projektā de facto tiek izmantots ne tipiskākā un tipiskākā veidā. GrÅ«tÄ«bas daļēji ir saistÄ«tas ar mehānismu darbÄ«bas veidu - specifiski ir tas, ka Ä«sā laika periodā tiek palaists liels skaits pavedienu, kas intensÄ«vi atjaunina parametrus un strādā ar repozitorija datu bāzi, savukārt servera aparatÅ«ras resursi tiek izmantoti gandrÄ«z pilnÄ«bā. ar centrālo procesoru.

Tagad mēs esam tuvu pārejai uz Informatica 10.2.1 vai 10.2.2, kas ir pārstrādājuÅ”i dažus iekŔējos mehānismus un sola atbalstu, lai novērstu dažas no paÅ”laik pastāvoÅ”ajām veiktspējas un funkcionalitātes problēmām. Un no aparatÅ«ras viedokļa mēs sagaidām serverus ar mums optimālu konfigurāciju, ņemot vērā rezervi tuvākajai nākotnei saistÄ«bā ar krātuves izaugsmi un attÄ«stÄ«bu.

Protams, HA GRID daļā bÅ«s testÄ“Å”ana, saderÄ«bas pārbaude un, iespējams, arÄ« arhitektÅ«ras izmaiņas. AttÄ«stÄ«ba Informaticā turpināsies, jo Ä«stermiņā nevaram piedāvāt neko, kas aizstātu sistēmu.
Un tie, kas turpmāk bÅ«s atbildÄ«gi par Å”o sistēmu, noteikti varēs to novest lÄ«dz klientu izvirzÄ«tajiem nepiecieÅ”amajiem uzticamÄ«bas un darbÄ«bas rādÄ«tājiem.

Rakstu sagatavoja Rostelecom datu pārvaldības komanda

No ikdienas negadījumiem līdz stabilitātei: Informatica 10 ar administratora acīm
PaÅ”reizējais Informatikas logotips

Avots: www.habr.com

Pievieno komentāru