చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఏదైనా పెద్ద డేటా ఆపరేషన్‌కు చాలా కంప్యూటింగ్ పవర్ అవసరం. డేటాబేస్ నుండి హడూప్‌కి డేటా యొక్క సాధారణ తరలింపు వారాలు పట్టవచ్చు లేదా విమానం వింగ్‌కు అయ్యేంత ఖర్చు అవుతుంది. వేచి ఉండి డబ్బు ఖర్చు చేయకూడదనుకుంటున్నారా? వివిధ ప్లాట్‌ఫారమ్‌లలో లోడ్‌ను బ్యాలెన్స్ చేయండి. ఒక మార్గం పుష్‌డౌన్ ఆప్టిమైజేషన్.

ఇన్ఫర్మేటికా బిగ్ డేటా మేనేజ్‌మెంట్ (BDM)లో పుష్‌డౌన్ ఆప్టిమైజేషన్ ఫంక్షన్ గురించి మాట్లాడమని ఇన్‌ఫర్మేటికా ఉత్పత్తుల అభివృద్ధి మరియు నిర్వహణ కోసం రష్యాకు చెందిన ప్రముఖ శిక్షకుడు అలెక్సీ అనన్యేవ్‌ని నేను అడిగాను. మీరు ఎప్పుడైనా ఇన్ఫర్మాటికా ఉత్పత్తులతో పని చేయడం నేర్చుకున్నారా? చాలా మటుకు, అలెక్సీ పవర్‌సెంటర్ యొక్క ప్రాథమికాలను మీకు చెప్పాడు మరియు మ్యాపింగ్‌లను ఎలా నిర్మించాలో వివరించాడు.

Alexey Ananyev, DIS గ్రూప్‌లో శిక్షణా అధిపతి

పుష్‌డౌన్ అంటే ఏమిటి?

మీలో చాలా మందికి ఇప్పటికే ఇన్ఫర్మేటికా బిగ్ డేటా మేనేజ్‌మెంట్ (BDM) గురించి తెలుసు. ఉత్పత్తి వివిధ మూలాధారాల నుండి పెద్ద డేటాను ఏకీకృతం చేయగలదు, వివిధ సిస్టమ్‌ల మధ్య దానిని తరలించగలదు, దానికి సులభమైన ప్రాప్యతను అందిస్తుంది, దానిని ప్రొఫైల్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది మరియు మరిన్ని చేయవచ్చు.
కుడి చేతుల్లో, BDM అద్భుతాలు చేయగలదు: పనులు త్వరగా మరియు తక్కువ కంప్యూటింగ్ వనరులతో పూర్తి చేయబడతాయి.

అది కూడా కావాలా? వివిధ ప్లాట్‌ఫారమ్‌లలో కంప్యూటింగ్ లోడ్‌ను పంపిణీ చేయడానికి BDMలో పుష్‌డౌన్ ఫీచర్‌ని ఉపయోగించడం నేర్చుకోండి. మ్యాపింగ్‌ను స్క్రిప్ట్‌గా మార్చడానికి మరియు ఈ స్క్రిప్ట్ అమలు అయ్యే వాతావరణాన్ని ఎంచుకోవడానికి పుష్‌డౌన్ టెక్నాలజీ మిమ్మల్ని అనుమతిస్తుంది. ఈ ఎంపిక వివిధ ప్లాట్‌ఫారమ్‌ల బలాలను మిళితం చేయడానికి మరియు వాటి గరిష్ట పనితీరును సాధించడానికి మిమ్మల్ని అనుమతిస్తుంది.

స్క్రిప్ట్ అమలు వాతావరణాన్ని కాన్ఫిగర్ చేయడానికి, మీరు పుష్‌డౌన్ రకాన్ని ఎంచుకోవాలి. స్క్రిప్ట్ పూర్తిగా హడూప్‌లో అమలు చేయబడుతుంది లేదా మూలం మరియు సింక్ మధ్య పాక్షికంగా పంపిణీ చేయబడుతుంది. 4 సాధ్యమైన పుష్‌డౌన్ రకాలు ఉన్నాయి. మ్యాపింగ్‌ను స్క్రిప్ట్ (స్థానిక)గా మార్చాల్సిన అవసరం లేదు. మూలాధారం (మూలం) లేదా పూర్తిగా మూలం (పూర్తి)పై సాధ్యమైనంతవరకు మ్యాపింగ్ చేయవచ్చు. మ్యాపింగ్‌ను హడూప్ స్క్రిప్ట్‌గా కూడా మార్చవచ్చు (ఏదీ లేదు).

పుష్‌డౌన్ ఆప్టిమైజేషన్

జాబితా చేయబడిన 4 రకాలను వివిధ మార్గాల్లో కలపవచ్చు - సిస్టమ్ యొక్క నిర్దిష్ట అవసరాల కోసం పుష్‌డౌన్‌ను ఆప్టిమైజ్ చేయవచ్చు. ఉదాహరణకు, దాని స్వంత సామర్థ్యాలను ఉపయోగించి డేటాబేస్ నుండి డేటాను సంగ్రహించడం తరచుగా సరైనది. మరియు డేటాబేస్‌ను ఓవర్‌లోడ్ చేయకుండా హడూప్ ఉపయోగించి డేటా మార్చబడుతుంది.

మూలం మరియు గమ్యం రెండూ డేటాబేస్‌లో ఉన్నప్పుడు కేసును పరిశీలిద్దాం మరియు పరివర్తన అమలు ప్లాట్‌ఫారమ్‌ను ఎంచుకోవచ్చు: సెట్టింగ్‌లను బట్టి, ఇది ఇన్ఫర్మాటికా, డేటాబేస్ సర్వర్ లేదా హడూప్ అవుతుంది. ఇటువంటి ఉదాహరణ ఈ మెకానిజం యొక్క ఆపరేషన్ యొక్క సాంకేతిక వైపు చాలా ఖచ్చితంగా అర్థం చేసుకోవడానికి మిమ్మల్ని అనుమతిస్తుంది. సహజంగానే, నిజ జీవితంలో, ఈ పరిస్థితి తలెత్తదు, కానీ ఇది కార్యాచరణను ప్రదర్శించడానికి ఉత్తమంగా సరిపోతుంది.

ఒకే ఒరాకిల్ డేటాబేస్‌లో రెండు పట్టికలను చదవడానికి మ్యాపింగ్ తీసుకుందాం. మరియు పఠన ఫలితాలను అదే డేటాబేస్‌లోని పట్టికలో రికార్డ్ చేయనివ్వండి. మ్యాపింగ్ పథకం ఇలా ఉంటుంది:

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఇన్ఫర్మేటికా BDM 10.2.1లో మ్యాపింగ్ రూపంలో ఇది ఇలా కనిపిస్తుంది:

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

పుష్డౌన్ రకం - స్థానిక

మేము పుష్‌డౌన్ స్థానిక రకాన్ని ఎంచుకుంటే, మ్యాపింగ్ ఇన్‌ఫర్మాటికా సర్వర్‌లో నిర్వహించబడుతుంది. డేటా ఒరాకిల్ సర్వర్ నుండి చదవబడుతుంది, ఇన్ఫర్మాటికా సర్వర్‌కు బదిలీ చేయబడుతుంది, అక్కడ రూపాంతరం చెందుతుంది మరియు హడూప్‌కు బదిలీ చేయబడుతుంది. మరో మాటలో చెప్పాలంటే, మేము సాధారణ ETL ప్రక్రియను పొందుతాము.

పుష్డౌన్ రకం - మూలం

మూలాధార రకాన్ని ఎన్నుకునేటప్పుడు, డేటాబేస్ సర్వర్ (DB) మరియు హడూప్ మధ్య మా ప్రక్రియను పంపిణీ చేయడానికి మేము అవకాశాన్ని పొందుతాము. ఈ సెట్టింగ్‌తో ప్రక్రియను అమలు చేసినప్పుడు, పట్టికల నుండి డేటాను తిరిగి పొందే అభ్యర్థనలు డేటాబేస్‌కు పంపబడతాయి. మరియు మిగిలినవి హడూప్‌లో దశల రూపంలో ప్రదర్శించబడతాయి.
అమలు రేఖాచిత్రం ఇలా కనిపిస్తుంది:

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

రన్‌టైమ్ ఎన్విరాన్‌మెంట్‌ను సెటప్ చేయడానికి దిగువ ఉదాహరణ.

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఈ సందర్భంలో, మ్యాపింగ్ రెండు దశల్లో నిర్వహించబడుతుంది. దాని సెట్టింగ్‌లలో అది మూలానికి పంపబడే స్క్రిప్ట్‌గా మారిందని మనం చూస్తాము. అంతేకాకుండా, పట్టికలను కలపడం మరియు డేటాను మార్చడం మూలాధారంపై ఓవర్‌రైడ్ ప్రశ్న రూపంలో నిర్వహించబడతాయి.
దిగువ చిత్రంలో, మేము BDMలో ఆప్టిమైజ్ చేసిన మ్యాపింగ్‌ను మరియు మూలంపై పునర్నిర్వచించబడిన ప్రశ్నను చూస్తాము.

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఈ కాన్ఫిగరేషన్‌లో హడూప్ పాత్ర డేటా యొక్క ప్రవాహాన్ని నిర్వహించడానికి - దానిని ఆర్కెస్ట్రేట్ చేయడానికి తగ్గించబడుతుంది. ప్రశ్న ఫలితం హడూప్‌కి పంపబడుతుంది. చదవడం పూర్తయిన తర్వాత, హడూప్ నుండి ఫైల్ సింక్‌కు వ్రాయబడుతుంది.

పుష్డౌన్ రకం - పూర్తి

మీరు పూర్తి రకాన్ని ఎంచుకున్నప్పుడు, మ్యాపింగ్ పూర్తిగా డేటాబేస్ ప్రశ్నగా మారుతుంది. మరియు అభ్యర్థన ఫలితం హడూప్‌కు పంపబడుతుంది. అటువంటి ప్రక్రియ యొక్క రేఖాచిత్రం క్రింద ప్రదర్శించబడింది.

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఒక ఉదాహరణ సెటప్ క్రింద చూపబడింది.

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఫలితంగా, మేము మునుపటి మాదిరిగానే ఆప్టిమైజ్ చేసిన మ్యాపింగ్‌ను పొందుతాము. ఒకే తేడా ఏమిటంటే, అన్ని తర్కం దాని చొప్పింపును భర్తీ చేసే రూపంలో రిసీవర్‌కు బదిలీ చేయబడుతుంది. ఆప్టిమైజ్ చేసిన మ్యాపింగ్ యొక్క ఉదాహరణ క్రింద అందించబడింది.

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఇక్కడ, మునుపటి సందర్భంలో వలె, హడూప్ కండక్టర్ పాత్రను పోషిస్తాడు. కానీ ఇక్కడ మూలం పూర్తిగా చదవబడుతుంది, ఆపై డేటా ప్రాసెసింగ్ లాజిక్ రిసీవర్ స్థాయిలో నిర్వహించబడుతుంది.

పుష్‌డౌన్ రకం శూన్యం

సరే, చివరి ఎంపిక పుష్‌డౌన్ రకం, దానిలో మా మ్యాపింగ్ హడూప్ స్క్రిప్ట్‌గా మారుతుంది.

ఆప్టిమైజ్ చేసిన మ్యాపింగ్ ఇప్పుడు ఇలా కనిపిస్తుంది:

చాలా పెద్ద డేటాను చౌకగా మరియు త్వరగా తరలించడం, అప్‌లోడ్ చేయడం మరియు ఇంటిగ్రేట్ చేయడం ఎలా? పుష్‌డౌన్ ఆప్టిమైజేషన్ అంటే ఏమిటి?

ఇక్కడ సోర్స్ ఫైల్‌ల నుండి డేటా మొదట హడూప్‌లో చదవబడుతుంది. అప్పుడు, తన స్వంత మార్గాలను ఉపయోగించి, ఈ రెండు ఫైళ్లు కలపబడతాయి. దీని తరువాత, డేటా మార్చబడుతుంది మరియు డేటాబేస్కు అప్లోడ్ చేయబడుతుంది.

పుష్‌డౌన్ ఆప్టిమైజేషన్ సూత్రాలను అర్థం చేసుకోవడం ద్వారా, మీరు పెద్ద డేటాతో పని చేయడానికి అనేక ప్రక్రియలను చాలా సమర్థవంతంగా నిర్వహించవచ్చు. ఈ విధంగా, ఇటీవల, ఒక పెద్ద కంపెనీ, కేవలం కొన్ని వారాల్లో, నిల్వ నుండి పెద్ద డేటాను హడూప్‌లోకి డౌన్‌లోడ్ చేసింది, ఇది గతంలో చాలా సంవత్సరాలుగా సేకరించబడింది.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి