ఏదైనా పెద్ద డేటా ఆపరేషన్కు చాలా కంప్యూటింగ్ పవర్ అవసరం. డేటాబేస్ నుండి హడూప్కి డేటా యొక్క సాధారణ తరలింపు వారాలు పట్టవచ్చు లేదా విమానం వింగ్కు అయ్యేంత ఖర్చు అవుతుంది. వేచి ఉండి డబ్బు ఖర్చు చేయకూడదనుకుంటున్నారా? వివిధ ప్లాట్ఫారమ్లలో లోడ్ను బ్యాలెన్స్ చేయండి. ఒక మార్గం పుష్డౌన్ ఆప్టిమైజేషన్.
ఇన్ఫర్మేటికా బిగ్ డేటా మేనేజ్మెంట్ (BDM)లో పుష్డౌన్ ఆప్టిమైజేషన్ ఫంక్షన్ గురించి మాట్లాడమని ఇన్ఫర్మేటికా ఉత్పత్తుల అభివృద్ధి మరియు నిర్వహణ కోసం రష్యాకు చెందిన ప్రముఖ శిక్షకుడు అలెక్సీ అనన్యేవ్ని నేను అడిగాను. మీరు ఎప్పుడైనా ఇన్ఫర్మాటికా ఉత్పత్తులతో పని చేయడం నేర్చుకున్నారా? చాలా మటుకు, అలెక్సీ పవర్సెంటర్ యొక్క ప్రాథమికాలను మీకు చెప్పాడు మరియు మ్యాపింగ్లను ఎలా నిర్మించాలో వివరించాడు.
Alexey Ananyev, DIS గ్రూప్లో శిక్షణా అధిపతి
పుష్డౌన్ అంటే ఏమిటి?
మీలో చాలా మందికి ఇప్పటికే ఇన్ఫర్మేటికా బిగ్ డేటా మేనేజ్మెంట్ (BDM) గురించి తెలుసు. ఉత్పత్తి వివిధ మూలాధారాల నుండి పెద్ద డేటాను ఏకీకృతం చేయగలదు, వివిధ సిస్టమ్ల మధ్య దానిని తరలించగలదు, దానికి సులభమైన ప్రాప్యతను అందిస్తుంది, దానిని ప్రొఫైల్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది మరియు మరిన్ని చేయవచ్చు.
కుడి చేతుల్లో, BDM అద్భుతాలు చేయగలదు: పనులు త్వరగా మరియు తక్కువ కంప్యూటింగ్ వనరులతో పూర్తి చేయబడతాయి.
అది కూడా కావాలా? వివిధ ప్లాట్ఫారమ్లలో కంప్యూటింగ్ లోడ్ను పంపిణీ చేయడానికి BDMలో పుష్డౌన్ ఫీచర్ని ఉపయోగించడం నేర్చుకోండి. మ్యాపింగ్ను స్క్రిప్ట్గా మార్చడానికి మరియు ఈ స్క్రిప్ట్ అమలు అయ్యే వాతావరణాన్ని ఎంచుకోవడానికి పుష్డౌన్ టెక్నాలజీ మిమ్మల్ని అనుమతిస్తుంది. ఈ ఎంపిక వివిధ ప్లాట్ఫారమ్ల బలాలను మిళితం చేయడానికి మరియు వాటి గరిష్ట పనితీరును సాధించడానికి మిమ్మల్ని అనుమతిస్తుంది.
స్క్రిప్ట్ అమలు వాతావరణాన్ని కాన్ఫిగర్ చేయడానికి, మీరు పుష్డౌన్ రకాన్ని ఎంచుకోవాలి. స్క్రిప్ట్ పూర్తిగా హడూప్లో అమలు చేయబడుతుంది లేదా మూలం మరియు సింక్ మధ్య పాక్షికంగా పంపిణీ చేయబడుతుంది. 4 సాధ్యమైన పుష్డౌన్ రకాలు ఉన్నాయి. మ్యాపింగ్ను స్క్రిప్ట్ (స్థానిక)గా మార్చాల్సిన అవసరం లేదు. మూలాధారం (మూలం) లేదా పూర్తిగా మూలం (పూర్తి)పై సాధ్యమైనంతవరకు మ్యాపింగ్ చేయవచ్చు. మ్యాపింగ్ను హడూప్ స్క్రిప్ట్గా కూడా మార్చవచ్చు (ఏదీ లేదు).
పుష్డౌన్ ఆప్టిమైజేషన్
జాబితా చేయబడిన 4 రకాలను వివిధ మార్గాల్లో కలపవచ్చు - సిస్టమ్ యొక్క నిర్దిష్ట అవసరాల కోసం పుష్డౌన్ను ఆప్టిమైజ్ చేయవచ్చు. ఉదాహరణకు, దాని స్వంత సామర్థ్యాలను ఉపయోగించి డేటాబేస్ నుండి డేటాను సంగ్రహించడం తరచుగా సరైనది. మరియు డేటాబేస్ను ఓవర్లోడ్ చేయకుండా హడూప్ ఉపయోగించి డేటా మార్చబడుతుంది.
మూలం మరియు గమ్యం రెండూ డేటాబేస్లో ఉన్నప్పుడు కేసును పరిశీలిద్దాం మరియు పరివర్తన అమలు ప్లాట్ఫారమ్ను ఎంచుకోవచ్చు: సెట్టింగ్లను బట్టి, ఇది ఇన్ఫర్మాటికా, డేటాబేస్ సర్వర్ లేదా హడూప్ అవుతుంది. ఇటువంటి ఉదాహరణ ఈ మెకానిజం యొక్క ఆపరేషన్ యొక్క సాంకేతిక వైపు చాలా ఖచ్చితంగా అర్థం చేసుకోవడానికి మిమ్మల్ని అనుమతిస్తుంది. సహజంగానే, నిజ జీవితంలో, ఈ పరిస్థితి తలెత్తదు, కానీ ఇది కార్యాచరణను ప్రదర్శించడానికి ఉత్తమంగా సరిపోతుంది.
ఒకే ఒరాకిల్ డేటాబేస్లో రెండు పట్టికలను చదవడానికి మ్యాపింగ్ తీసుకుందాం. మరియు పఠన ఫలితాలను అదే డేటాబేస్లోని పట్టికలో రికార్డ్ చేయనివ్వండి. మ్యాపింగ్ పథకం ఇలా ఉంటుంది:
ఇన్ఫర్మేటికా BDM 10.2.1లో మ్యాపింగ్ రూపంలో ఇది ఇలా కనిపిస్తుంది:
పుష్డౌన్ రకం - స్థానిక
మేము పుష్డౌన్ స్థానిక రకాన్ని ఎంచుకుంటే, మ్యాపింగ్ ఇన్ఫర్మాటికా సర్వర్లో నిర్వహించబడుతుంది. డేటా ఒరాకిల్ సర్వర్ నుండి చదవబడుతుంది, ఇన్ఫర్మాటికా సర్వర్కు బదిలీ చేయబడుతుంది, అక్కడ రూపాంతరం చెందుతుంది మరియు హడూప్కు బదిలీ చేయబడుతుంది. మరో మాటలో చెప్పాలంటే, మేము సాధారణ ETL ప్రక్రియను పొందుతాము.
పుష్డౌన్ రకం - మూలం
మూలాధార రకాన్ని ఎన్నుకునేటప్పుడు, డేటాబేస్ సర్వర్ (DB) మరియు హడూప్ మధ్య మా ప్రక్రియను పంపిణీ చేయడానికి మేము అవకాశాన్ని పొందుతాము. ఈ సెట్టింగ్తో ప్రక్రియను అమలు చేసినప్పుడు, పట్టికల నుండి డేటాను తిరిగి పొందే అభ్యర్థనలు డేటాబేస్కు పంపబడతాయి. మరియు మిగిలినవి హడూప్లో దశల రూపంలో ప్రదర్శించబడతాయి.
అమలు రేఖాచిత్రం ఇలా కనిపిస్తుంది:
రన్టైమ్ ఎన్విరాన్మెంట్ను సెటప్ చేయడానికి దిగువ ఉదాహరణ.
ఈ సందర్భంలో, మ్యాపింగ్ రెండు దశల్లో నిర్వహించబడుతుంది. దాని సెట్టింగ్లలో అది మూలానికి పంపబడే స్క్రిప్ట్గా మారిందని మనం చూస్తాము. అంతేకాకుండా, పట్టికలను కలపడం మరియు డేటాను మార్చడం మూలాధారంపై ఓవర్రైడ్ ప్రశ్న రూపంలో నిర్వహించబడతాయి.
దిగువ చిత్రంలో, మేము BDMలో ఆప్టిమైజ్ చేసిన మ్యాపింగ్ను మరియు మూలంపై పునర్నిర్వచించబడిన ప్రశ్నను చూస్తాము.
ఈ కాన్ఫిగరేషన్లో హడూప్ పాత్ర డేటా యొక్క ప్రవాహాన్ని నిర్వహించడానికి - దానిని ఆర్కెస్ట్రేట్ చేయడానికి తగ్గించబడుతుంది. ప్రశ్న ఫలితం హడూప్కి పంపబడుతుంది. చదవడం పూర్తయిన తర్వాత, హడూప్ నుండి ఫైల్ సింక్కు వ్రాయబడుతుంది.
పుష్డౌన్ రకం - పూర్తి
మీరు పూర్తి రకాన్ని ఎంచుకున్నప్పుడు, మ్యాపింగ్ పూర్తిగా డేటాబేస్ ప్రశ్నగా మారుతుంది. మరియు అభ్యర్థన ఫలితం హడూప్కు పంపబడుతుంది. అటువంటి ప్రక్రియ యొక్క రేఖాచిత్రం క్రింద ప్రదర్శించబడింది.
ఒక ఉదాహరణ సెటప్ క్రింద చూపబడింది.
ఫలితంగా, మేము మునుపటి మాదిరిగానే ఆప్టిమైజ్ చేసిన మ్యాపింగ్ను పొందుతాము. ఒకే తేడా ఏమిటంటే, అన్ని తర్కం దాని చొప్పింపును భర్తీ చేసే రూపంలో రిసీవర్కు బదిలీ చేయబడుతుంది. ఆప్టిమైజ్ చేసిన మ్యాపింగ్ యొక్క ఉదాహరణ క్రింద అందించబడింది.
ఇక్కడ, మునుపటి సందర్భంలో వలె, హడూప్ కండక్టర్ పాత్రను పోషిస్తాడు. కానీ ఇక్కడ మూలం పూర్తిగా చదవబడుతుంది, ఆపై డేటా ప్రాసెసింగ్ లాజిక్ రిసీవర్ స్థాయిలో నిర్వహించబడుతుంది.
పుష్డౌన్ రకం శూన్యం
సరే, చివరి ఎంపిక పుష్డౌన్ రకం, దానిలో మా మ్యాపింగ్ హడూప్ స్క్రిప్ట్గా మారుతుంది.
ఆప్టిమైజ్ చేసిన మ్యాపింగ్ ఇప్పుడు ఇలా కనిపిస్తుంది:
ఇక్కడ సోర్స్ ఫైల్ల నుండి డేటా మొదట హడూప్లో చదవబడుతుంది. అప్పుడు, తన స్వంత మార్గాలను ఉపయోగించి, ఈ రెండు ఫైళ్లు కలపబడతాయి. దీని తరువాత, డేటా మార్చబడుతుంది మరియు డేటాబేస్కు అప్లోడ్ చేయబడుతుంది.
పుష్డౌన్ ఆప్టిమైజేషన్ సూత్రాలను అర్థం చేసుకోవడం ద్వారా, మీరు పెద్ద డేటాతో పని చేయడానికి అనేక ప్రక్రియలను చాలా సమర్థవంతంగా నిర్వహించవచ్చు. ఈ విధంగా, ఇటీవల, ఒక పెద్ద కంపెనీ, కేవలం కొన్ని వారాల్లో, నిల్వ నుండి పెద్ద డేటాను హడూప్లోకి డౌన్లోడ్ చేసింది, ఇది గతంలో చాలా సంవత్సరాలుగా సేకరించబడింది.
మూలం: www.habr.com