క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి

పంపిణీ చేయబడిన కంప్యూటింగ్ మరియు పెద్ద డేటా కోసం మార్కెట్, ప్రకారం గణాంకాలు, సంవత్సరానికి 18-19% పెరుగుతోంది. దీని అర్థం ఈ ప్రయోజనాల కోసం సాఫ్ట్‌వేర్‌ను ఎంచుకునే సమస్య సంబంధితంగా ఉంటుంది. ఈ పోస్ట్‌లో, పంపిణీ చేయబడిన కంప్యూటింగ్ ఎందుకు అవసరమో మేము ప్రారంభిస్తాము, సాఫ్ట్‌వేర్‌ను ఎంచుకోవడం గురించి మరింత వివరంగా చెప్పండి, క్లౌడెరాను ఉపయోగించి హడూప్‌ని ఉపయోగించడం గురించి మాట్లాడండి మరియు చివరకు హార్డ్‌వేర్‌ను ఎంచుకోవడం మరియు అది వివిధ మార్గాల్లో పనితీరును ఎలా ప్రభావితం చేస్తుంది అనే దాని గురించి మాట్లాడుతాము.

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి
సాధారణ వ్యాపారంలో పంపిణీ చేయబడిన కంప్యూటింగ్ ఎందుకు అవసరం? ఇక్కడ ప్రతిదీ ఒకే సమయంలో సరళమైనది మరియు సంక్లిష్టమైనది. సరళమైనది - ఎందుకంటే చాలా సందర్భాలలో మేము సమాచార యూనిట్‌కు సాపేక్షంగా సాధారణ గణనలను నిర్వహిస్తాము. అటువంటి సమాచారం చాలా ఉన్నందున ఇది కష్టం. చాలా. పర్యవసానంగా, ఇది అవసరం 1000 థ్రెడ్‌లలో టెరాబైట్ల డేటాను ప్రాసెస్ చేస్తుంది. అందువల్ల, వినియోగ సందర్భాలు చాలా సార్వత్రికమైనవి: మరింత పెద్ద డేటా శ్రేణిలో పెద్ద సంఖ్యలో కొలమానాలను పరిగణనలోకి తీసుకోవాల్సిన అవసరం ఉన్న చోట గణనలను ఉపయోగించవచ్చు.

ఇటీవలి ఉదాహరణలలో ఒకటి: పిజ్జేరియా చైన్ డోడో పిజ్జా నిర్వచించబడింది కస్టమర్ ఆర్డర్ డేటాబేస్ యొక్క విశ్లేషణ ఆధారంగా, యాదృచ్ఛిక టాపింగ్‌తో పిజ్జాను ఎంచుకున్నప్పుడు, వినియోగదారులు సాధారణంగా ఆరు ప్రాథమిక పదార్థాలతో పాటు కొన్ని యాదృచ్ఛిక పదార్థాలతో మాత్రమే పనిచేస్తారు. దీనికి అనుగుణంగా, పిజ్జేరియా తన కొనుగోళ్లను సర్దుబాటు చేసింది. అదనంగా, ఆర్డరింగ్ దశలో వినియోగదారులకు అందించే అదనపు ఉత్పత్తులను ఆమె బాగా సిఫార్సు చేయగలిగింది, ఇది లాభాలను పెంచింది.

మరో ఉదాహరణ: విశ్లేషణ ఉత్పత్తి వస్తువులు H&M స్టోర్‌ని వ్యక్తిగత దుకాణాల్లో 40% వరకు తగ్గించడానికి అనుమతించాయి, అదే సమయంలో అమ్మకాల స్థాయిలను కొనసాగిస్తుంది. పేలవంగా అమ్ముడైన వస్తువులను మినహాయించడం ద్వారా ఇది సాధించబడింది మరియు గణనలలో కాలానుగుణత పరిగణనలోకి తీసుకోబడింది.

సాధనం ఎంపిక

ఈ రకమైన కంప్యూటింగ్ కోసం పరిశ్రమ ప్రమాణం హడూప్. ఎందుకు? ఎందుకంటే హడూప్ ఒక అద్భుతమైన, చక్కగా డాక్యుమెంట్ చేయబడిన ఫ్రేమ్‌వర్క్ (అదే హబ్ర్ ఈ అంశంపై అనేక వివరణాత్మక కథనాలను అందిస్తుంది), ఇది మొత్తం యుటిలిటీస్ మరియు లైబ్రరీలతో కూడి ఉంటుంది. మీరు నిర్మాణాత్మక మరియు నిర్మాణాత్మక డేటా రెండింటి యొక్క భారీ సెట్‌లను ఇన్‌పుట్ చేయవచ్చు మరియు సిస్టమ్ దానిని కంప్యూటింగ్ పవర్‌లో పంపిణీ చేస్తుంది. అంతేకాకుండా, ఇదే సామర్థ్యాలను ఏ సమయంలోనైనా పెంచవచ్చు లేదా నిలిపివేయవచ్చు - అదే క్షితిజ సమాంతర స్కేలబిలిటీ చర్యలో ఉంటుంది.

2017లో, ప్రభావవంతమైన కన్సల్టింగ్ కంపెనీ గార్ట్‌నర్ నిర్ధారించారుహడూప్ త్వరలో వాడుకలో ఉండదు. కారణం చాలా సామాన్యమైనది: కంపెనీలు క్లౌడ్‌కు భారీగా వలసపోతాయని విశ్లేషకులు విశ్వసిస్తారు, ఎందుకంటే వారు కంప్యూటింగ్ శక్తిని ఉపయోగిస్తున్నందున వారు చెల్లించగలరు. హడూప్‌ను "సమాధి" చేయగల రెండవ ముఖ్యమైన అంశం దాని వేగం. ఎందుకంటే Apache Spark లేదా Google Cloud DataFlow వంటి ఎంపికలు MapReduce కంటే వేగవంతమైనవి, ఇది హడూప్‌ను సూచిస్తుంది.

హడూప్ అనేక స్తంభాలపై ఆధారపడి ఉంటుంది, వాటిలో ముఖ్యమైనవి MapReduce టెక్నాలజీలు (సర్వర్‌ల మధ్య లెక్కల కోసం డేటాను పంపిణీ చేసే వ్యవస్థ) మరియు HDFS ఫైల్ సిస్టమ్. రెండోది క్లస్టర్ నోడ్‌ల మధ్య పంపిణీ చేయబడిన సమాచారాన్ని నిల్వ చేయడానికి ప్రత్యేకంగా రూపొందించబడింది: స్థిర పరిమాణంలోని ప్రతి బ్లాక్‌ను అనేక నోడ్‌లలో ఉంచవచ్చు మరియు ప్రతిరూపణకు ధన్యవాదాలు, సిస్టమ్ వ్యక్తిగత నోడ్‌ల వైఫల్యాలకు స్థితిస్థాపకంగా ఉంటుంది. ఫైల్ టేబుల్‌కు బదులుగా, నేమ్‌నోడ్ అనే ప్రత్యేక సర్వర్ ఉపయోగించబడుతుంది.

MapReduce ఎలా పని చేస్తుందో దిగువ ఉదాహరణ చూపిస్తుంది. మొదటి దశలో, డేటా ఒక నిర్దిష్ట ప్రమాణం ప్రకారం విభజించబడింది, రెండవ దశలో అది కంప్యూటింగ్ శక్తి ప్రకారం పంపిణీ చేయబడుతుంది మరియు మూడవ దశలో గణన జరుగుతుంది.

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి
MapReduce నిజానికి దాని శోధన అవసరాల కోసం Google ద్వారా సృష్టించబడింది. తర్వాత MapReduce ఉచిత కోడ్‌ని అందించింది మరియు Apache ప్రాజెక్ట్‌ను స్వాధీనం చేసుకుంది. బాగా, Google క్రమంగా ఇతర పరిష్కారాలకు తరలించబడింది. ఒక ఆసక్తికరమైన చిట్కా: Google ప్రస్తుతం Google క్లౌడ్ డేటాఫ్లో అనే ప్రాజెక్ట్‌ను కలిగి ఉంది, దానికి శీఘ్ర ప్రత్యామ్నాయంగా హడూప్ తర్వాత తదుపరి దశగా ఉంచబడింది.

Google క్లౌడ్ డేటాఫ్లో అపాచీ బీమ్ యొక్క వైవిధ్యంపై ఆధారపడి ఉందని నిశితంగా పరిశీలిస్తే చూపిస్తుంది, అయితే అపాచీ బీమ్ చక్కగా డాక్యుమెంట్ చేయబడిన Apache Spark ఫ్రేమ్‌వర్క్‌ను కలిగి ఉంది, ఇది పరిష్కారాల యొక్క దాదాపు అదే అమలు వేగం గురించి మాట్లాడటానికి అనుమతిస్తుంది. బాగా, అపాచీ స్పార్క్ HDFS ఫైల్ సిస్టమ్‌లో ఖచ్చితంగా పని చేస్తుంది, ఇది హడూప్ సర్వర్‌లలో అమలు చేయడానికి అనుమతిస్తుంది.

హడూప్ మరియు స్పార్క్ వర్సెస్ Google క్లౌడ్ డేటాఫ్లో కోసం డాక్యుమెంటేషన్ వాల్యూమ్ మరియు రెడీమేడ్ సొల్యూషన్‌లను ఇక్కడ జోడించండి మరియు సాధనం ఎంపిక స్పష్టంగా కనిపిస్తుంది. అంతేకాకుండా, ఇంజనీర్లు ఏ కోడ్ - హడూప్ లేదా స్పార్క్ కోసం - వారు పని, అనుభవం మరియు అర్హతలపై దృష్టి సారించి అమలు చేయాలని నిర్ణయించుకోవచ్చు.

క్లౌడ్ లేదా స్థానిక సర్వర్

క్లౌడ్‌కు సాధారణ పరివర్తన వైపు ధోరణి హడూప్-యాజ్-ఎ-సర్వీస్ వంటి ఆసక్తికరమైన పదానికి కూడా దారితీసింది. అటువంటి దృష్టాంతంలో, కనెక్ట్ చేయబడిన సర్వర్ల పరిపాలన చాలా ముఖ్యమైనది. ఎందుకంటే, అయ్యో, దాని ప్రజాదరణ ఉన్నప్పటికీ, స్వచ్ఛమైన హడూప్ కాన్ఫిగర్ చేయడానికి చాలా కష్టమైన సాధనం, ఎందుకంటే చాలా మాన్యువల్‌గా చేయాల్సి ఉంటుంది. ఉదాహరణకు, సర్వర్‌లను వ్యక్తిగతంగా కాన్ఫిగర్ చేయండి, వాటి పనితీరును పర్యవేక్షించండి మరియు అనేక పారామితులను జాగ్రత్తగా కాన్ఫిగర్ చేయండి. సాధారణంగా, పని ఒక ఔత్సాహిక కోసం మరియు ఎక్కడా గందరగోళానికి గురిచేసే లేదా ఏదో కోల్పోయే పెద్ద అవకాశం ఉంది.

అందువల్ల, ప్రారంభంలో అనుకూలమైన విస్తరణ మరియు పరిపాలన సాధనాలతో కూడిన వివిధ పంపిణీ కిట్లు బాగా ప్రాచుర్యం పొందాయి. స్పార్క్‌కి మద్దతిచ్చే మరియు ప్రతిదీ సులభతరం చేసే అత్యంత ప్రజాదరణ పొందిన పంపిణీలలో ఒకటి క్లౌడెరా. ఇది చెల్లింపు మరియు ఉచిత సంస్కరణలు రెండింటినీ కలిగి ఉంది - మరియు చివరిలో నోడ్‌ల సంఖ్యను పరిమితం చేయకుండా అన్ని ప్రాథమిక కార్యాచరణ అందుబాటులో ఉంటుంది.

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి

సెటప్ సమయంలో, Cloudera మేనేజర్ SSH ద్వారా మీ సర్వర్‌లకు కనెక్ట్ అవుతుంది. ఒక ఆసక్తికరమైన విషయం: ఇన్‌స్టాల్ చేస్తున్నప్పుడు, అది పిలవబడే వారిచే నిర్వహించబడుతుందని పేర్కొనడం మంచిది పార్సెల్స్: ప్రత్యేక ప్యాకేజీలు, వీటిలో ప్రతి ఒక్కటి ఒకదానితో ఒకటి పని చేయడానికి కాన్ఫిగర్ చేయబడిన అన్ని అవసరమైన భాగాలను కలిగి ఉంటుంది. ముఖ్యంగా ఇది ప్యాకేజీ మేనేజర్ యొక్క మెరుగైన సంస్కరణ.

ఇన్‌స్టాలేషన్ తర్వాత, మేము క్లస్టర్ మేనేజ్‌మెంట్ కన్సోల్‌ను అందుకుంటాము, ఇక్కడ మీరు క్లస్టర్ టెలిమెట్రీ, ఇన్‌స్టాల్ చేసిన సేవలను చూడవచ్చు, అలాగే మీరు వనరులను జోడించవచ్చు/తీసివేయవచ్చు మరియు క్లస్టర్ కాన్ఫిగరేషన్‌ను సవరించవచ్చు.

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి

ఫలితంగా, బిగ్‌డేటా యొక్క ఉజ్వల భవిష్యత్తులోకి మిమ్మల్ని తీసుకెళ్లే రాకెట్ క్యాబిన్ మీ ముందు కనిపిస్తుంది. కానీ మనం "వెళ్దాం" అని చెప్పే ముందు హుడ్ కిందకి వెళ్దాం.

హార్డ్వేర్ అవసరాలు

దాని వెబ్‌సైట్‌లో, క్లౌడెరా విభిన్న సాధ్యం కాన్ఫిగరేషన్‌లను ప్రస్తావిస్తుంది. అవి నిర్మించబడిన సాధారణ సూత్రాలు దృష్టాంతంలో చూపబడ్డాయి:

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి
MapReduce ఈ ఆశావాద చిత్రాన్ని అస్పష్టం చేస్తుంది. మీరు మునుపటి విభాగం నుండి రేఖాచిత్రాన్ని మళ్లీ చూస్తే, దాదాపు అన్ని సందర్భాల్లో, డిస్క్ నుండి లేదా నెట్‌వర్క్ నుండి డేటాను చదివేటప్పుడు MapReduce ఉద్యోగం అడ్డంకిని ఎదుర్కొంటుందని స్పష్టమవుతుంది. ఇది క్లౌడెరా బ్లాగ్‌లో కూడా గుర్తించబడింది. ఫలితంగా, నిజ-సమయ గణనల కోసం తరచుగా ఉపయోగించే స్పార్క్ ద్వారా సహా ఏదైనా వేగవంతమైన గణనలకు, I/O వేగం చాలా ముఖ్యం. అందువల్ల, హడూప్‌ని ఉపయోగిస్తున్నప్పుడు, క్లస్టర్‌లో బ్యాలెన్స్‌డ్ మరియు ఫాస్ట్ మెషీన్‌లు ఉండటం చాలా ముఖ్యం, ఇది తేలికగా చెప్పాలంటే, క్లౌడ్ ఇన్‌ఫ్రాస్ట్రక్చర్‌లో ఎల్లప్పుడూ నిర్ధారించబడదు.

శక్తివంతమైన మల్టీ-కోర్ CPUలతో సర్వర్‌లపై ఓపెన్‌స్టాక్ వర్చువలైజేషన్ ఉపయోగించడం ద్వారా లోడ్ పంపిణీలో బ్యాలెన్స్ సాధించబడుతుంది. డేటా నోడ్‌లకు వాటి స్వంత ప్రాసెసర్ వనరులు మరియు నిర్దిష్ట డిస్క్‌లు కేటాయించబడతాయి. మా నిర్ణయంలో అటోస్ కోడెక్స్ డేటా లేక్ ఇంజిన్ విస్తృత వర్చువలైజేషన్ సాధించబడింది, అందుకే మేము పనితీరు పరంగా (నెట్‌వర్క్ ఇన్‌ఫ్రాస్ట్రక్చర్ యొక్క ప్రభావం తగ్గించబడుతుంది) మరియు TCO (అదనపు భౌతిక సర్వర్లు తొలగించబడతాయి) రెండింటిలోనూ ప్రయోజనం పొందుతాము.

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి
BullSequana S200 సర్వర్‌లను ఉపయోగిస్తున్నప్పుడు, మేము కొన్ని అడ్డంకులు లేకుండా చాలా ఏకరీతి లోడ్‌ను పొందుతాము. కనిష్ట కాన్ఫిగరేషన్‌లో 3 BullSequana S200 సర్వర్‌లు ఉన్నాయి, ఒక్కొక్కటి రెండు JBODలతో పాటు నాలుగు డేటా నోడ్‌లను కలిగి ఉన్న అదనపు S200లు ఐచ్ఛికంగా కనెక్ట్ చేయబడతాయి. TeraGen పరీక్షలో లోడ్ యొక్క ఉదాహరణ ఇక్కడ ఉంది:

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి

విభిన్న డేటా వాల్యూమ్‌లు మరియు రెప్లికేషన్ విలువలతో పరీక్షలు క్లస్టర్ నోడ్‌ల మధ్య లోడ్ పంపిణీ పరంగా ఒకే ఫలితాలను చూపుతాయి. పనితీరు పరీక్షల ద్వారా డిస్క్ యాక్సెస్ పంపిణీ యొక్క గ్రాఫ్ క్రింద ఉంది.

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి

3 BullSequana S200 సర్వర్‌ల కనీస కాన్ఫిగరేషన్ ఆధారంగా గణనలు జరిగాయి. ఇది 9 డేటా నోడ్‌లు మరియు 3 మాస్టర్ నోడ్‌లను కలిగి ఉంటుంది, అలాగే OpenStack వర్చువలైజేషన్ ఆధారంగా రక్షణ యొక్క విస్తరణ విషయంలో రిజర్వు చేయబడిన వర్చువల్ మిషన్‌లను కలిగి ఉంటుంది. TeraSort పరీక్ష ఫలితం: బ్లాక్ పరిమాణం 512 MB రెప్లికేషన్ ఫ్యాక్టర్ ఎన్‌క్రిప్షన్‌తో మూడుకి సమానం 23,1 నిమిషాలు.

వ్యవస్థను ఎలా విస్తరించవచ్చు? డేటా లేక్ ఇంజిన్ కోసం వివిధ రకాల పొడిగింపులు అందుబాటులో ఉన్నాయి:

  • డేటా నోడ్‌లు: ప్రతి 40 TB ఉపయోగించగల స్థలానికి
  • GPUని ఇన్‌స్టాల్ చేయగల సామర్థ్యంతో విశ్లేషణాత్మక నోడ్‌లు
  • వ్యాపార అవసరాలను బట్టి ఇతర ఎంపికలు (ఉదాహరణకు, మీకు కాఫ్కా మరియు ఇలాంటివి అవసరమైతే)

క్లౌడెరా యొక్క ప్రత్యేకత ఏమిటి మరియు దానిని ఎలా ఉడికించాలి

అటోస్ కోడెక్స్ డేటా లేక్ ఇంజిన్ సర్వర్‌లను కలిగి ఉంటుంది మరియు లైసెన్స్ పొందిన క్లౌడెరా కిట్‌తో సహా ముందే ఇన్‌స్టాల్ చేసిన సాఫ్ట్‌వేర్; హడూప్ స్వయంగా, RedHat Enterprise Linux కెర్నల్, డేటా రెప్లికేషన్ మరియు బ్యాకప్ సిస్టమ్స్ (బ్యాకప్ నోడ్ మరియు క్లౌడెరా BDR - బ్యాకప్ మరియు డిజాస్టర్ రికవరీతో సహా) ఆధారంగా వర్చువల్ మిషన్‌లతో ఓపెన్‌స్టాక్. అటోస్ కోడెక్స్ డేటా లేక్ ఇంజిన్ ధృవీకరించబడిన మొదటి వర్చువలైజేషన్ సొల్యూషన్‌గా మారింది Cloudera.

మీకు వివరాలపై ఆసక్తి ఉంటే, వ్యాఖ్యలలో మా ప్రశ్నలకు సమాధానం ఇవ్వడానికి మేము సంతోషిస్తాము.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి