పంపిణీ చేయబడిన కంప్యూటింగ్ మరియు పెద్ద డేటా కోసం మార్కెట్, ప్రకారం
సాధారణ వ్యాపారంలో పంపిణీ చేయబడిన కంప్యూటింగ్ ఎందుకు అవసరం? ఇక్కడ ప్రతిదీ ఒకే సమయంలో సరళమైనది మరియు సంక్లిష్టమైనది. సరళమైనది - ఎందుకంటే చాలా సందర్భాలలో మేము సమాచార యూనిట్కు సాపేక్షంగా సాధారణ గణనలను నిర్వహిస్తాము. అటువంటి సమాచారం చాలా ఉన్నందున ఇది కష్టం. చాలా. పర్యవసానంగా, ఇది అవసరం
ఇటీవలి ఉదాహరణలలో ఒకటి: పిజ్జేరియా చైన్ డోడో పిజ్జా
మరో ఉదాహరణ:
సాధనం ఎంపిక
ఈ రకమైన కంప్యూటింగ్ కోసం పరిశ్రమ ప్రమాణం హడూప్. ఎందుకు? ఎందుకంటే హడూప్ ఒక అద్భుతమైన, చక్కగా డాక్యుమెంట్ చేయబడిన ఫ్రేమ్వర్క్ (అదే హబ్ర్ ఈ అంశంపై అనేక వివరణాత్మక కథనాలను అందిస్తుంది), ఇది మొత్తం యుటిలిటీస్ మరియు లైబ్రరీలతో కూడి ఉంటుంది. మీరు నిర్మాణాత్మక మరియు నిర్మాణాత్మక డేటా రెండింటి యొక్క భారీ సెట్లను ఇన్పుట్ చేయవచ్చు మరియు సిస్టమ్ దానిని కంప్యూటింగ్ పవర్లో పంపిణీ చేస్తుంది. అంతేకాకుండా, ఇదే సామర్థ్యాలను ఏ సమయంలోనైనా పెంచవచ్చు లేదా నిలిపివేయవచ్చు - అదే క్షితిజ సమాంతర స్కేలబిలిటీ చర్యలో ఉంటుంది.
2017లో, ప్రభావవంతమైన కన్సల్టింగ్ కంపెనీ గార్ట్నర్
హడూప్ అనేక స్తంభాలపై ఆధారపడి ఉంటుంది, వాటిలో ముఖ్యమైనవి MapReduce టెక్నాలజీలు (సర్వర్ల మధ్య లెక్కల కోసం డేటాను పంపిణీ చేసే వ్యవస్థ) మరియు HDFS ఫైల్ సిస్టమ్. రెండోది క్లస్టర్ నోడ్ల మధ్య పంపిణీ చేయబడిన సమాచారాన్ని నిల్వ చేయడానికి ప్రత్యేకంగా రూపొందించబడింది: స్థిర పరిమాణంలోని ప్రతి బ్లాక్ను అనేక నోడ్లలో ఉంచవచ్చు మరియు ప్రతిరూపణకు ధన్యవాదాలు, సిస్టమ్ వ్యక్తిగత నోడ్ల వైఫల్యాలకు స్థితిస్థాపకంగా ఉంటుంది. ఫైల్ టేబుల్కు బదులుగా, నేమ్నోడ్ అనే ప్రత్యేక సర్వర్ ఉపయోగించబడుతుంది.
MapReduce ఎలా పని చేస్తుందో దిగువ ఉదాహరణ చూపిస్తుంది. మొదటి దశలో, డేటా ఒక నిర్దిష్ట ప్రమాణం ప్రకారం విభజించబడింది, రెండవ దశలో అది కంప్యూటింగ్ శక్తి ప్రకారం పంపిణీ చేయబడుతుంది మరియు మూడవ దశలో గణన జరుగుతుంది.
MapReduce నిజానికి దాని శోధన అవసరాల కోసం Google ద్వారా సృష్టించబడింది. తర్వాత MapReduce ఉచిత కోడ్ని అందించింది మరియు Apache ప్రాజెక్ట్ను స్వాధీనం చేసుకుంది. బాగా, Google క్రమంగా ఇతర పరిష్కారాలకు తరలించబడింది. ఒక ఆసక్తికరమైన చిట్కా: Google ప్రస్తుతం Google క్లౌడ్ డేటాఫ్లో అనే ప్రాజెక్ట్ను కలిగి ఉంది, దానికి శీఘ్ర ప్రత్యామ్నాయంగా హడూప్ తర్వాత తదుపరి దశగా ఉంచబడింది.
Google క్లౌడ్ డేటాఫ్లో అపాచీ బీమ్ యొక్క వైవిధ్యంపై ఆధారపడి ఉందని నిశితంగా పరిశీలిస్తే చూపిస్తుంది, అయితే అపాచీ బీమ్ చక్కగా డాక్యుమెంట్ చేయబడిన Apache Spark ఫ్రేమ్వర్క్ను కలిగి ఉంది, ఇది పరిష్కారాల యొక్క దాదాపు అదే అమలు వేగం గురించి మాట్లాడటానికి అనుమతిస్తుంది. బాగా, అపాచీ స్పార్క్ HDFS ఫైల్ సిస్టమ్లో ఖచ్చితంగా పని చేస్తుంది, ఇది హడూప్ సర్వర్లలో అమలు చేయడానికి అనుమతిస్తుంది.
హడూప్ మరియు స్పార్క్ వర్సెస్ Google క్లౌడ్ డేటాఫ్లో కోసం డాక్యుమెంటేషన్ వాల్యూమ్ మరియు రెడీమేడ్ సొల్యూషన్లను ఇక్కడ జోడించండి మరియు సాధనం ఎంపిక స్పష్టంగా కనిపిస్తుంది. అంతేకాకుండా, ఇంజనీర్లు ఏ కోడ్ - హడూప్ లేదా స్పార్క్ కోసం - వారు పని, అనుభవం మరియు అర్హతలపై దృష్టి సారించి అమలు చేయాలని నిర్ణయించుకోవచ్చు.
క్లౌడ్ లేదా స్థానిక సర్వర్
క్లౌడ్కు సాధారణ పరివర్తన వైపు ధోరణి హడూప్-యాజ్-ఎ-సర్వీస్ వంటి ఆసక్తికరమైన పదానికి కూడా దారితీసింది. అటువంటి దృష్టాంతంలో, కనెక్ట్ చేయబడిన సర్వర్ల పరిపాలన చాలా ముఖ్యమైనది. ఎందుకంటే, అయ్యో, దాని ప్రజాదరణ ఉన్నప్పటికీ, స్వచ్ఛమైన హడూప్ కాన్ఫిగర్ చేయడానికి చాలా కష్టమైన సాధనం, ఎందుకంటే చాలా మాన్యువల్గా చేయాల్సి ఉంటుంది. ఉదాహరణకు, సర్వర్లను వ్యక్తిగతంగా కాన్ఫిగర్ చేయండి, వాటి పనితీరును పర్యవేక్షించండి మరియు అనేక పారామితులను జాగ్రత్తగా కాన్ఫిగర్ చేయండి. సాధారణంగా, పని ఒక ఔత్సాహిక కోసం మరియు ఎక్కడా గందరగోళానికి గురిచేసే లేదా ఏదో కోల్పోయే పెద్ద అవకాశం ఉంది.
అందువల్ల, ప్రారంభంలో అనుకూలమైన విస్తరణ మరియు పరిపాలన సాధనాలతో కూడిన వివిధ పంపిణీ కిట్లు బాగా ప్రాచుర్యం పొందాయి. స్పార్క్కి మద్దతిచ్చే మరియు ప్రతిదీ సులభతరం చేసే అత్యంత ప్రజాదరణ పొందిన పంపిణీలలో ఒకటి క్లౌడెరా. ఇది చెల్లింపు మరియు ఉచిత సంస్కరణలు రెండింటినీ కలిగి ఉంది - మరియు చివరిలో నోడ్ల సంఖ్యను పరిమితం చేయకుండా అన్ని ప్రాథమిక కార్యాచరణ అందుబాటులో ఉంటుంది.
సెటప్ సమయంలో, Cloudera మేనేజర్ SSH ద్వారా మీ సర్వర్లకు కనెక్ట్ అవుతుంది. ఒక ఆసక్తికరమైన విషయం: ఇన్స్టాల్ చేస్తున్నప్పుడు, అది పిలవబడే వారిచే నిర్వహించబడుతుందని పేర్కొనడం మంచిది పార్సెల్స్: ప్రత్యేక ప్యాకేజీలు, వీటిలో ప్రతి ఒక్కటి ఒకదానితో ఒకటి పని చేయడానికి కాన్ఫిగర్ చేయబడిన అన్ని అవసరమైన భాగాలను కలిగి ఉంటుంది. ముఖ్యంగా ఇది ప్యాకేజీ మేనేజర్ యొక్క మెరుగైన సంస్కరణ.
ఇన్స్టాలేషన్ తర్వాత, మేము క్లస్టర్ మేనేజ్మెంట్ కన్సోల్ను అందుకుంటాము, ఇక్కడ మీరు క్లస్టర్ టెలిమెట్రీ, ఇన్స్టాల్ చేసిన సేవలను చూడవచ్చు, అలాగే మీరు వనరులను జోడించవచ్చు/తీసివేయవచ్చు మరియు క్లస్టర్ కాన్ఫిగరేషన్ను సవరించవచ్చు.
ఫలితంగా, బిగ్డేటా యొక్క ఉజ్వల భవిష్యత్తులోకి మిమ్మల్ని తీసుకెళ్లే రాకెట్ క్యాబిన్ మీ ముందు కనిపిస్తుంది. కానీ మనం "వెళ్దాం" అని చెప్పే ముందు హుడ్ కిందకి వెళ్దాం.
హార్డ్వేర్ అవసరాలు
దాని వెబ్సైట్లో, క్లౌడెరా విభిన్న సాధ్యం కాన్ఫిగరేషన్లను ప్రస్తావిస్తుంది. అవి నిర్మించబడిన సాధారణ సూత్రాలు దృష్టాంతంలో చూపబడ్డాయి:
MapReduce ఈ ఆశావాద చిత్రాన్ని అస్పష్టం చేస్తుంది. మీరు మునుపటి విభాగం నుండి రేఖాచిత్రాన్ని మళ్లీ చూస్తే, దాదాపు అన్ని సందర్భాల్లో, డిస్క్ నుండి లేదా నెట్వర్క్ నుండి డేటాను చదివేటప్పుడు MapReduce ఉద్యోగం అడ్డంకిని ఎదుర్కొంటుందని స్పష్టమవుతుంది. ఇది క్లౌడెరా బ్లాగ్లో కూడా గుర్తించబడింది. ఫలితంగా, నిజ-సమయ గణనల కోసం తరచుగా ఉపయోగించే స్పార్క్ ద్వారా సహా ఏదైనా వేగవంతమైన గణనలకు, I/O వేగం చాలా ముఖ్యం. అందువల్ల, హడూప్ని ఉపయోగిస్తున్నప్పుడు, క్లస్టర్లో బ్యాలెన్స్డ్ మరియు ఫాస్ట్ మెషీన్లు ఉండటం చాలా ముఖ్యం, ఇది తేలికగా చెప్పాలంటే, క్లౌడ్ ఇన్ఫ్రాస్ట్రక్చర్లో ఎల్లప్పుడూ నిర్ధారించబడదు.
శక్తివంతమైన మల్టీ-కోర్ CPUలతో సర్వర్లపై ఓపెన్స్టాక్ వర్చువలైజేషన్ ఉపయోగించడం ద్వారా లోడ్ పంపిణీలో బ్యాలెన్స్ సాధించబడుతుంది. డేటా నోడ్లకు వాటి స్వంత ప్రాసెసర్ వనరులు మరియు నిర్దిష్ట డిస్క్లు కేటాయించబడతాయి. మా నిర్ణయంలో అటోస్ కోడెక్స్ డేటా లేక్ ఇంజిన్ విస్తృత వర్చువలైజేషన్ సాధించబడింది, అందుకే మేము పనితీరు పరంగా (నెట్వర్క్ ఇన్ఫ్రాస్ట్రక్చర్ యొక్క ప్రభావం తగ్గించబడుతుంది) మరియు TCO (అదనపు భౌతిక సర్వర్లు తొలగించబడతాయి) రెండింటిలోనూ ప్రయోజనం పొందుతాము.
BullSequana S200 సర్వర్లను ఉపయోగిస్తున్నప్పుడు, మేము కొన్ని అడ్డంకులు లేకుండా చాలా ఏకరీతి లోడ్ను పొందుతాము. కనిష్ట కాన్ఫిగరేషన్లో 3 BullSequana S200 సర్వర్లు ఉన్నాయి, ఒక్కొక్కటి రెండు JBODలతో పాటు నాలుగు డేటా నోడ్లను కలిగి ఉన్న అదనపు S200లు ఐచ్ఛికంగా కనెక్ట్ చేయబడతాయి. TeraGen పరీక్షలో లోడ్ యొక్క ఉదాహరణ ఇక్కడ ఉంది:
విభిన్న డేటా వాల్యూమ్లు మరియు రెప్లికేషన్ విలువలతో పరీక్షలు క్లస్టర్ నోడ్ల మధ్య లోడ్ పంపిణీ పరంగా ఒకే ఫలితాలను చూపుతాయి. పనితీరు పరీక్షల ద్వారా డిస్క్ యాక్సెస్ పంపిణీ యొక్క గ్రాఫ్ క్రింద ఉంది.
3 BullSequana S200 సర్వర్ల కనీస కాన్ఫిగరేషన్ ఆధారంగా గణనలు జరిగాయి. ఇది 9 డేటా నోడ్లు మరియు 3 మాస్టర్ నోడ్లను కలిగి ఉంటుంది, అలాగే OpenStack వర్చువలైజేషన్ ఆధారంగా రక్షణ యొక్క విస్తరణ విషయంలో రిజర్వు చేయబడిన వర్చువల్ మిషన్లను కలిగి ఉంటుంది. TeraSort పరీక్ష ఫలితం: బ్లాక్ పరిమాణం 512 MB రెప్లికేషన్ ఫ్యాక్టర్ ఎన్క్రిప్షన్తో మూడుకి సమానం 23,1 నిమిషాలు.
వ్యవస్థను ఎలా విస్తరించవచ్చు? డేటా లేక్ ఇంజిన్ కోసం వివిధ రకాల పొడిగింపులు అందుబాటులో ఉన్నాయి:
- డేటా నోడ్లు: ప్రతి 40 TB ఉపయోగించగల స్థలానికి
- GPUని ఇన్స్టాల్ చేయగల సామర్థ్యంతో విశ్లేషణాత్మక నోడ్లు
- వ్యాపార అవసరాలను బట్టి ఇతర ఎంపికలు (ఉదాహరణకు, మీకు కాఫ్కా మరియు ఇలాంటివి అవసరమైతే)
అటోస్ కోడెక్స్ డేటా లేక్ ఇంజిన్ సర్వర్లను కలిగి ఉంటుంది మరియు లైసెన్స్ పొందిన క్లౌడెరా కిట్తో సహా ముందే ఇన్స్టాల్ చేసిన సాఫ్ట్వేర్; హడూప్ స్వయంగా, RedHat Enterprise Linux కెర్నల్, డేటా రెప్లికేషన్ మరియు బ్యాకప్ సిస్టమ్స్ (బ్యాకప్ నోడ్ మరియు క్లౌడెరా BDR - బ్యాకప్ మరియు డిజాస్టర్ రికవరీతో సహా) ఆధారంగా వర్చువల్ మిషన్లతో ఓపెన్స్టాక్. అటోస్ కోడెక్స్ డేటా లేక్ ఇంజిన్ ధృవీకరించబడిన మొదటి వర్చువలైజేషన్ సొల్యూషన్గా మారింది
మీకు వివరాలపై ఆసక్తి ఉంటే, వ్యాఖ్యలలో మా ప్రశ్నలకు సమాధానం ఇవ్వడానికి మేము సంతోషిస్తాము.
మూలం: www.habr.com