ఒలేగ్ అనస్తాస్యేవ్‌తో మినీ-ఇంటర్వ్యూ: అపాచీ కసాండ్రాలో తప్పు సహనం

ఒలేగ్ అనస్తాస్యేవ్‌తో మినీ-ఇంటర్వ్యూ: అపాచీ కసాండ్రాలో తప్పు సహనం

Odnoklassniki RuNetలో Apache Cassandra యొక్క అతిపెద్ద వినియోగదారు మరియు ప్రపంచంలోనే అతిపెద్ద వాటిలో ఒకటి. మేము ఫోటో రేటింగ్‌లను నిల్వ చేయడానికి 2010లో కాసాండ్రాను ఉపయోగించడం ప్రారంభించాము మరియు ఇప్పుడు కాసాండ్రా వేలాది నోడ్‌లలో పెటాబైట్‌ల డేటాను నిర్వహిస్తోంది, వాస్తవానికి, మేము మా స్వంతంగా కూడా అభివృద్ధి చేసాము NewSQL లావాదేవీల డేటాబేస్.
సెప్టెంబర్ 12 న మా సెయింట్ పీటర్స్బర్గ్ కార్యాలయంలో మేము నిర్వహిస్తాము రెండవ సమావేశం అపాచీ కాసాండ్రాకు అంకితం చేయబడింది. ఈవెంట్ యొక్క ప్రధాన వక్త Odnoklassniki ఒలేగ్ అనస్తాస్యేవ్ యొక్క చీఫ్ ఇంజనీర్. ఒలేగ్ పంపిణీ మరియు తప్పు-తట్టుకునే వ్యవస్థల రంగంలో నిపుణుడు; అతను 10 సంవత్సరాలకు పైగా మరియు పదేపదే కాసాండ్రాతో పని చేస్తున్నాడు. సమావేశాలలో ఈ ఉత్పత్తిని ఉపయోగించడం యొక్క లక్షణాల గురించి మాట్లాడారు.

మీటప్ సందర్భంగా, మేము కాసాండ్రాతో పంపిణీ చేయబడిన వ్యవస్థల యొక్క తప్పు సహనం గురించి ఒలేగ్‌తో మాట్లాడాము, అతను మీటప్‌లో ఏమి మాట్లాడతాడని మరియు ఈ ఈవెంట్‌కు హాజరు కావడం ఎందుకు విలువైనదని అడిగాము.

ఒలేగ్ తన ప్రోగ్రామింగ్ వృత్తిని తిరిగి 1995లో ప్రారంభించాడు. అతను బ్యాంకింగ్, టెలికాం మరియు రవాణాలో సాఫ్ట్‌వేర్‌ను అభివృద్ధి చేశాడు. అతను ప్లాట్‌ఫారమ్ బృందంలో 2007 నుండి ఓడ్నోక్లాస్నికిలో ప్రముఖ డెవలపర్‌గా పనిచేస్తున్నాడు. అతని బాధ్యతలలో అధిక-లోడ్ వ్యవస్థలు, పెద్ద డేటా గిడ్డంగుల కోసం నిర్మాణాలు మరియు పరిష్కారాలను అభివృద్ధి చేయడం మరియు పోర్టల్ పనితీరు మరియు విశ్వసనీయత సమస్యలను పరిష్కరించడం ఉన్నాయి. అతను కంపెనీలో డెవలపర్‌లకు కూడా శిక్షణ ఇస్తాడు.

- ఒలేగ్, హలో! మేలో జరిగింది మొదటి సమావేశం, Apache Cassandraకి అంకితం చేయబడింది, చర్చలు అర్థరాత్రి వరకు సాగాయని, దయచేసి నాకు చెప్పండి, మొదటి మీట్‌అప్ గురించి మీ అభిప్రాయాలు ఏమిటి?

వివిధ కంపెనీల నుండి విభిన్న నేపథ్యాలు కలిగిన డెవలపర్‌లు వారి స్వంత నొప్పి, సమస్యలకు ఊహించని పరిష్కారాలు మరియు అద్భుతమైన కథనాలతో వచ్చారు. మేము చాలా సమావేశాలను చర్చా ఆకృతిలో నిర్వహించగలిగాము, కానీ చాలా చర్చలు జరిగాయి, మేము ప్రణాళికాబద్ధమైన అంశాలలో మూడవ వంతు మాత్రమే టచ్ చేయగలిగాము. మా నిజమైన ఉత్పత్తి సేవల ఉదాహరణను ఉపయోగించి మేము ఎలా మరియు ఏమి పర్యవేక్షిస్తాము అనే దానిపై మేము చాలా శ్రద్ధ చూపాము.

నేను ఆసక్తి కలిగి ఉన్నాను మరియు నిజంగా ఇష్టపడ్డాను.

- ప్రకటన ద్వారా నిర్ణయించడం, రెండవ సమావేశం తప్పు సహనానికి పూర్తిగా అంకితమై ఉంటుంది, మీరు ఈ అంశాన్ని ఎందుకు ఎంచుకున్నారు?

కసాండ్రా అనేది వినియోగదారు అభ్యర్థనలను నేరుగా అందించడం కంటే భారీ మొత్తంలో కార్యాచరణతో కూడిన సాధారణ బిజీ పంపిణీ వ్యవస్థ: గాసిప్, వైఫల్యాన్ని గుర్తించడం, స్కీమా మార్పుల ప్రచారం, క్లస్టర్ విస్తరణ/తగ్గింపు, యాంటీ-ఎంట్రోపీ, బ్యాకప్‌లు మరియు పునరుద్ధరణ మొదలైనవి. ఏదైనా పంపిణీ చేయబడిన వ్యవస్థలో వలె, హార్డ్‌వేర్ పరిమాణం పెరిగేకొద్దీ, వైఫల్యాల సంభావ్యత పెరుగుతుంది, కాబట్టి కాసాండ్రా ఉత్పత్తి క్లస్టర్‌ల ఆపరేషన్ వైఫల్యాలు మరియు ఆపరేటర్ చర్యల విషయంలో ప్రవర్తనను అంచనా వేయడానికి దాని నిర్మాణంపై లోతైన అవగాహన అవసరం. చాలా సంవత్సరాలు కాసాండ్రాను ఉపయోగించిన తరువాత, మేము గణనీయమైన నైపుణ్యాన్ని సేకరించారు, మేము భాగస్వామ్యం చేయడానికి సిద్ధంగా ఉన్నాము మరియు షాప్‌లోని సహోద్యోగులు సాధారణ సమస్యలను ఎలా పరిష్కరిస్తారో కూడా మేము చర్చించాలనుకుంటున్నాము.

- కాసాండ్రా విషయానికి వస్తే, తప్పు సహనం అంటే ఏమిటి?

అన్నింటిలో మొదటిది, సాధారణ హార్డ్‌వేర్ వైఫల్యాలను తట్టుకునే సిస్టమ్ సామర్థ్యం: యంత్రాలు, డిస్క్‌లు లేదా నోడ్స్/డేటా సెంటర్‌లతో నెట్‌వర్క్ కనెక్టివిటీని కోల్పోవడం. కానీ అంశం చాలా విస్తృతమైనది మరియు ముఖ్యంగా వైఫల్యాల నుండి రికవరీని కలిగి ఉంటుంది, వైఫల్యాల కోసం వ్యక్తులు చాలా అరుదుగా సిద్ధం చేయబడతారు, ఉదాహరణకు, ఆపరేటర్ లోపాలు.

— మీరు అత్యంత లోడ్ చేయబడిన మరియు అతిపెద్ద డేటా క్లస్టర్‌కి ఉదాహరణ ఇవ్వగలరా?

మా అతిపెద్ద క్లస్టర్‌లలో ఒకటి గిఫ్ట్ క్లస్టర్: 200 కంటే ఎక్కువ నోడ్‌లు మరియు వందల కొద్దీ TB డేటా. కానీ అది ఎక్కువగా లోడ్ చేయబడదు, ఎందుకంటే ఇది పంపిణీ చేయబడిన కాష్‌తో కప్పబడి ఉంటుంది. మా అత్యంత రద్దీగా ఉండే క్లస్టర్‌లు రాయడానికి పదివేల RPSలను మరియు చదవడానికి వేల RPSలను నిర్వహిస్తాయి.

- వావ్! ఎంత తరచుగా ఏదైనా విరిగిపోతుంది?

అవును అన్ని సమయాలలో! మొత్తంగా, మాకు 6 వేల కంటే ఎక్కువ సర్వర్లు ఉన్నాయి మరియు ప్రతి వారం రెండు సర్వర్లు మరియు అనేక డజన్ల డిస్క్‌లు భర్తీ చేయబడతాయి (మెషిన్ ఫ్లీట్ యొక్క అప్‌గ్రేడ్ మరియు విస్తరణ యొక్క సమాంతర ప్రక్రియలను పరిగణనలోకి తీసుకోకుండా). ప్రతి రకమైన వైఫల్యానికి, ఏమి చేయాలనే దానిపై స్పష్టమైన సూచనలు ఉన్నాయి మరియు ఏ క్రమంలో, సాధ్యమైనప్పుడల్లా ప్రతిదీ స్వయంచాలకంగా ఉంటుంది, కాబట్టి వైఫల్యాలు సాధారణమైనవి మరియు 99% కేసులలో వినియోగదారులు గుర్తించబడరు.

- అటువంటి తిరస్కరణలతో మీరు ఎలా వ్యవహరిస్తారు?

కాసాండ్రా యొక్క ఆపరేషన్ ప్రారంభం నుండి మరియు మొదటి సంఘటనల నుండి, మేము బ్యాకప్‌లు మరియు వాటి నుండి రికవరీ కోసం మెకానిజమ్‌లపై పని చేసాము, కాసాండ్రా క్లస్టర్‌ల స్థితిని పరిగణనలోకి తీసుకునే విస్తరణ విధానాలను రూపొందించాము మరియు ఉదాహరణకు, నోడ్‌లను పునఃప్రారంభించడానికి అనుమతించము. డేటా నష్టం సాధ్యమైతే. వీటన్నింటి గురించి మీటింగ్‌లో మాట్లాడాలని ప్లాన్ చేస్తున్నాం.

— మీరు చెప్పినట్లుగా, ఖచ్చితంగా నమ్మదగిన వ్యవస్థలు లేవు. మీరు ఏ రకమైన వైఫల్యాల కోసం సిద్ధం చేస్తారు మరియు నిర్వహించగలుగుతారు?

మేము కాసాండ్రా క్లస్టర్‌ల యొక్క మా ఇన్‌స్టాలేషన్‌ల గురించి మాట్లాడినట్లయితే, మేము ఒక DC లేదా ఒక మొత్తం DC (ఇది జరిగింది)లో అనేక మెషీన్‌లను కోల్పోతే వినియోగదారులు ఏమీ గమనించలేరు. DCల సంఖ్య పెరగడంతో, రెండు DCలు విఫలమైనప్పుడు ఆపరేబిలిటీని నిర్ధారించడం గురించి మేము ఆలోచిస్తున్నాము.

— తప్పు సహనం విషయంలో కాసాండ్రాకు ఏమి లేదని మీరు అనుకుంటున్నారు?

కాసాండ్రా, అనేక ఇతర ప్రారంభ NoSQL స్టోర్‌ల మాదిరిగానే, దాని అంతర్గత నిర్మాణం మరియు సంభవించే డైనమిక్ ప్రక్రియల గురించి లోతైన అవగాహన అవసరం. ఇందులో సరళత, ఊహాజనితత మరియు పరిశీలనా సామర్థ్యం లేవని నేను చెబుతాను. కానీ ఇతర సమావేశంలో పాల్గొనేవారి అభిప్రాయాలను వినడం ఆసక్తికరంగా ఉంటుంది!

ఒలేగ్, ప్రశ్నలకు సమాధానమివ్వడానికి సమయాన్ని వెచ్చించినందుకు చాలా ధన్యవాదాలు!

సెప్టెంబర్ 12న మా సెయింట్ పీటర్స్‌బర్గ్ కార్యాలయంలో జరిగే మీటప్‌లో అపాచీ కాసాండ్రా ఆపరేటింగ్ రంగంలోని నిపుణులతో కమ్యూనికేట్ చేయాలనుకునే ప్రతి ఒక్కరి కోసం మేము ఎదురుచూస్తున్నాము.

రండి, ఇది ఆసక్తికరంగా ఉంటుంది!

ఈవెంట్ కోసం నమోదు చేసుకోండి.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి