పావెల్ క్లెమెన్‌కోవ్, NVIDIA: డేటా సైంటిస్ట్ ఏమి చేయగలడు మరియు అతను ఏమి చేయగలడు అనే వాటి మధ్య అంతరాన్ని తగ్గించడానికి మేము ప్రయత్నిస్తున్నాము

ఓజోన్ మాస్టర్స్ డేటా సైన్స్ మరియు బిజినెస్ ఇంటెలిజెన్స్ ప్రోగ్రామ్ కోసం విద్యార్థుల రెండవ బ్యాచ్ ప్రారంభమైంది. మీరు దరఖాస్తు చేసుకోవాలా వద్దా, మరియు ఆన్‌లైన్ అసెస్‌మెంట్ తీసుకోవాలా వద్దా అని నిర్ణయించుకోవడంలో మీకు సహాయపడటానికి, ఈ శిక్షణ మరియు డేటాతో పనిచేయడం నుండి ఏమి ఆశించవచ్చనే దాని గురించి మేము ప్రోగ్రామ్ అధ్యాపకులను అడిగాము.

పావెల్ క్లెమెన్‌కోవ్, NVIDIA: డేటా సైంటిస్ట్ ఏమి చేయగలడు మరియు అతను ఏమి చేయగలడు అనే వాటి మధ్య అంతరాన్ని తగ్గించడానికి మేము ప్రయత్నిస్తున్నాము ఎన్విడియా చీఫ్ డేటా సైంటిస్ట్ మరియు అధ్యాపకుడు బిగ్ డేటా మరియు డేటా ఇంజనీరింగ్‌పై కోర్సు గణిత శాస్త్రవేత్తలు ఓజోన్ మాస్టర్స్‌లో రెండు సంవత్సరాల పాటు కోడింగ్ చేసి, ఎందుకు అధ్యయనం చేయాలో పావెల్ క్లెమెంకోవ్ వివరించారు.

డేటా సైన్స్ అల్గారిథమ్‌లను ఉపయోగించే కంపెనీలు చాలా ఉన్నాయా?

నిజానికి, చాలానే ఉన్నాయి. నిజంగా భారీ డేటా ఉన్న చాలా పెద్ద కంపెనీలు దానితో సమర్థవంతంగా పనిచేయడం ప్రారంభిస్తున్నాయి లేదా చాలా కాలంగా అలా చేస్తున్నాయి. మార్కెట్‌లో సగం మంది ఎక్సెల్ స్ప్రెడ్‌షీట్‌లో సరిపోయే లేదా పెద్ద సర్వర్‌లో లెక్కించగలిగే డేటాను ఉపయోగిస్తున్నారనేది స్పష్టం, కానీ డేటాతో ఎలా పనిచేయాలో తెలిసిన వ్యాపారాలు చాలా అరుదుగా ఉన్నాయని చెప్పలేము.

డేటా సైన్స్‌ను ఉపయోగించే ప్రాజెక్ట్‌ల గురించి మాకు కొంచెం చెప్పండి.

ఉదాహరణకు, రాంబ్లర్‌లో పనిచేస్తున్నప్పుడు, మేము RTB (రియల్ టైమ్ బిడ్డింగ్) సూత్రాల ఆధారంగా ఒక ప్రకటనల వ్యవస్థను అభివృద్ధి చేస్తున్నాము. ప్రకటనల కొనుగోలును ఆప్టిమైజ్ చేయడానికి లేదా, ఉదాహరణకు, క్లిక్ సంభావ్యత, మార్పిడి రేటు మొదలైనవాటిని అంచనా వేయడానికి మేము అనేక నమూనాలను నిర్మించాల్సి వచ్చింది. అదే సమయంలో, ప్రకటనల వేలం భారీ మొత్తంలో డేటాను ఉత్పత్తి చేస్తుంది: ప్రకటనలను కొనుగోలు చేయగల వారి సైట్ అభ్యర్థన లాగ్‌లు, ప్రకటనల ఇంప్రెషన్ లాగ్‌లు, క్లిక్ లాగ్‌లు—అంటే రోజుకు పదుల టెరాబైట్ల డేటా.

అంతేకాకుండా, ఈ పనుల కోసం మేము ఒక ఆసక్తికరమైన దృగ్విషయాన్ని గమనించాము: మోడల్‌కు శిక్షణ ఇవ్వడానికి మీరు ఎంత ఎక్కువ డేటాను అందిస్తే, దాని నాణ్యత అంత ఎక్కువగా ఉంటుంది. సాధారణంగా, ఒక నిర్దిష్ట పరిమాణంలో డేటా తర్వాత, అంచనా నాణ్యత మెరుగుపడటం ఆగిపోతుంది, మరియు కచ్చితత్వాన్ని మరింత మెరుగుపరచడానికి, మీరు ప్రాథమికంగా భిన్నమైన మోడల్‌ను, డేటా తయారీకి భిన్నమైన విధానాన్ని, ఫీచర్లను మొదలైనవాటిని ఉపయోగించాల్సి ఉంటుంది. ఈ సందర్భంలో, మేము ఎక్కువ డేటాను అందించాము, మరియు నాణ్యత మెరుగుపడింది.

ఒక ప్రయోగాన్ని నిర్వహించడానికి కూడా విశ్లేషకులు భారీ డేటాసెట్‌లతో పనిచేయవలసి వచ్చిన, మరియు ఒక చిన్న మ్యాక్‌బుక్‌లో సరిపోయే చిన్న నమూనా సరిపోని ఒక సాధారణ సందర్భం ఇది. మాకు డిస్ట్రిబ్యూటెడ్ మోడల్స్ కూడా అవసరమయ్యాయి, ఎందుకంటే అవి లేకుండా వాటికి శిక్షణ ఇవ్వడం అసాధ్యం. కంప్యూటర్ విజన్‌ను ఉత్పత్తిలోకి ప్రవేశపెట్టడంతో, ఇటువంటి ఉదాహరణలు సర్వసాధారణం అవుతున్నాయి, ఎందుకంటే చిత్రాలు భారీ మొత్తంలో డేటాను సూచిస్తాయి, మరియు ఒక పెద్ద మోడల్‌కు శిక్షణ ఇవ్వడానికి లక్షలాది చిత్రాలు అవసరం.

ఈ సమాచారాన్నంతటినీ ఎలా నిల్వ చేయాలి, దానిని సమర్థవంతంగా ఎలా ప్రాసెస్ చేయాలి, డిస్ట్రిబ్యూటెడ్ లెర్నింగ్ అల్గారిథమ్‌లను ఎలా ఉపయోగించాలి అనే ప్రశ్న వెంటనే తలెత్తుతుంది—దృష్టి శుద్ధ గణితం నుండి ఇంజనీరింగ్‌ వైపు మారుతుంది. మీరు ప్రొడక్షన్ కోడ్ రాయకపోయినా, ప్రయోగాలు నిర్వహించడానికి ఇంజనీరింగ్ సాధనాలతో పనిచేయగల సామర్థ్యం మీకు ఉండాలి.

ఇటీవలి సంవత్సరాలలో డేటా సైన్స్ ఖాళీల విషయంలో విధానం ఎలా మారింది?

బిగ్ డేటా అనేది కేవలం ఒక ప్రచారంగా మిగిలిపోకుండా, వాస్తవరూపం దాల్చింది. హార్డ్ డ్రైవ్‌లు చాలా చవకగా లభిస్తున్నాయి, దీని అర్థం భవిష్యత్తులో ఏ పరికల్పననైనా పరీక్షించడానికి అవసరమైన డేటా మొత్తాన్ని ఇప్పుడు సేకరించడం సాధ్యమవుతుంది. ఫలితంగా, బిగ్ డేటా సాధనాల పరిజ్ఞానానికి విపరీతమైన గిరాకీ ఏర్పడుతోంది, ఇది డేటా ఇంజనీరింగ్ ఉద్యోగాల సంఖ్య నానాటికీ పెరగడానికి దారితీస్తోంది.

నా అవగాహన ప్రకారం, ఒక డేటా సైంటిస్ట్ చేసే పని ఫలితం ఒక ప్రయోగం కాదు, అది ఉత్పత్తి దశకు చేరుకున్న ఒక ఉత్పత్తి. ఈ దృక్కోణంలో చూస్తే, బిగ్ డేటా హడావిడికి ముందు, ప్రక్రియ చాలా సరళంగా ఉండేది: ఇంజనీర్లు నిర్దిష్ట సమస్యలను పరిష్కరించడానికి మెషిన్ లెర్నింగ్‌పై దృష్టి పెట్టేవారు, మరియు ఆ అల్గారిథమ్‌లను ఉత్పత్తి దశకు తీసుకురావడం చాలా సులభంగా ఉండేది.

అందరూ కోరుకునే నిపుణుడిగా కొనసాగడానికి ఏమి కావాలి?

ఇప్పుడు, గణితశాస్త్రం మరియు మెషిన్ లెర్నింగ్ సిద్ధాంతాన్ని అభ్యసించి, డేటా విశ్లేషణ పోటీలలో పాల్గొన్న చాలా మంది డేటా సైన్స్‌లోకి ప్రవేశించారు, ఇక్కడ ఒక సిద్ధమైన మౌలిక సదుపాయం అందించబడుతుంది: డేటా శుభ్రపరచబడి, కొలమానాలు నిర్వచించబడి ఉంటాయి, మరియు పరిష్కారం పునరుత్పత్తి చేయదగినదిగా మరియు వేగవంతమైనదిగా ఉండాలనే అవసరాలు ఏవీ ఉండవు.

దీని ఫలితంగా, ప్రజలు వ్యాపార వాస్తవాలకు సరిగా సిద్ధం కాకుండా పనిలోకి వస్తారు, మరియు కొత్తగా చేరినవారికి, అనుభవజ్ఞులైన డెవలపర్‌లకు మధ్య అంతరం ఏర్పడుతుంది.

రెడీమేడ్ మాడ్యూల్స్ నుండి కస్టమ్ మోడల్స్‌ను రూపొందించడానికి టూల్స్ అభివృద్ధి చెందడంతో—ఇలాంటి పరిష్కారాలు ఇప్పటికే మైక్రోసాఫ్ట్, గూగుల్ మరియు అనేక ఇతర సంస్థలలో ఉన్నాయి—మరియు మెషిన్ లెర్నింగ్ ఆటోమేషన్ వల్ల, ఈ అంతరం మరింత స్పష్టంగా కనిపిస్తుంది. భవిష్యత్తులో, ఈ వృత్తికి కొత్త అల్గారిథమ్‌లను అభివృద్ధి చేసే సీరియస్ పరిశోధకులు మరియు మోడల్స్‌ను అమలు చేసి, ప్రక్రియలను ఆటోమేట్ చేసే అధునాతన ఇంజనీరింగ్ నైపుణ్యాలు గల ఉద్యోగులు అవసరం అవుతారు. ఓజోన్ మాస్టర్స్ డేటా ఇంజనీరింగ్ కోర్సు, ఇంజనీరింగ్ నైపుణ్యాలను మరియు బిగ్ డేటాపై డిస్ట్రిబ్యూటెడ్ మెషిన్ లెర్నింగ్ అల్గారిథమ్‌లను ఉపయోగించే సామర్థ్యాన్ని అభివృద్ధి చేయడానికి రూపొందించబడింది. ఒక డేటా సైంటిస్ట్ ఏమి చేయగలరో మరియు ఆచరణలో వారు ఏమి చేయగలగాలి అనే దాని మధ్య ఉన్న అంతరాన్ని తగ్గించడానికి మేము కృషి చేస్తాము.

డిగ్రీ ఉన్న గణిత శాస్త్రవేత్త వ్యాపార రంగంలోకి ఎందుకు వెళ్తాడు?

నైపుణ్యం మరియు అనుభవం త్వరగా డబ్బుగా మారతాయని రష్యన్ డేటా సైన్స్ కమ్యూనిటీ గ్రహించింది, కాబట్టి ఒక నిపుణుడు ఆచరణాత్మక అనుభవాన్ని పొందిన వెంటనే, వారి విలువ వేగంగా పెరగడం ప్రారంభమవుతుంది, అత్యంత నైపుణ్యం కలిగిన వ్యక్తులు చాలా అధిక ధరలను పొందుతారు—మరియు ఇది మార్కెట్ అభివృద్ధి యొక్క ప్రస్తుత దశలో నిజం.

ఒక డేటా సైంటిస్ట్ ఉద్యోగంలో చాలా ముఖ్యమైన భాగం ఏమిటంటే, డేటాను లోతుగా పరిశీలించడం, అందులో ఏముందో అర్థం చేసుకోవడం, వ్యాపార ప్రక్రియలకు మరియు డేటాను రూపొందించడానికి బాధ్యత వహించే వ్యక్తులతో సంప్రదించడం—ఆ తర్వాత మాత్రమే దానిని ఉపయోగించి మోడళ్లను నిర్మించడం. బిగ్ డేటాతో పనిచేయడం ప్రారంభించడానికి, ఇంజనీరింగ్ నైపుణ్యాలు కలిగి ఉండటం చాలా కీలకం—ఇది డేటా సైన్స్‌లోని అనేక సంక్లిష్టతలను అధిగమించడాన్ని చాలా సులభతరం చేస్తుంది.

ఒక సాధారణ దృశ్యం: మీరు బిగ్ డేటాతో పనిచేసే హైవ్ ఫ్రేమ్‌వర్క్‌ను ఉపయోగించి అమలు చేయబడే ఒక SQL క్వెరీని వ్రాస్తారు. ఆ క్వెరీ ప్రాసెస్ అవ్వడానికి పది నిమిషాలు, లేదా అత్యంత చెత్తగా చెప్పాలంటే, ఒకటి లేదా రెండు గంటలు పడుతుంది. తరచుగా, మీకు డేటా డంప్ అందినప్పుడు, మీరు ఏదో ఒక అంశాన్ని లేదా అదనపు సమాచారాన్ని పరిగణనలోకి తీసుకోవడం మర్చిపోయారని గ్రహిస్తారు. మీరు ఆ క్వెరీని మళ్లీ సమర్పించి, ఆ నిమిషాలు లేదా గంటలు వేచి ఉండాల్సి వస్తుంది. మీరు సామర్థ్యంలో మేధావి అయితే, మీరు మరో పనికి వెళ్ళిపోతారు, కానీ ఆచరణలో చూస్తే, సామర్థ్య మేధావులు చాలా అరుదుగా ఉంటారు, మరియు ప్రజలు కేవలం వేచి ఉంటారు. అందువల్ల, మా కోర్సులలో, మేము పని సామర్థ్యానికి గణనీయమైన సమయాన్ని కేటాయిస్తాము, తద్వారా మేము మొదటి నుంచే రెండు గంటలు కాదు, నిమిషాల్లో పూర్తయ్యే క్వెరీలను వ్రాయగలుగుతాము. ఈ నైపుణ్యం ఉత్పాదకతను నాటకీయంగా పెంచుతుంది, దానితో పాటు నిపుణుడి విలువను కూడా పెంచుతుంది.

– ఓజోన్ మాస్టర్స్ ఇతర కోర్సుల కన్నా ఎలా భిన్నమైనది?

ఓజోన్ మాస్టర్స్ కోర్సును ఓజోన్ ఉద్యోగులే బోధిస్తారు, మరియు ఇందులో ఇచ్చే అసైన్‌మెంట్లు కంపెనీలలో పరిష్కరించబడుతున్న నిజమైన వ్యాపార కేసుల ఆధారంగా ఉంటాయి. నిజానికి, ఇంజనీరింగ్ నైపుణ్యాలు లేకపోవడంతో పాటు, విశ్వవిద్యాలయంలో డేటా సైన్స్ చదివిన వ్యక్తి మరో సవాలును ఎదుర్కొంటాడు: వ్యాపార సమస్య వ్యాపార భాషలో రూపొందించబడి ఉంటుంది, మరియు దాని లక్ష్యం చాలా సరళంగా ఉంటుంది: ఎక్కువ డబ్బు సంపాదించడం. ఒక గణిత శాస్త్రవేత్తకు గణిత కొలమానాలను ఎలా ఆప్టిమైజ్ చేయాలో బాగా తెలుసు, కానీ ఒక వ్యాపార కొలమానంతో సంబంధం ఉన్న సూచికను కనుగొనడం కష్టం. మీరు ఒక వ్యాపార సమస్యను పరిష్కరిస్తున్నారని అర్థం చేసుకోవాలి మరియు వ్యాపారంతో కలిసి, గణితపరంగా ఆప్టిమైజ్ చేయగల కొలమానాలను రూపొందించాలి. ఈ నైపుణ్యం వాస్తవ ప్రపంచ కేసుల ద్వారా లభిస్తుంది, మరియు ఓజోన్ వాటిని అందిస్తుంది.
కేస్ స్టడీలను పక్కన పెట్టినప్పటికీ, ఈ పాఠశాలలోని బోధకులలో చాలామంది నిజమైన కంపెనీలలో వ్యాపార సమస్యలను పరిష్కరించే నిపుణులు. ఫలితంగా, బోధనా విధానం కూడా మరింత ఆచరణాత్మకంగా ఉంటుంది. కనీసం నా కోర్సులోనైనా, సాధనాలను ఎలా ఉపయోగించాలి, ఏయే పద్ధతులు అందుబాటులో ఉన్నాయి మొదలైన వాటిపై దృష్టిని మళ్లించడానికి ప్రయత్నిస్తాను. ప్రతి పనికి ఒక సాధనం ఉంటుందని, మరియు ప్రతి సాధనానికి దాని స్వంత వినియోగ పరిధి ఉంటుందని మనం విద్యార్థులతో కలిసి అర్థం చేసుకుంటాము.

— అత్యంత ప్రసిద్ధ డేటా విశ్లేషణ శిక్షణా కార్యక్రమం, నిస్సందేహంగా, షాడ్ (SHAD). ఇది దాని నుండి ఖచ్చితంగా ఎలా భిన్నంగా ఉంటుంది?

స్కూల్ ఆఫ్ డేటా అనాలిసిస్ అండ్ మేనేజ్‌మెంట్ (SDA) మరియు ఓజోన్ మాస్టర్స్, వాటి విద్యాపరమైన విధికి అదనంగా, శిక్షణ అనే స్థానిక సమస్యను కూడా పరిష్కరిస్తున్నాయనేది స్పష్టం. SDA నుండి ఉత్తీర్ణులైన ఉత్తమ విద్యార్థులను ప్రధానంగా యాండెక్స్ నియమించుకుంటుంది, కానీ ఇక్కడ చిక్కు ఏమిటంటే, యాండెక్స్ దాని ప్రత్యేక స్వభావం కారణంగా—అది చాలా పెద్దది మరియు మంచి బిగ్ డేటా సాధనాలు కొరతగా ఉన్న కాలంలో సృష్టించబడింది—దానికి సొంత మౌలిక సదుపాయాలు మరియు డేటా సాధనాలు ఉన్నాయి, అంటే మీరు వాటిలో నైపుణ్యం సాధించాల్సి ఉంటుంది. ఓజోన్ మాస్టర్స్ ఇచ్చే సందేశం భిన్నంగా ఉంటుంది: మీరు ఈ ప్రోగ్రామ్‌లో విజయవంతంగా నైపుణ్యం సాధించి, ఓజోన్ లేదా 99% ఇతర కంపెనీలలో ఏదైనా ఒకటి మీకు ఉద్యోగం ఆఫర్ చేస్తే, వ్యాపారానికి మీ వంతు సహకారం అందించడం చాలా సులభం అవుతుంది; కేవలం పని ప్రారంభించడానికి ఓజోన్ మాస్టర్స్ ద్వారా పొందిన నైపుణ్యాలు సరిపోతాయి.

ఈ కోర్సు రెండు సంవత్సరాలు ఉంటుంది. ఇంత సమయం ఎందుకు పడుతుంది?

మంచి ప్రశ్న. ఇది చాలా పెద్దది, ఎందుకంటే విషయ పరిజ్ఞానం మరియు బోధకుల స్థాయి పరంగా ఇది ఒక పూర్తి మాస్టర్స్ ప్రోగ్రామ్, దీనిలో నైపుణ్యం సాధించడానికి హోంవర్క్‌తో సహా చాలా సమయం పడుతుంది.

నా కోర్సు దృక్కోణం నుండి చూస్తే, విద్యార్థులు అసైన్‌మెంట్‌ల కోసం వారానికి 2-3 గంటలు కేటాయించాలని ఆశించడం సాధారణమే. మొదటిగా, అసైన్‌మెంట్‌లు ట్రైనింగ్ క్లస్టర్‌లో పూర్తి చేయబడతాయి, మరియు ఏదైనా షేర్డ్ క్లస్టర్ అంటే దానిని చాలా మంది ఏకకాలంలో ఉపయోగిస్తారని అర్థం. దీనివల్ల, టాస్క్ రన్ అవ్వడం మొదలయ్యే వరకు మీరు వేచి ఉండాల్సి వస్తుంది, మరియు కొన్ని రిసోర్స్‌లు ఎంపిక చేయబడి అధిక ప్రాధాన్యత గల క్యూకి తరలించబడవచ్చు. మరోవైపు, బిగ్ డేటాతో చేసే ఏ పని అయినా సమయం తీసుకుంటుంది.

ప్రోగ్రామ్, బిగ్ డేటాతో పనిచేయడం, లేదా ఇంజనీరింగ్ నైపుణ్యాల గురించి మీకు ఏవైనా మరిన్ని ప్రశ్నలు ఉంటే, ఓజోన్ మాస్టర్స్ ఏప్రిల్ 25వ తేదీ, శనివారం మధ్యాహ్నం 12:00 గంటలకు ఆన్‌లైన్ ఓపెన్ డేను నిర్వహిస్తుంది. మేము అధ్యాపకులు మరియు విద్యార్థులతో సమావేశమవుతాము. జూమ్ మరియు న YouTube.

మూలం: www.habr.com

DDoS రక్షణ, VPS VDS సర్వర్‌లతో సైట్‌ల కోసం నమ్మకమైన హోస్టింగ్‌ను కొనుగోలు చేయండి 🔥 DDoS రక్షణతో కూడిన నమ్మకమైన వెబ్‌సైట్ హోస్టింగ్, VPS VDS సర్వర్‌లను కొనండి | ProHoster