డేటా సైన్స్ మరియు బిజినెస్ ఇంటెలిజెన్స్ ఓజోన్ మాస్టర్స్లో మాస్టర్స్ ప్రోగ్రామ్కు చెందిన విద్యార్థులను రెండవసారి తీసుకోవడం ప్రారంభించబడింది - మరియు అప్లికేషన్ను వదిలి ఆన్లైన్ పరీక్షలో పాల్గొనడాన్ని సులభతరం చేయడానికి, మేము అధ్యయనం మరియు పని నుండి ఏమి ఆశించాలో ప్రోగ్రామ్ ఉపాధ్యాయులను అడిగాము. డేటాతో.
చీఫ్ డేటా సైంటిస్ట్ NVIDIA మరియు టీచర్
— డేటా సైన్స్ అల్గారిథమ్లను ఉపయోగించే అనేక కంపెనీలు ఉన్నాయా?
- నిజానికి చాలా ఎక్కువ. నిజంగా పెద్ద డేటాను కలిగి ఉన్న చాలా పెద్ద కంపెనీలు దానితో సమర్థవంతంగా పనిచేయడం ప్రారంభించాయి లేదా చాలా కాలంగా దానితో పని చేస్తున్నాయి. మార్కెట్లో సగం ఎక్సెల్ స్ప్రెడ్షీట్కి సరిపోయే లేదా పెద్ద సర్వర్లో లెక్కించగలిగే డేటాను ఉపయోగిస్తుందని స్పష్టంగా ఉంది, అయితే డేటాతో పని చేసే కొన్ని వ్యాపారాలు మాత్రమే ఉన్నాయని చెప్పలేము.
— డేటా సైన్స్ ఉపయోగించే ప్రాజెక్ట్ల గురించి కొంచెం చెప్పండి.
— ఉదాహరణకు, రాంబ్లర్లో పనిచేస్తున్నప్పుడు, మేము RTB (రియల్ టైమ్ బిడ్డింగ్) సూత్రాలపై పనిచేసే ప్రకటనల వ్యవస్థను తయారు చేస్తున్నాము - మేము ప్రకటనల కొనుగోలును ఆప్టిమైజ్ చేసే లేదా ఉదాహరణకు, సంభావ్యతను అంచనా వేయగల అనేక మోడళ్లను రూపొందించాల్సిన అవసరం ఉంది. ఒక క్లిక్, మార్పిడి మరియు మొదలైనవి. అదే సమయంలో, ప్రకటనల వేలం చాలా డేటాను ఉత్పత్తి చేస్తుంది: సంభావ్య ప్రకటనల కొనుగోలుదారులకు సైట్ అభ్యర్థనల లాగ్లు, ప్రకటనల ముద్రల లాగ్లు, క్లిక్ల లాగ్లు - ఇది రోజుకు పదుల టెరాబైట్ల డేటా.
అంతేకాకుండా, ఈ పనుల కోసం మేము ఒక ఆసక్తికరమైన దృగ్విషయాన్ని గమనించాము: మోడల్కు శిక్షణ ఇవ్వడానికి మీరు ఎంత ఎక్కువ డేటా ఇస్తే, దాని నాణ్యత ఎక్కువ. సాధారణంగా, నిర్దిష్ట మొత్తంలో డేటా తర్వాత, సూచన నాణ్యతను మెరుగుపరచడం ఆగిపోతుంది మరియు ఖచ్చితత్వాన్ని మరింత మెరుగుపరచడానికి, మీరు ప్రాథమికంగా భిన్నమైన మోడల్ను ఉపయోగించాలి, డేటా, లక్షణాలు మొదలైనవాటిని సిద్ధం చేయడానికి భిన్నమైన విధానాన్ని ఉపయోగించాలి. ఇక్కడ మేము మరింత డేటాను అప్లోడ్ చేసాము మరియు నాణ్యత పెరిగింది.
ఇది ఒక విలక్షణమైన సందర్భం, మొదటగా, కనీసం ఒక ప్రయోగాన్ని నిర్వహించడానికి పెద్ద డేటా సెట్లతో పని చేయాల్సి ఉంటుంది మరియు హాయిగా ఉండే మ్యాక్బుక్లో సరిపోయే చిన్న నమూనాతో పొందడం అసాధ్యం. అదే సమయంలో, మాకు పంపిణీ చేయబడిన నమూనాలు అవసరం, లేకుంటే వారు శిక్షణ పొందలేరు. ఉత్పత్తిలో కంప్యూటర్ దృష్టిని ప్రవేశపెట్టడంతో, ఇటువంటి ఉదాహరణలు చాలా సాధారణం అవుతున్నాయి, ఎందుకంటే చిత్రాలు పెద్ద మొత్తంలో డేటా మరియు పెద్ద మోడల్కు శిక్షణ ఇవ్వడానికి, మిలియన్ల చిత్రాలు అవసరం.
ప్రశ్న వెంటనే తలెత్తుతుంది: ఈ సమాచారాన్ని ఎలా నిల్వ చేయాలి, దానిని ఎలా సమర్థవంతంగా ప్రాసెస్ చేయాలి, పంపిణీ చేయబడిన అభ్యాస అల్గారిథమ్లను ఎలా ఉపయోగించాలి - దృష్టి స్వచ్ఛమైన గణితం నుండి ఇంజనీరింగ్కు మారుతోంది. మీరు ప్రొడక్షన్లో కోడ్ని వ్రాయకపోయినా, ప్రయోగాన్ని నిర్వహించడానికి మీరు ఇంజనీరింగ్ సాధనాలతో పని చేయగలగాలి.
— ఇటీవలి సంవత్సరాలలో డేటా సైన్స్ ఖాళీల విధానం ఎలా మారింది?
— బిగ్ డేటా హైప్గా నిలిచిపోయింది మరియు వాస్తవంగా మారింది. హార్డ్ డ్రైవ్లు చాలా చౌకగా ఉంటాయి, అంటే మొత్తం డేటాను సేకరించడం సాధ్యమవుతుంది, తద్వారా భవిష్యత్తులో ఏదైనా పరికల్పనలను పరీక్షించడానికి సరిపోతుంది. ఫలితంగా, పెద్ద డేటాతో పని చేయడానికి సాధనాల పరిజ్ఞానం బాగా ప్రాచుర్యం పొందింది మరియు ఫలితంగా, డేటా ఇంజనీర్ల కోసం మరిన్ని ఖాళీలు కనిపిస్తున్నాయి.
నా అవగాహన ప్రకారం, డేటా సైంటిస్ట్ యొక్క పని ఫలితం ఒక ప్రయోగం కాదు, కానీ ఉత్పత్తికి చేరుకున్న ఉత్పత్తి. మరియు ఈ దృక్కోణం నుండి, పెద్ద డేటా చుట్టూ హైప్ రాకముందు, ప్రక్రియ సరళమైనది: నిర్దిష్ట సమస్యలను పరిష్కరించడానికి ఇంజనీర్లు యంత్ర అభ్యాసంలో నిమగ్నమై ఉన్నారు మరియు ఉత్పత్తికి అల్గారిథమ్లను తీసుకురావడంలో సమస్యలు లేవు.
— కోరిన నిపుణుడిగా ఉండటానికి ఏమి పడుతుంది?
— ఇప్పుడు చాలా మంది డేటా సైన్స్కు వచ్చారు, వారు గణితం, యంత్ర అభ్యాస సిద్ధాంతం మరియు డేటా విశ్లేషణ పోటీలలో పాల్గొన్నారు, ఇక్కడ సిద్ధంగా ఉన్న మౌలిక సదుపాయాలు అందించబడతాయి: డేటా శుభ్రం చేయబడింది, కొలమానాలు నిర్వచించబడ్డాయి మరియు ఏవీ లేవు. పరిష్కారం పునరుత్పత్తి మరియు వేగవంతమైనదిగా ఉండటానికి అవసరాలు.
తత్ఫలితంగా, అబ్బాయిలు వ్యాపారం యొక్క వాస్తవికతలకు సరిగ్గా సిద్ధపడకుండా పని చేయడానికి వస్తారు మరియు కొత్తవారు మరియు అనుభవజ్ఞులైన డెవలపర్ల మధ్య అంతరం ఏర్పడుతుంది.
రెడీమేడ్ మాడ్యూల్స్ నుండి మీ స్వంత మోడల్ను సమీకరించడానికి మిమ్మల్ని అనుమతించే సాధనాల అభివృద్ధితో - మరియు మైక్రోసాఫ్ట్, గూగుల్ మరియు అనేక ఇతరాలు ఇప్పటికే ఇటువంటి పరిష్కారాలను కలిగి ఉన్నాయి - మరియు మెషిన్ లెర్నింగ్ యొక్క ఆటోమేషన్, ఈ గ్యాప్ మరింత స్పష్టంగా కనిపిస్తుంది. భవిష్యత్తులో, కొత్త అల్గారిథమ్లతో ముందుకు వచ్చే తీవ్రమైన పరిశోధకులకు మరియు మోడల్లను అమలు చేసే మరియు ప్రక్రియలను ఆటోమేట్ చేసే అభివృద్ధి చెందిన ఇంజనీరింగ్ నైపుణ్యాలు కలిగిన ఉద్యోగులకు ఈ వృత్తి డిమాండ్లో ఉంటుంది. డేటా ఇంజనీరింగ్లోని ఓజోన్ మాస్టర్స్ కోర్సు ఇంజనీరింగ్ నైపుణ్యాలను మరియు పెద్ద డేటాపై పంపిణీ చేయబడిన మెషిన్ లెర్నింగ్ అల్గారిథమ్లను ఉపయోగించగల సామర్థ్యాన్ని అభివృద్ధి చేయడానికి రూపొందించబడింది. డేటా సైంటిస్ట్ ఏమి చేయగలడు మరియు అతను ఆచరణలో ఏమి చేయగలడు అనే వాటి మధ్య అంతరాన్ని తగ్గించడానికి మేము ప్రయత్నిస్తున్నాము.
— డిప్లొమా ఉన్న గణిత శాస్త్రజ్ఞుడు వ్యాపారాన్ని అధ్యయనం చేయడానికి ఎందుకు వెళ్లాలి?
- నైపుణ్యం మరియు అనుభవం చాలా త్వరగా డబ్బుగా మార్చబడతాయని రష్యన్ డేటా సైన్స్ కమ్యూనిటీ అర్థం చేసుకుంది, అందువల్ల, ఒక నిపుణుడికి ఆచరణాత్మక అనుభవం ఉన్న వెంటనే, అతని ఖర్చు చాలా త్వరగా పెరగడం ప్రారంభమవుతుంది, అత్యంత నైపుణ్యం కలిగిన వ్యక్తులు చాలా ఖరీదైనవి - మరియు ఇది అభివృద్ధి మార్కెట్ ప్రస్తుత తరుణంలో ఇది నిజం.
డేటా సైంటిస్ట్ యొక్క పనిలో ఎక్కువ భాగం డేటాలోకి వెళ్లడం, అక్కడ ఏమి ఉందో అర్థం చేసుకోవడం, వ్యాపార ప్రక్రియలకు బాధ్యత వహించే వ్యక్తులతో సంప్రదించి ఈ డేటాను రూపొందించడం - ఆపై మాత్రమే మోడల్లను రూపొందించడానికి దాన్ని ఉపయోగించడం. పెద్ద డేటాతో పని చేయడం ప్రారంభించడానికి, ఇంజనీరింగ్ నైపుణ్యాలను కలిగి ఉండటం చాలా ముఖ్యం - ఇది పదునైన మూలలను నివారించడం చాలా సులభం చేస్తుంది, వీటిలో డేటా సైన్స్లో చాలా ఉన్నాయి.
ఒక సాధారణ కథనం: మీరు SQLలో ఒక ప్రశ్నను వ్రాసారు, అది పెద్ద డేటాపై నడుస్తున్న హైవ్ ఫ్రేమ్వర్క్ని ఉపయోగించి అమలు చేయబడుతుంది. అభ్యర్థన పది నిమిషాల్లో ప్రాసెస్ చేయబడుతుంది, చెత్త సందర్భంలో - ఒకటి లేదా రెండు గంటల్లో, మరియు తరచుగా, మీరు ఈ డేటా యొక్క డౌన్లోడ్లను స్వీకరించినప్పుడు, మీరు కొంత కారకం లేదా అదనపు సమాచారాన్ని పరిగణనలోకి తీసుకోవడం మర్చిపోయారని మీరు గ్రహించారు. మీరు అభ్యర్థనను మళ్లీ పంపాలి మరియు ఈ నిమిషాలు మరియు గంటలు వేచి ఉండాలి. మీరు సమర్థతా మేధావి అయితే, మీరు మరొక పనిని చేపడతారు, కానీ, అభ్యాసం చూపినట్లుగా, మాకు కొంతమంది సమర్థత మేధావులు ఉన్నారు మరియు ప్రజలు వేచి ఉన్నారు. అందువల్ల, కోర్సులలో రెండు గంటలు కాకుండా చాలా నిమిషాలు పని చేసే ప్రశ్నలను ప్రారంభంలో వ్రాయడానికి మేము పని సామర్థ్యం కోసం చాలా సమయాన్ని కేటాయిస్తాము. ఈ నైపుణ్యం ఉత్పాదకతను గుణిస్తుంది మరియు దానితో నిపుణుడి విలువ.
– ఓజోన్ మాస్టర్స్ ఇతర కోర్సుల నుండి ఎలా భిన్నంగా ఉంటుంది?
— ఓజోన్ మాస్టర్స్ ఓజోన్ ఉద్యోగులచే బోధించబడుతుంది మరియు కంపెనీలలో పరిష్కరించబడే నిజమైన వ్యాపార కేసుల ఆధారంగా పనులు ఉంటాయి. వాస్తవానికి, ఇంజనీరింగ్ నైపుణ్యాలు లేకపోవడంతో పాటు, విశ్వవిద్యాలయంలో డేటా సైన్స్ చదివిన వ్యక్తికి మరొక సమస్య ఉంది: వ్యాపారం యొక్క పని వ్యాపార భాషలో రూపొందించబడింది మరియు దాని లక్ష్యం చాలా సులభం: ఎక్కువ డబ్బు సంపాదించడం. మరియు గణిత శాస్త్రజ్ఞుడికి గణిత ప్రమాణాలను ఎలా ఆప్టిమైజ్ చేయాలో బాగా తెలుసు - కానీ వ్యాపార మెట్రిక్తో పరస్పర సంబంధం ఉన్న సూచికను కనుగొనడం కష్టం. మరియు మీరు వ్యాపార సమస్యను పరిష్కరిస్తున్నారని అర్థం చేసుకోవాలి మరియు వ్యాపారంతో కలిసి, గణితశాస్త్రపరంగా ఆప్టిమైజ్ చేయగల కొలమానాలను రూపొందించండి. ఈ నైపుణ్యం నిజమైన కేసుల ద్వారా పొందబడుతుంది మరియు వాటిని ఓజోన్ అందించింది.
మరియు మేము కేసులను విస్మరించినప్పటికీ, నిజమైన కంపెనీలలో వ్యాపార సమస్యలను పరిష్కరించే అనేక మంది అభ్యాసకులు పాఠశాలను బోధిస్తారు. ఫలితంగా, బోధించే విధానం ఇప్పటికీ మరింత అభ్యాస-ఆధారితంగా ఉంది. కనీసం నా కోర్సులో, సాధనాలను ఎలా ఉపయోగించాలి, ఏ విధానాలు ఉన్నాయి మొదలైన వాటిపై దృష్టిని మరల్చడానికి ప్రయత్నిస్తాను. విద్యార్థులతో కలిసి, ప్రతి పనికి దాని స్వంత సాధనం ఉందని మరియు ప్రతి సాధనానికి దాని వర్తించే ప్రాంతం ఉందని మేము అర్థం చేసుకుంటాము.
— అత్యంత ప్రసిద్ధ డేటా విశ్లేషణ శిక్షణ కార్యక్రమం, వాస్తవానికి, ShAD — దాని నుండి ఖచ్చితంగా తేడా ఏమిటి?
- ShAD మరియు Ozon మాస్టర్స్, విద్యా పనితీరుతో పాటు, సిబ్బంది శిక్షణ యొక్క స్థానిక సమస్యను పరిష్కరిస్తారని స్పష్టమవుతుంది. టాప్ SHAD గ్రాడ్యుయేట్లు ప్రధానంగా Yandexకి రిక్రూట్ చేయబడతారు, అయితే క్యాచ్ ఏమిటంటే Yandex, దాని ప్రత్యేకతల కారణంగా - మరియు ఇది పెద్దది మరియు పెద్ద డేటాతో పని చేయడానికి కొన్ని మంచి సాధనాలు ఉన్నప్పుడు సృష్టించబడింది - దాని స్వంత మౌలిక సదుపాయాలు మరియు డేటాతో పని చేయడానికి సాధనాలు ఉన్నాయి. , అంటే , మీరు వాటిపై పట్టు సాధించాలి. ఓజోన్ మాస్టర్స్కి భిన్నమైన సందేశం ఉంది - మీరు ప్రోగ్రామ్ను విజయవంతంగా ప్రావీణ్యం కలిగి ఉంటే మరియు ఓజోన్ లేదా 99% ఇతర కంపెనీలలో ఒకటి మిమ్మల్ని పని చేయడానికి ఆహ్వానిస్తే, వ్యాపారానికి ప్రయోజనం చేకూర్చడం ప్రారంభించడం చాలా సులభం; ఓజోన్ మాస్టర్స్లో భాగంగా పొందిన నైపుణ్యం కేవలం పని ప్రారంభించడానికి సరిపోతుంది.
- కోర్సు రెండు సంవత్సరాలు ఉంటుంది. మీరు దీని కోసం ఎక్కువ సమయం ఎందుకు వెచ్చించాలి?
- మంచి ప్రశ్న. ఇది చాలా సమయం పడుతుంది, ఎందుకంటే కంటెంట్ మరియు ఉపాధ్యాయుల స్థాయి పరంగా, ఇది సమగ్ర మాస్టర్స్ ప్రోగ్రామ్, ఇది హోంవర్క్తో సహా నైపుణ్యం సాధించడానికి చాలా సమయం అవసరం.
నా కోర్సు దృక్కోణంలో, ఒక విద్యార్థి వారానికి 2-3 గంటలు అసైన్మెంట్ల కోసం వెచ్చించాలని ఆశించడం సాధారణం. ముందుగా, శిక్షణా క్లస్టర్లో పనులు నిర్వహించబడతాయి మరియు ఏదైనా భాగస్వామ్య క్లస్టర్ అంటే అనేక మంది వ్యక్తులు దీనిని ఏకకాలంలో ఉపయోగిస్తున్నారని సూచిస్తుంది. అంటే, మీరు పనిని అమలు చేయడం ప్రారంభించడానికి వేచి ఉండాలి; కొన్ని వనరులు ఎంపిక చేయబడి, అధిక ప్రాధాన్యత గల క్యూకి బదిలీ చేయబడవచ్చు. మరోవైపు, పెద్ద డేటాతో ఏదైనా పని చాలా సమయం పడుతుంది.
మీకు ప్రోగ్రామ్ గురించి ఇంకా ఏవైనా ప్రశ్నలు ఉంటే, పెద్ద డేటా లేదా ఇంజనీరింగ్ నైపుణ్యాలతో పని చేస్తే, Ozon మాస్టర్స్ ఆన్లైన్ ఓపెన్ డేని ఏప్రిల్ 25, శనివారం మధ్యాహ్నం 12:00 గంటలకు కలిగి ఉంది. మేము ఉపాధ్యాయులు మరియు విద్యార్థులతో కలుస్తాము
మూలం: www.habr.com