పావెల్ క్లెమెన్‌కోవ్, NVIDIA: డేటా సైంటిస్ట్ ఏమి చేయగలడు మరియు అతను ఏమి చేయగలడు అనే వాటి మధ్య అంతరాన్ని తగ్గించడానికి మేము ప్రయత్నిస్తున్నాము

డేటా సైన్స్ మరియు బిజినెస్ ఇంటెలిజెన్స్ ఓజోన్ మాస్టర్స్‌లో మాస్టర్స్ ప్రోగ్రామ్‌కు చెందిన విద్యార్థులను రెండవసారి తీసుకోవడం ప్రారంభించబడింది - మరియు అప్లికేషన్‌ను వదిలి ఆన్‌లైన్ పరీక్షలో పాల్గొనడాన్ని సులభతరం చేయడానికి, మేము అధ్యయనం మరియు పని నుండి ఏమి ఆశించాలో ప్రోగ్రామ్ ఉపాధ్యాయులను అడిగాము. డేటాతో.

పావెల్ క్లెమెన్‌కోవ్, NVIDIA: డేటా సైంటిస్ట్ ఏమి చేయగలడు మరియు అతను ఏమి చేయగలడు అనే వాటి మధ్య అంతరాన్ని తగ్గించడానికి మేము ప్రయత్నిస్తున్నాము చీఫ్ డేటా సైంటిస్ట్ NVIDIA మరియు టీచర్ బిగ్ డేటా మరియు డేటా ఇంజనీరింగ్‌పై కోర్సులు పావెల్ క్లెమెన్‌కోవ్ గణిత శాస్త్రజ్ఞులు ఓజోన్ మాస్టర్స్‌లో రెండు సంవత్సరాలు కోడ్ రాయడం మరియు అధ్యయనం చేయడం ఎందుకు అనే దాని గురించి మాట్లాడారు.

— డేటా సైన్స్ అల్గారిథమ్‌లను ఉపయోగించే అనేక కంపెనీలు ఉన్నాయా?

- నిజానికి చాలా ఎక్కువ. నిజంగా పెద్ద డేటాను కలిగి ఉన్న చాలా పెద్ద కంపెనీలు దానితో సమర్థవంతంగా పనిచేయడం ప్రారంభించాయి లేదా చాలా కాలంగా దానితో పని చేస్తున్నాయి. మార్కెట్‌లో సగం ఎక్సెల్ స్ప్రెడ్‌షీట్‌కి సరిపోయే లేదా పెద్ద సర్వర్‌లో లెక్కించగలిగే డేటాను ఉపయోగిస్తుందని స్పష్టంగా ఉంది, అయితే డేటాతో పని చేసే కొన్ని వ్యాపారాలు మాత్రమే ఉన్నాయని చెప్పలేము.

— డేటా సైన్స్ ఉపయోగించే ప్రాజెక్ట్‌ల గురించి కొంచెం చెప్పండి.

— ఉదాహరణకు, రాంబ్లర్‌లో పనిచేస్తున్నప్పుడు, మేము RTB (రియల్ టైమ్ బిడ్డింగ్) సూత్రాలపై పనిచేసే ప్రకటనల వ్యవస్థను తయారు చేస్తున్నాము - మేము ప్రకటనల కొనుగోలును ఆప్టిమైజ్ చేసే లేదా ఉదాహరణకు, సంభావ్యతను అంచనా వేయగల అనేక మోడళ్లను రూపొందించాల్సిన అవసరం ఉంది. ఒక క్లిక్, మార్పిడి మరియు మొదలైనవి. అదే సమయంలో, ప్రకటనల వేలం చాలా డేటాను ఉత్పత్తి చేస్తుంది: సంభావ్య ప్రకటనల కొనుగోలుదారులకు సైట్ అభ్యర్థనల లాగ్‌లు, ప్రకటనల ముద్రల లాగ్‌లు, క్లిక్‌ల లాగ్‌లు - ఇది రోజుకు పదుల టెరాబైట్ల డేటా.

అంతేకాకుండా, ఈ పనుల కోసం మేము ఒక ఆసక్తికరమైన దృగ్విషయాన్ని గమనించాము: మోడల్‌కు శిక్షణ ఇవ్వడానికి మీరు ఎంత ఎక్కువ డేటా ఇస్తే, దాని నాణ్యత ఎక్కువ. సాధారణంగా, నిర్దిష్ట మొత్తంలో డేటా తర్వాత, సూచన నాణ్యతను మెరుగుపరచడం ఆగిపోతుంది మరియు ఖచ్చితత్వాన్ని మరింత మెరుగుపరచడానికి, మీరు ప్రాథమికంగా భిన్నమైన మోడల్‌ను ఉపయోగించాలి, డేటా, లక్షణాలు మొదలైనవాటిని సిద్ధం చేయడానికి భిన్నమైన విధానాన్ని ఉపయోగించాలి. ఇక్కడ మేము మరింత డేటాను అప్‌లోడ్ చేసాము మరియు నాణ్యత పెరిగింది.

ఇది ఒక విలక్షణమైన సందర్భం, మొదటగా, కనీసం ఒక ప్రయోగాన్ని నిర్వహించడానికి పెద్ద డేటా సెట్‌లతో పని చేయాల్సి ఉంటుంది మరియు హాయిగా ఉండే మ్యాక్‌బుక్‌లో సరిపోయే చిన్న నమూనాతో పొందడం అసాధ్యం. అదే సమయంలో, మాకు పంపిణీ చేయబడిన నమూనాలు అవసరం, లేకుంటే వారు శిక్షణ పొందలేరు. ఉత్పత్తిలో కంప్యూటర్ దృష్టిని ప్రవేశపెట్టడంతో, ఇటువంటి ఉదాహరణలు చాలా సాధారణం అవుతున్నాయి, ఎందుకంటే చిత్రాలు పెద్ద మొత్తంలో డేటా మరియు పెద్ద మోడల్‌కు శిక్షణ ఇవ్వడానికి, మిలియన్ల చిత్రాలు అవసరం.

ప్రశ్న వెంటనే తలెత్తుతుంది: ఈ సమాచారాన్ని ఎలా నిల్వ చేయాలి, దానిని ఎలా సమర్థవంతంగా ప్రాసెస్ చేయాలి, పంపిణీ చేయబడిన అభ్యాస అల్గారిథమ్‌లను ఎలా ఉపయోగించాలి - దృష్టి స్వచ్ఛమైన గణితం నుండి ఇంజనీరింగ్‌కు మారుతోంది. మీరు ప్రొడక్షన్‌లో కోడ్‌ని వ్రాయకపోయినా, ప్రయోగాన్ని నిర్వహించడానికి మీరు ఇంజనీరింగ్ సాధనాలతో పని చేయగలగాలి.

— ఇటీవలి సంవత్సరాలలో డేటా సైన్స్ ఖాళీల విధానం ఎలా మారింది?

— బిగ్ డేటా హైప్‌గా నిలిచిపోయింది మరియు వాస్తవంగా మారింది. హార్డ్ డ్రైవ్‌లు చాలా చౌకగా ఉంటాయి, అంటే మొత్తం డేటాను సేకరించడం సాధ్యమవుతుంది, తద్వారా భవిష్యత్తులో ఏదైనా పరికల్పనలను పరీక్షించడానికి సరిపోతుంది. ఫలితంగా, పెద్ద డేటాతో పని చేయడానికి సాధనాల పరిజ్ఞానం బాగా ప్రాచుర్యం పొందింది మరియు ఫలితంగా, డేటా ఇంజనీర్‌ల కోసం మరిన్ని ఖాళీలు కనిపిస్తున్నాయి.

నా అవగాహన ప్రకారం, డేటా సైంటిస్ట్ యొక్క పని ఫలితం ఒక ప్రయోగం కాదు, కానీ ఉత్పత్తికి చేరుకున్న ఉత్పత్తి. మరియు ఈ దృక్కోణం నుండి, పెద్ద డేటా చుట్టూ హైప్ రాకముందు, ప్రక్రియ సరళమైనది: నిర్దిష్ట సమస్యలను పరిష్కరించడానికి ఇంజనీర్లు యంత్ర అభ్యాసంలో నిమగ్నమై ఉన్నారు మరియు ఉత్పత్తికి అల్గారిథమ్‌లను తీసుకురావడంలో సమస్యలు లేవు.

— కోరిన నిపుణుడిగా ఉండటానికి ఏమి పడుతుంది?

— ఇప్పుడు చాలా మంది డేటా సైన్స్‌కు వచ్చారు, వారు గణితం, యంత్ర అభ్యాస సిద్ధాంతం మరియు డేటా విశ్లేషణ పోటీలలో పాల్గొన్నారు, ఇక్కడ సిద్ధంగా ఉన్న మౌలిక సదుపాయాలు అందించబడతాయి: డేటా శుభ్రం చేయబడింది, కొలమానాలు నిర్వచించబడ్డాయి మరియు ఏవీ లేవు. పరిష్కారం పునరుత్పత్తి మరియు వేగవంతమైనదిగా ఉండటానికి అవసరాలు.

తత్ఫలితంగా, అబ్బాయిలు వ్యాపారం యొక్క వాస్తవికతలకు సరిగ్గా సిద్ధపడకుండా పని చేయడానికి వస్తారు మరియు కొత్తవారు మరియు అనుభవజ్ఞులైన డెవలపర్‌ల మధ్య అంతరం ఏర్పడుతుంది.

రెడీమేడ్ మాడ్యూల్స్ నుండి మీ స్వంత మోడల్‌ను సమీకరించడానికి మిమ్మల్ని అనుమతించే సాధనాల అభివృద్ధితో - మరియు మైక్రోసాఫ్ట్, గూగుల్ మరియు అనేక ఇతరాలు ఇప్పటికే ఇటువంటి పరిష్కారాలను కలిగి ఉన్నాయి - మరియు మెషిన్ లెర్నింగ్ యొక్క ఆటోమేషన్, ఈ గ్యాప్ మరింత స్పష్టంగా కనిపిస్తుంది. భవిష్యత్తులో, కొత్త అల్గారిథమ్‌లతో ముందుకు వచ్చే తీవ్రమైన పరిశోధకులకు మరియు మోడల్‌లను అమలు చేసే మరియు ప్రక్రియలను ఆటోమేట్ చేసే అభివృద్ధి చెందిన ఇంజనీరింగ్ నైపుణ్యాలు కలిగిన ఉద్యోగులకు ఈ వృత్తి డిమాండ్‌లో ఉంటుంది. డేటా ఇంజనీరింగ్‌లోని ఓజోన్ మాస్టర్స్ కోర్సు ఇంజనీరింగ్ నైపుణ్యాలను మరియు పెద్ద డేటాపై పంపిణీ చేయబడిన మెషిన్ లెర్నింగ్ అల్గారిథమ్‌లను ఉపయోగించగల సామర్థ్యాన్ని అభివృద్ధి చేయడానికి రూపొందించబడింది. డేటా సైంటిస్ట్ ఏమి చేయగలడు మరియు అతను ఆచరణలో ఏమి చేయగలడు అనే వాటి మధ్య అంతరాన్ని తగ్గించడానికి మేము ప్రయత్నిస్తున్నాము.

— డిప్లొమా ఉన్న గణిత శాస్త్రజ్ఞుడు వ్యాపారాన్ని అధ్యయనం చేయడానికి ఎందుకు వెళ్లాలి?

- నైపుణ్యం మరియు అనుభవం చాలా త్వరగా డబ్బుగా మార్చబడతాయని రష్యన్ డేటా సైన్స్ కమ్యూనిటీ అర్థం చేసుకుంది, అందువల్ల, ఒక నిపుణుడికి ఆచరణాత్మక అనుభవం ఉన్న వెంటనే, అతని ఖర్చు చాలా త్వరగా పెరగడం ప్రారంభమవుతుంది, అత్యంత నైపుణ్యం కలిగిన వ్యక్తులు చాలా ఖరీదైనవి - మరియు ఇది అభివృద్ధి మార్కెట్ ప్రస్తుత తరుణంలో ఇది నిజం.

డేటా సైంటిస్ట్ యొక్క పనిలో ఎక్కువ భాగం డేటాలోకి వెళ్లడం, అక్కడ ఏమి ఉందో అర్థం చేసుకోవడం, వ్యాపార ప్రక్రియలకు బాధ్యత వహించే వ్యక్తులతో సంప్రదించి ఈ డేటాను రూపొందించడం - ఆపై మాత్రమే మోడల్‌లను రూపొందించడానికి దాన్ని ఉపయోగించడం. పెద్ద డేటాతో పని చేయడం ప్రారంభించడానికి, ఇంజనీరింగ్ నైపుణ్యాలను కలిగి ఉండటం చాలా ముఖ్యం - ఇది పదునైన మూలలను నివారించడం చాలా సులభం చేస్తుంది, వీటిలో డేటా సైన్స్‌లో చాలా ఉన్నాయి.

ఒక సాధారణ కథనం: మీరు SQLలో ఒక ప్రశ్నను వ్రాసారు, అది పెద్ద డేటాపై నడుస్తున్న హైవ్ ఫ్రేమ్‌వర్క్‌ని ఉపయోగించి అమలు చేయబడుతుంది. అభ్యర్థన పది నిమిషాల్లో ప్రాసెస్ చేయబడుతుంది, చెత్త సందర్భంలో - ఒకటి లేదా రెండు గంటల్లో, మరియు తరచుగా, మీరు ఈ డేటా యొక్క డౌన్‌లోడ్‌లను స్వీకరించినప్పుడు, మీరు కొంత కారకం లేదా అదనపు సమాచారాన్ని పరిగణనలోకి తీసుకోవడం మర్చిపోయారని మీరు గ్రహించారు. మీరు అభ్యర్థనను మళ్లీ పంపాలి మరియు ఈ నిమిషాలు మరియు గంటలు వేచి ఉండాలి. మీరు సమర్థతా మేధావి అయితే, మీరు మరొక పనిని చేపడతారు, కానీ, అభ్యాసం చూపినట్లుగా, మాకు కొంతమంది సమర్థత మేధావులు ఉన్నారు మరియు ప్రజలు వేచి ఉన్నారు. అందువల్ల, కోర్సులలో రెండు గంటలు కాకుండా చాలా నిమిషాలు పని చేసే ప్రశ్నలను ప్రారంభంలో వ్రాయడానికి మేము పని సామర్థ్యం కోసం చాలా సమయాన్ని కేటాయిస్తాము. ఈ నైపుణ్యం ఉత్పాదకతను గుణిస్తుంది మరియు దానితో నిపుణుడి విలువ.

– ఓజోన్ మాస్టర్స్ ఇతర కోర్సుల నుండి ఎలా భిన్నంగా ఉంటుంది?

— ఓజోన్ మాస్టర్స్ ఓజోన్ ఉద్యోగులచే బోధించబడుతుంది మరియు కంపెనీలలో పరిష్కరించబడే నిజమైన వ్యాపార కేసుల ఆధారంగా పనులు ఉంటాయి. వాస్తవానికి, ఇంజనీరింగ్ నైపుణ్యాలు లేకపోవడంతో పాటు, విశ్వవిద్యాలయంలో డేటా సైన్స్ చదివిన వ్యక్తికి మరొక సమస్య ఉంది: వ్యాపారం యొక్క పని వ్యాపార భాషలో రూపొందించబడింది మరియు దాని లక్ష్యం చాలా సులభం: ఎక్కువ డబ్బు సంపాదించడం. మరియు గణిత శాస్త్రజ్ఞుడికి గణిత ప్రమాణాలను ఎలా ఆప్టిమైజ్ చేయాలో బాగా తెలుసు - కానీ వ్యాపార మెట్రిక్‌తో పరస్పర సంబంధం ఉన్న సూచికను కనుగొనడం కష్టం. మరియు మీరు వ్యాపార సమస్యను పరిష్కరిస్తున్నారని అర్థం చేసుకోవాలి మరియు వ్యాపారంతో కలిసి, గణితశాస్త్రపరంగా ఆప్టిమైజ్ చేయగల కొలమానాలను రూపొందించండి. ఈ నైపుణ్యం నిజమైన కేసుల ద్వారా పొందబడుతుంది మరియు వాటిని ఓజోన్ అందించింది.
మరియు మేము కేసులను విస్మరించినప్పటికీ, నిజమైన కంపెనీలలో వ్యాపార సమస్యలను పరిష్కరించే అనేక మంది అభ్యాసకులు పాఠశాలను బోధిస్తారు. ఫలితంగా, బోధించే విధానం ఇప్పటికీ మరింత అభ్యాస-ఆధారితంగా ఉంది. కనీసం నా కోర్సులో, సాధనాలను ఎలా ఉపయోగించాలి, ఏ విధానాలు ఉన్నాయి మొదలైన వాటిపై దృష్టిని మరల్చడానికి ప్రయత్నిస్తాను. విద్యార్థులతో కలిసి, ప్రతి పనికి దాని స్వంత సాధనం ఉందని మరియు ప్రతి సాధనానికి దాని వర్తించే ప్రాంతం ఉందని మేము అర్థం చేసుకుంటాము.

— అత్యంత ప్రసిద్ధ డేటా విశ్లేషణ శిక్షణ కార్యక్రమం, వాస్తవానికి, ShAD — దాని నుండి ఖచ్చితంగా తేడా ఏమిటి?

- ShAD మరియు Ozon మాస్టర్స్, విద్యా పనితీరుతో పాటు, సిబ్బంది శిక్షణ యొక్క స్థానిక సమస్యను పరిష్కరిస్తారని స్పష్టమవుతుంది. టాప్ SHAD గ్రాడ్యుయేట్‌లు ప్రధానంగా Yandexకి రిక్రూట్ చేయబడతారు, అయితే క్యాచ్ ఏమిటంటే Yandex, దాని ప్రత్యేకతల కారణంగా - మరియు ఇది పెద్దది మరియు పెద్ద డేటాతో పని చేయడానికి కొన్ని మంచి సాధనాలు ఉన్నప్పుడు సృష్టించబడింది - దాని స్వంత మౌలిక సదుపాయాలు మరియు డేటాతో పని చేయడానికి సాధనాలు ఉన్నాయి. , అంటే , మీరు వాటిపై పట్టు సాధించాలి. ఓజోన్ మాస్టర్స్‌కి భిన్నమైన సందేశం ఉంది - మీరు ప్రోగ్రామ్‌ను విజయవంతంగా ప్రావీణ్యం కలిగి ఉంటే మరియు ఓజోన్ లేదా 99% ఇతర కంపెనీలలో ఒకటి మిమ్మల్ని పని చేయడానికి ఆహ్వానిస్తే, వ్యాపారానికి ప్రయోజనం చేకూర్చడం ప్రారంభించడం చాలా సులభం; ఓజోన్ మాస్టర్స్‌లో భాగంగా పొందిన నైపుణ్యం కేవలం పని ప్రారంభించడానికి సరిపోతుంది.

- కోర్సు రెండు సంవత్సరాలు ఉంటుంది. మీరు దీని కోసం ఎక్కువ సమయం ఎందుకు వెచ్చించాలి?

- మంచి ప్రశ్న. ఇది చాలా సమయం పడుతుంది, ఎందుకంటే కంటెంట్ మరియు ఉపాధ్యాయుల స్థాయి పరంగా, ఇది సమగ్ర మాస్టర్స్ ప్రోగ్రామ్, ఇది హోంవర్క్‌తో సహా నైపుణ్యం సాధించడానికి చాలా సమయం అవసరం.

నా కోర్సు దృక్కోణంలో, ఒక విద్యార్థి వారానికి 2-3 గంటలు అసైన్‌మెంట్‌ల కోసం వెచ్చించాలని ఆశించడం సాధారణం. ముందుగా, శిక్షణా క్లస్టర్‌లో పనులు నిర్వహించబడతాయి మరియు ఏదైనా భాగస్వామ్య క్లస్టర్ అంటే అనేక మంది వ్యక్తులు దీనిని ఏకకాలంలో ఉపయోగిస్తున్నారని సూచిస్తుంది. అంటే, మీరు పనిని అమలు చేయడం ప్రారంభించడానికి వేచి ఉండాలి; కొన్ని వనరులు ఎంపిక చేయబడి, అధిక ప్రాధాన్యత గల క్యూకి బదిలీ చేయబడవచ్చు. మరోవైపు, పెద్ద డేటాతో ఏదైనా పని చాలా సమయం పడుతుంది.

మీకు ప్రోగ్రామ్ గురించి ఇంకా ఏవైనా ప్రశ్నలు ఉంటే, పెద్ద డేటా లేదా ఇంజనీరింగ్ నైపుణ్యాలతో పని చేస్తే, Ozon మాస్టర్స్ ఆన్‌లైన్ ఓపెన్ డేని ఏప్రిల్ 25, శనివారం మధ్యాహ్నం 12:00 గంటలకు కలిగి ఉంది. మేము ఉపాధ్యాయులు మరియు విద్యార్థులతో కలుస్తాము జూమ్ మరియు న YouTube.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి