Pavel Klemenkov، NVIDIA: اسان ڪوشش ڪري رهيا آهيون ته فرق کي گهٽائڻ جي وچ ۾ ڊيٽا سائنسدان ڇا ڪري سگهي ٿو ۽ هن کي ڇا ڪرڻ گهرجي.

ڊيٽا سائنس ۽ بزنس انٽيليجنس Ozon Masters ۾ ماسٽر پروگرام جي شاگردن جو ٻيو داخلا شروع ٿي چڪو آهي - ۽ ان کي آسان بڻائڻ لاءِ هڪ درخواست ڇڏڻ ۽ آن لائن ٽيسٽ وٺڻ جو فيصلو ڪرڻ لاءِ، اسان پروگرام جي استادن کان پڇيو ته پڙهائي ۽ ڪم ڪرڻ مان ڪهڙي اميد رکڻ گهرجي. ڊيٽا سان.

Pavel Klemenkov، NVIDIA: اسان ڪوشش ڪري رهيا آهيون ته فرق کي گهٽائڻ جي وچ ۾ ڊيٽا سائنسدان ڇا ڪري سگهي ٿو ۽ هن کي ڇا ڪرڻ گهرجي. چيف ڊيٽا سائنسدان NVIDIA ۽ استاد بگ ڊيٽا ۽ ڊيٽا انجنيئرنگ تي ڪورس Pavel Klemenkov بابت ڳالهايو ڇو ته رياضي دانن کي ڪوڊ لکڻ جي ضرورت آهي ۽ اوزون ماسٽرز ۾ ٻن سالن تائين پڙهائي.

- ڇا ڪيتريون ئي ڪمپنيون آھن جيڪي ڊيٽا سائنس الگورٿم استعمال ڪندا آھن؟

- حقيقت ۾ تمام گهڻو. ڪيتريون ئي وڏيون ڪمپنيون جيڪي واقعي وڏي ڊيٽا آهن يا ته ان سان گڏ ڪم ڪرڻ شروع ڪري رهيا آهن يا ان سان گڏ ڪم ڪري رهيا آهن هڪ ڊگهي وقت تائين. اهو واضح آهي ته مارڪيٽ جو اڌ حصو ڊيٽا استعمال ڪري ٿو جيڪو هڪ Excel اسپريڊ شيٽ ۾ فٽ ٿي سگهي ٿو يا هڪ وڏي سرور تي حساب ڪري سگهجي ٿو، پر اهو نه ٿو چئي سگهجي ته صرف چند ڪاروبار آهن جيڪي ڊيٽا سان ڪم ڪري سگهن ٿيون.

- اسان کي انھن منصوبن بابت ٿورڙو ٻڌايو جتي ڊيٽا سائنس استعمال ٿئي ٿي.

- مثال طور، Rambler تي ڪم ڪرڻ دوران، اسان هڪ اشتهاري نظام ٺاهي رهيا هئاسين جيڪو RTB (Real Time Bidding) جي اصولن تي ڪم ڪري ٿو - اسان کي ڪيترائي ماڊل ٺاهڻ گهرجن جيڪي اشتهارن جي خريداري کي بهتر ڪن يا، مثال طور، امڪان جي اڳڪٿي ڪري سگھن. هڪ ڪلڪ، تبادلي، وغيره. ساڳئي وقت، هڪ اشتهارن جي نيلامي تمام گهڻو ڊيٽا ٺاهي ٿو: امڪاني اشتهارن جي خريد ڪندڙن لاء سائيٽ جي درخواستن جا لاگ، اشتهارن جي نقوش جا لاگز، ڪلڪن جا لاگز - اهو هر ڏينهن ڊيٽا جي ڏهن ٽيرا بائيٽ آهي.

ان کان علاوه، انهن ڪمن لاء اسان هڪ دلچسپ رجحان ڏٺو آهي: وڌيڪ ڊيٽا توهان کي ماڊل ٽريننگ ڏيڻ لاء، اعلي معيار جي معيار. عام طور تي، ڊيٽا جي هڪ خاص مقدار کان پوء، اڳڪٿي جو معيار بهتر ٿيڻ بند ٿي ويندو آهي، ۽ وڌيڪ صحيحيت کي بهتر ڪرڻ لاء، توهان کي بنيادي طور تي مختلف ماڊل استعمال ڪرڻ جي ضرورت آهي، ڊيٽا تيار ڪرڻ لاء مختلف طريقا، خاصيتون، وغيره. هتي اسان وڌيڪ ڊيٽا اپ لوڊ ڪيو ۽ معيار وڌايو.

هي هڪ عام ڪيس آهي جتي تجزيه نگارن کي، پهرين، وڏي ڊيٽا سيٽن سان ڪم ڪرڻو پوندو هو ته جيئن گهٽ ۾ گهٽ هڪ تجربو ڪيو وڃي، ۽ جتي اهو ناممڪن هو ته هڪ ننڍڙي نموني سان حاصل ڪرڻ جيڪا آرامده MacBook ۾ اچي. ساڳئي وقت، اسان کي ورهايل ماڊل جي ضرورت آهي، ڇاڪاڻ ته ٻي صورت ۾ اهي تربيت نه ٿي سگهيا. ڪمپيوٽر ويزن جي پيداوار ۾ متعارف ٿيڻ سان، اهڙا مثال وڌيڪ عام ٿي رهيا آهن، ڇاڪاڻ ته تصويرون ڊيٽا جو هڪ وڏو مقدار آهي، ۽ هڪ وڏي ماڊل کي تربيت ڏيڻ لاء، لکين تصويرن جي ضرورت آهي.

سوال فوري طور تي پيدا ٿئي ٿو: هي سڀ معلومات ڪيئن ذخيرو ڪجي، ان کي مؤثر طريقي سان ڪيئن عمل ڪجي، ڪيئن استعمال ڪجي ورهايل سکيا الگورٿم - ڌيان خالص رياضي کان انجنيئرنگ ڏانهن منتقل ٿي رهيو آهي. جيتوڻيڪ توهان پيداوار ۾ ڪوڊ نه لکندا آهيو، توهان کي تجربو ڪرڻ لاء انجنيئرنگ اوزار سان ڪم ڪرڻ جي قابل هوندو.

- تازو سالن ۾ ڊيٽا سائنس جي خالي جاين تي ڪيئن تبديلي آئي آهي؟

- وڏي ڊيٽا hype ٿيڻ بند ٿي چڪو آهي ۽ هڪ حقيقت بڻجي چڪو آهي. هارڊ ڊرائيو ڪافي سستا آهن، جنهن جو مطلب آهي ته اهو ممڪن آهي ته سڀني ڊيٽا گڏ ڪرڻ ممڪن آهي ته مستقبل ۾ ڪنهن به مفروضي کي جانچڻ لاء ڪافي هوندو. نتيجي طور، وڏي ڊيٽا سان ڪم ڪرڻ لاء اوزار جو علم تمام مقبول ٿي رهيو آهي، ۽ نتيجي طور، ڊيٽا انجنيئرن لاء وڌيڪ ۽ وڌيڪ خالي جايون ظاهر ٿي رهيا آهن.

منهنجي سمجھ ۾، ڊيٽا سائنسدان جي ڪم جو نتيجو هڪ تجربو نه آهي، پر هڪ پيداوار آهي جيڪو پيداوار تائين پهچي چڪو آهي. ۽ صرف هن نقطي نظر کان، وڏي ڊيٽا جي چوڌاري hype جي اچڻ کان اڳ، اهو عمل آسان هو: انجنيئر مخصوص مسئلن کي حل ڪرڻ لاء مشين سکيا ۾ مصروف هئا، ۽ پيداوار ۾ الگورتھم کي آڻڻ ۾ ڪو به مسئلو نه هو.

- ڇا جي ضرورت آهي هڪ گهربل ماهر رهڻ لاءِ؟

- ھاڻي ڪيترائي ماڻھو ڊيٽا سائنس ڏانھن آيا آھن جن رياضي جو اڀياس ڪيو آھي، مشين جي سکيا جو نظريو، ۽ ڊيٽا جي تجزيي جي مقابلي ۾ حصو ورتو آھي، جتي ھڪڙو تيار ڪيل انفراسٽرڪچر مهيا ڪيو ويو آھي: ڊيٽا صاف ڪئي وئي آھي، ميٽرڪ بيان ڪيا ويا آھن، ۽ ڪو به نه آھي. حل جي ضرورتن کي ٻيهر پيدا ڪرڻ ۽ تيز ٿيڻ جي ضرورت آهي.

نتيجي طور، ماڻهو ڪاروبار جي حقيقتن لاء خراب طور تي تيار ڪيل ڪم ڪرڻ لاء ايندا آهن، ۽ نوان ۽ تجربيڪار ڊولپرز جي وچ ۾ هڪ خلا پيدا ٿئي ٿي.

اوزارن جي ترقيءَ سان جيڪي توهان کي تيار ڪيل ماڊلز مان پنهنجو پنهنجو ماڊل گڏ ڪرڻ جي اجازت ڏين ٿا - ۽ Microsoft، گوگل ۽ ٻيا ڪيترائي اهڙا حل اڳ ۾ ئي آهن - ۽ مشين لرننگ جي آٽوميشن سان، اهو خال اڃا به وڌيڪ واضح ٿي ويندو. مستقبل ۾، پيشو سنجيده محققن جي طلب ۾ هوندو جيڪي نوان الگورتھم سان گڏ ايندا، ۽ ترقي يافته انجنيئرنگ صلاحيتن سان ملازم جيڪي ماڊل کي لاڳو ڪرڻ ۽ عمل کي خودڪار ڪندا. ڊيٽا انجنيئرنگ ۾ اوزون ماسٽرز ڪورس انجنيئرنگ جي صلاحيتن کي ترقي ڪرڻ ۽ وڏي ڊيٽا تي ورهايل مشين لرننگ الگورتھم کي استعمال ڪرڻ جي صلاحيت لاءِ ٺاهيو ويو آهي. اسان ڪوشش ڪري رهيا آهيون ته فرق کي گهٽائڻ جي وچ ۾ ڊيٽا سائنسدان ڇا ڪري سگهي ٿو ۽ هن کي عملي طور تي ڇا ڪرڻ گهرجي.

- ڇو ته هڪ رياضي دان هڪ ڊپلوما سان ڪاروبار پڙهڻ لاء وڃڻ گهرجي؟

— روسي ڊيٽا سائنس ڪميونٽي سمجهي وئي آهي ته مهارت ۽ تجربو تمام جلدي پئسن ۾ تبديل ٿي ويندا آهن، تنهن ڪري، جيئن ئي ڪنهن ماهر کي عملي تجربو هوندو آهي، ان جي قيمت تمام جلدي وڌڻ شروع ٿيندي آهي، سڀ کان وڌيڪ ماهر ماڻهو تمام قيمتي هوندا آهن. ترقي مارڪيٽ جي موجوده وقت تي صحيح آهي.

ڊيٽا سائنسدان جي نوڪري جو هڪ وڏو حصو ڊيٽا ۾ وڃڻ آهي، سمجهي ٿو ته اتي ڇا آهي، انهن ماڻهن سان صلاح ڪريو جيڪي ڪاروباري عملن جا ذميوار آهن ۽ هي ڊيٽا ٺاهي رهيا آهن - ۽ صرف پوء ان کي ماڊل ٺاهڻ لاء استعمال ڪريو. وڏي ڊيٽا سان ڪم ڪرڻ شروع ڪرڻ لاءِ، انجنيئرنگ جي مهارتن جو هجڻ تمام ضروري آهي - اهو تيز ڪنارن کان بچڻ آسان بڻائي ٿو، جن مان ڊيٽا سائنس ۾ ڪيترائي آهن.

هڪ عام ڪهاڻي: توهان SQL ۾ هڪ سوال لکيو آهي جيڪو وڏي ڊيٽا تي هلندڙ Hive فريم ورڪ استعمال ڪندي ڪيو ويو آهي. درخواست ڏهن منٽن ۾ پروسيس ڪئي ويندي آهي، بدترين صورت ۾ - هڪ ڪلاڪ يا ٻه ۾، ۽ اڪثر، جڏهن توهان هن ڊيٽا جي ڊائون لوڊ حاصل ڪندا آهيو، توهان محسوس ڪندا آهيو ته توهان اڪائونٽ ۾ ڪجهه عنصر يا اضافي معلومات وٺڻ وساري ڇڏيو. توهان کي درخواست ٻيهر موڪلڻو آهي ۽ انهن منٽن ۽ ڪلاڪن جو انتظار ڪرڻو پوندو. جيڪڏهن توهان هڪ ڪارڪردگي باصلاحيت آهيو، توهان هڪ ٻيو ڪم کڻندا، پر، جيئن مشق ڏيکاري ٿو، اسان وٽ ڪجهه ڪارڪردگي جينيئس آهن، ۽ ماڻهو صرف انتظار ڪري رهيا آهن. تنهن ڪري، ڪورسن ۾ اسان ڪم ڪارڪردگيءَ لاءِ گهڻو وقت وقف ڪنداسين شروعاتي طور تي سوالن کي لکڻ لاءِ جيڪي ڪم ڪن ٻن ڪلاڪن لاءِ نه، پر ڪيترن منٽن لاءِ. هي مهارت پيداوار کي وڌائي ٿو، ۽ ان سان گڏ هڪ ماهر جي قيمت.

- اوزون ماسٽرز ٻين ڪورسن کان ڪيئن مختلف آهي؟

- اوزون ماسٽرز اوزون ملازمن پاران سيکاريا ويندا آهن، ۽ ڪم حقيقي ڪاروباري ڪيسن تي ٻڌل آهن جيڪي ڪمپنين ۾ حل ڪيا ويندا آهن. حقيقت ۾، انجنيئرنگ جي مهارتن جي کوٽ کان علاوه، هڪ شخص جيڪو يونيورسٽي ۾ ڊيٽا سائنس جو اڀياس ڪيو، هڪ ٻيو مسئلو آهي: ڪاروبار جو ڪم ڪاروبار جي ٻولي ۾ ٺهيل آهي، ۽ ان جو مقصد بلڪل سادو آهي: وڌيڪ پئسا ڪمائڻ لاء. ۽ هڪ رياضي دان چڱي طرح ڄاڻي ٿو ته ڪيئن رياضياتي ميٽرڪس کي بهتر ڪرڻ - پر هڪ اشارو ڳولڻ ڏکيو آهي جيڪو ڪاروباري ميٽرڪ سان لاڳاپيل هوندو. ۽ توهان کي اهو سمجهڻ جي ضرورت آهي ته توهان هڪ ڪاروباري مسئلو حل ڪري رهيا آهيو، ۽ ڪاروبار سان گڏ، ميٽرڪ ٺاهيو جيڪي رياضياتي طور تي بهتر ٿي سگهن ٿيون. هي مهارت حقيقي ڪيسن ذريعي حاصل ڪئي وئي آهي، ۽ اهي اوزون طرفان ڏنل آهن.
۽ جيتوڻيڪ اسان ڪيسن کي نظر انداز ڪريون ٿا، اسڪول ڪيترن ئي عملدارن پاران سيکاريو ويندو آهي جيڪي حقيقي ڪمپنين ۾ ڪاروباري مسئلا حل ڪن ٿا. نتيجي طور، پاڻ کي درس ڏيڻ جو طريقو اڃا به وڌيڪ مشق تي مبني آهي. گهٽ ۾ گهٽ منهنجي ڪورس ۾، مان ڪوشش ڪندس ته ڌيان ڦيرايو وڃي ته اوزار ڪيئن استعمال ڪجي، ڪهڙا طريقا موجود آهن، وغيره. شاگردن سان گڏ، اسان سمجھندا سين ته هر ڪم جو پنهنجو هڪ اوزار آهي، ۽ هر اوزار جي قابل اطلاق علائقو آهي.

- سڀ کان وڌيڪ مشهور ڊيٽا تجزياتي ٽريننگ پروگرام، يقينا، SAD آهي - ان کان ڇا فرق آهي؟

- اهو واضح آهي ته شيڊ ۽ اوزون ماسٽرز، تعليمي ڪارڪردگي کان علاوه، عملي جي تربيت جي مقامي مسئلي کي حل ڪن ٿا. ٽاپ SHAD گريجوئيٽ بنيادي طور تي Yandex تي ڀرتي ڪيا ويا آهن، پر پڪڙي اها آهي ته Yandex، ان جي خاصيتن جي ڪري - ۽ اهو وڏو آهي ۽ ٺاهيو ويو جڏهن وڏي ڊيٽا سان ڪم ڪرڻ لاء ڪجهه سٺا اوزار هئا - ڊيٽا سان ڪم ڪرڻ لاء ان جو پنهنجو انفراسٽرڪچر ۽ اوزار آهي. ، جنهن جو مطلب آهي، توهان کي انهن کي ماسٽر ڪرڻو پوندو. اوزون ماسٽرز جو هڪ مختلف پيغام آهي - جيڪڏهن توهان ڪاميابيءَ سان پروگرام ۾ مهارت حاصل ڪري ورتي آهي ۽ اوزون يا 99 سيڪڙو ٻين ڪمپنين مان هڪ توهان کي ڪم ڪرڻ جي دعوت ڏئي ٿي، ته اوزون ماسٽرز جي حصي طور حاصل ڪيل مهارت جي سيٽ کي فائدو ڏيڻ شروع ڪرڻ تمام آسان ٿي ويندو صرف ڪم شروع ڪرڻ لاء ڪافي ٿيندو.

- ڪورس ٻن سالن تائين رهي ٿو. توهان کي ان تي ايترو وقت خرچ ڪرڻ جي ضرورت ڇو آهي؟

- سٺو سوال. اهو هڪ ڊگهو وقت وٺندو آهي، ڇاڪاڻ ته مواد ۽ استادن جي سطح جي لحاظ کان، هي هڪ لازمي ماسٽر پروگرام آهي جنهن کي ماسٽر ڪرڻ لاء گهڻو وقت جي ضرورت آهي، بشمول هوم ورڪ.

منهنجي ڪورس جي نقطه نظر کان، هڪ شاگرد کي هفتي ۾ 2-3 ڪلاڪ خرچ ڪرڻ جي اميد رکڻ عام آهي. پهريون، ڪم هڪ ٽريننگ ڪلستر تي ڪيا ويندا آهن، ۽ ڪنهن به گڏيل ڪلستر جو مطلب آهي ته ڪيترائي ماڻهو ان کي هڪ ئي وقت استعمال ڪن ٿا. اھو آھي، توھان کي انتظار ڪرڻو پوندو ڪم شروع ڪرڻ لاءِ. ٻئي طرف، وڏي ڊيٽا سان ڪو به ڪم گهڻو وقت وٺندو آهي.

جيڪڏهن توهان وٽ پروگرام بابت وڌيڪ سوال آهن، وڏي ڊيٽا سان ڪم ڪرڻ يا انجنيئرنگ جي مهارتن سان، Ozon ماسٽرز ڇنڇر، اپريل 25 تي 12:00 تي هڪ آن لائن کليل ڏينهن آهي. اسان جي استادن ۽ شاگردن سان ملاقات ويجهو ۽ تي يوٽيوب.

جو ذريعو: www.habr.com

DDoS تحفظ سان سائيٽن لاءِ قابل اعتماد هوسٽنگ خريد ڪريو، VPS VDS سرور 🔥 DDoS تحفظ سان قابل اعتماد ويب سائيٽ هوسٽنگ خريد ڪريو، VPS VDS سرورز | ProHoster