Pavel Klemenkov، NVIDIA: ہم اس فرق کو کم کرنے کی کوشش کر رہے ہیں کہ ڈیٹا سائنسدان کیا کر سکتا ہے اور اسے کیا کرنے کے قابل ہونا چاہیے۔

ڈیٹا سائنس اور بزنس انٹیلی جنس اوزون ماسٹرز میں ماسٹرز پروگرام کے طلباء کی دوسری انٹیک شروع ہو گئی ہے - اور درخواست چھوڑنے اور آن لائن ٹیسٹ دینے کا فیصلہ کرنے میں آسانی پیدا کرنے کے لیے، ہم نے پروگرام کے اساتذہ سے پوچھا کہ مطالعہ کرنے اور کام کرنے سے کیا امید رکھی جائے۔ ڈیٹا کے ساتھ.

Pavel Klemenkov، NVIDIA: ہم اس فرق کو کم کرنے کی کوشش کر رہے ہیں کہ ڈیٹا سائنسدان کیا کر سکتا ہے اور اسے کیا کرنے کے قابل ہونا چاہیے۔ چیف ڈیٹا سائنسدان NVIDIA اور استاد بگ ڈیٹا اور ڈیٹا انجینئرنگ کے کورسز پاول کلیمینکوف نے اس بارے میں بات کی کہ ریاضی دانوں کو کوڈ لکھنے اور اوزون ماسٹرز میں دو سال تک مطالعہ کرنے کی ضرورت کیوں ہے۔

- کیا ایسی بہت سی کمپنیاں ہیں جو ڈیٹا سائنس الگورتھم استعمال کرتی ہیں؟

- اصل میں بہت زیادہ. کافی بڑی کمپنیاں جن کے پاس واقعی بڑا ڈیٹا ہے وہ یا تو اس کے ساتھ مؤثر طریقے سے کام کرنا شروع کر رہی ہیں یا ایک طویل عرصے سے اس کے ساتھ کام کر رہی ہیں۔ یہ واضح ہے کہ مارکیٹ کا آدھا حصہ ڈیٹا کا استعمال کرتا ہے جو ایکسل اسپریڈشیٹ میں فٹ ہو سکتا ہے یا کسی بڑے سرور پر شمار کیا جا سکتا ہے، لیکن یہ نہیں کہا جا سکتا کہ صرف چند کاروبار ہیں جو ڈیٹا کے ساتھ کام کر سکتے ہیں۔

— ہمیں ان پروجیکٹس کے بارے میں تھوڑا سا بتائیں جہاں ڈیٹا سائنس کا استعمال کیا جاتا ہے۔

— مثال کے طور پر، Rambler میں کام کرتے ہوئے، ہم ایک اشتہاری نظام بنا رہے تھے جو RTB (Real Time Bidding) کے اصولوں پر کام کرتا تھا - ہمیں بہت سے ایسے ماڈل بنانے کی ضرورت تھی جو اشتہارات کی خریداری کو بہتر بنائیں یا، مثال کے طور پر، امکان کی پیشن گوئی کر سکیں۔ ایک کلک، تبادلوں، وغیرہ کا۔ ایک ہی وقت میں، ایک اشتہاری نیلامی بہت سا ڈیٹا تیار کرتی ہے: ممکنہ اشتہاری خریداروں کے لیے سائٹ کی درخواستوں کے لاگ، اشتہاری نقوش کے لاگ، کلکس کے لاگز - یہ دسیوں ٹیرا بائٹ ڈیٹا فی دن ہے۔

مزید یہ کہ، ان کاموں کے لیے ہم نے ایک دلچسپ واقعہ دیکھا: آپ ماڈل کو تربیت دینے کے لیے جتنا زیادہ ڈیٹا دیں گے، اس کا معیار اتنا ہی بلند ہوگا۔ عام طور پر، ڈیٹا کی ایک خاص مقدار کے بعد، پیشن گوئی کا معیار بہتر ہونا بند ہو جاتا ہے، اور درستگی کو مزید بہتر بنانے کے لیے، آپ کو بنیادی طور پر مختلف ماڈل، ڈیٹا، خصوصیات وغیرہ کی تیاری کے لیے ایک مختلف طریقہ استعمال کرنے کی ضرورت ہوتی ہے۔ یہاں ہم نے مزید ڈیٹا اپ لوڈ کیا اور معیار بڑھ گیا۔

یہ ایک عام معاملہ ہے جہاں تجزیہ کاروں کو، سب سے پہلے، کم از کم ایک تجربہ کرنے کے لیے بڑے ڈیٹا سیٹس کے ساتھ کام کرنا پڑتا تھا، اور جہاں آرام دہ میک بک میں فٹ ہونے والے چھوٹے نمونے کے ساتھ حاصل کرنا ناممکن تھا۔ ایک ہی وقت میں، ہمیں تقسیم شدہ ماڈلز کی ضرورت تھی، کیونکہ دوسری صورت میں ان کی تربیت نہیں کی جا سکتی تھی۔ پروڈکشن میں کمپیوٹر ویژن کے متعارف ہونے کے ساتھ، ایسی مثالیں عام ہوتی جا رہی ہیں، کیونکہ تصویریں ڈیٹا کی ایک بڑی مقدار ہوتی ہیں، اور ایک بڑے ماڈل کو تربیت دینے کے لیے لاکھوں تصویروں کی ضرورت ہوتی ہے۔

سوال فوری طور پر پیدا ہوتا ہے: اس تمام معلومات کو کیسے ذخیرہ کیا جائے، اسے مؤثر طریقے سے کیسے پروسیس کیا جائے، تقسیم شدہ سیکھنے کے الگورتھم کو کیسے استعمال کیا جائے - توجہ خالص ریاضی سے انجینئرنگ کی طرف منتقل ہو رہی ہے۔ یہاں تک کہ اگر آپ پروڈکشن میں کوڈ نہیں لکھتے ہیں، تو آپ کو تجربہ کرنے کے لیے انجینئرنگ ٹولز کے ساتھ کام کرنے کے قابل ہونا چاہیے۔

- حالیہ برسوں میں ڈیٹا سائنس کی آسامیوں کے لیے نقطہ نظر کیسے بدلا ہے؟

- بڑے اعداد و شمار نے ہائپ ہونا چھوڑ دیا ہے اور ایک حقیقت بن گیا ہے۔ ہارڈ ڈرائیوز کافی سستی ہیں، جس کا مطلب ہے کہ تمام ڈیٹا اکٹھا کرنا ممکن ہے تاکہ مستقبل میں کسی بھی مفروضے کو جانچنے کے لیے کافی ہو۔ نتیجے کے طور پر، بڑے ڈیٹا کے ساتھ کام کرنے کے لیے ٹولز کا علم بہت مقبول ہو رہا ہے، اور اس کے نتیجے میں، ڈیٹا انجینئرز کے لیے زیادہ سے زیادہ آسامیاں ظاہر ہو رہی ہیں۔

میری سمجھ میں، ڈیٹا سائنسدان کے کام کا نتیجہ کوئی تجربہ نہیں ہے، بلکہ ایک پروڈکٹ ہے جو پیداوار تک پہنچ چکی ہے۔ اور صرف اس نقطہ نظر سے، بڑے اعداد و شمار کے ارد گرد ہائپ کی آمد سے پہلے، یہ عمل آسان تھا: انجینئرز مخصوص مسائل کو حل کرنے کے لیے مشین لرننگ میں مصروف تھے، اور الگورتھم کو پروڈکشن میں لانے میں کوئی مسئلہ نہیں تھا۔

- ایک مطلوبہ ماہر رہنے کے لیے کیا ضرورت ہے؟

- اب بہت سے لوگ ڈیٹا سائنس میں آ چکے ہیں جنہوں نے ریاضی، مشین لرننگ کے نظریہ کا مطالعہ کیا ہے، اور ڈیٹا کے تجزیہ کے مقابلوں میں حصہ لیا ہے، جہاں ایک ریڈی میڈ انفراسٹرکچر فراہم کیا جاتا ہے: ڈیٹا کو صاف کیا جاتا ہے، میٹرکس کی وضاحت کی جاتی ہے، اور کوئی نہیں حل کے قابل تولید اور تیز ہونے کے تقاضے

نتیجتاً، لوگ کاروبار کی حقیقتوں کے لیے تیار نہ ہو کر کام کرنے آتے ہیں، اور نئے آنے والوں اور تجربہ کار ڈویلپرز کے درمیان ایک خلا پیدا ہو جاتا ہے۔

ایسے ٹولز کی ترقی کے ساتھ جو آپ کو تیار شدہ ماڈیولز سے اپنے ماڈل کو اسمبل کرنے کی اجازت دیتے ہیں - اور Microsoft، Google اور بہت سے دوسرے لوگوں کے پاس پہلے سے ہی ایسے حل موجود ہیں - اور مشین لرننگ کے آٹومیشن کے ساتھ، یہ فرق اور بھی واضح ہو جائے گا۔ مستقبل میں، پیشہ سنجیدہ محققین کی مانگ میں ہو گا جو نئے الگورتھم کے ساتھ آتے ہیں، اور ترقی یافتہ انجینئرنگ کی مہارتوں کے حامل ملازمین جو ماڈلز کو لاگو کریں گے اور عمل کو خود کار بنائیں گے۔ ڈیٹا انجینئرنگ میں اوزون ماسٹرز کورس انجینئرنگ کی مہارتوں اور بڑے ڈیٹا پر تقسیم شدہ مشین لرننگ الگورتھم استعمال کرنے کی صلاحیت کو فروغ دینے کے لیے ڈیزائن کیا گیا ہے۔ ہم اس فرق کو کم کرنے کی کوشش کر رہے ہیں کہ ڈیٹا سائنسدان کیا کر سکتا ہے اور اسے عملی طور پر کیا کرنے کے قابل ہونا چاہیے۔

— ڈپلومہ کے ساتھ ریاضی دان کو کاروبار کی تعلیم کے لیے کیوں جانا چاہیے؟

— روسی ڈیٹا سائنس کمیونٹی یہ سمجھ چکی ہے کہ مہارت اور تجربہ بہت جلد پیسے میں تبدیل ہو جاتا ہے، اس لیے جیسے ہی کسی ماہر کے پاس عملی تجربہ ہوتا ہے، اس کی لاگت بہت تیزی سے بڑھنے لگتی ہے، سب سے زیادہ ہنر مند لوگ بہت مہنگے ہوتے ہیں۔ ترقی مارکیٹ کے موجودہ لمحے میں سچ ہے.

ڈیٹا سائنسدان کے کام کا ایک بڑا حصہ ڈیٹا میں جانا، سمجھنا کہ وہاں کیا ہے، ان لوگوں سے مشورہ کرنا جو کاروباری عمل کے ذمہ دار ہیں اور اس ڈیٹا کو تیار کرتے ہیں - اور تب ہی اسے ماڈل بنانے کے لیے استعمال کرتے ہیں۔ بڑے ڈیٹا کے ساتھ کام شروع کرنے کے لیے، انجینئرنگ کی مہارت کا ہونا انتہائی ضروری ہے - اس سے تیز کونوں سے بچنا بہت آسان ہو جاتا ہے، جن میں سے ڈیٹا سائنس میں بہت سے ہیں۔

ایک عام کہانی: آپ نے ایس کیو ایل میں ایک استفسار لکھا جو بڑے ڈیٹا پر چلنے والے Hive فریم ورک کا استعمال کرتے ہوئے عمل میں لایا جاتا ہے۔ درخواست پر دس منٹ میں کارروائی کی جاتی ہے، بدترین صورت میں - ایک یا دو گھنٹے میں، اور اکثر، جب آپ کو اس ڈیٹا کے ڈاؤن لوڈ موصول ہوتے ہیں، تو آپ کو احساس ہوتا ہے کہ آپ کسی عنصر یا اضافی معلومات کو مدنظر رکھنا بھول گئے ہیں۔ آپ کو درخواست دوبارہ بھیجنی ہوگی اور ان منٹوں اور گھنٹوں کا انتظار کرنا ہوگا۔ اگر آپ کارکردگی کے ذہین ہیں، تو آپ ایک اور کام کریں گے، لیکن جیسا کہ پریکٹس سے پتہ چلتا ہے، ہمارے پاس کارکردگی کے ذہین کم ہیں، اور لوگ صرف انتظار کر رہے ہیں۔ لہذا، کورسز میں ہم ابتدائی طور پر سوالات لکھنے کے لیے کام کی کارکردگی کے لیے کافی وقت دیں گے جو دو گھنٹے کے لیے نہیں بلکہ کئی منٹ کے لیے کام کرتے ہیں۔ یہ مہارت پیداوری کو بڑھاتی ہے، اور اس کے ساتھ ایک ماہر کی قدر ہوتی ہے۔

– اوزون ماسٹرز دوسرے کورسز سے کیسے مختلف ہیں؟

— اوزون ماسٹرز کو اوزون کے ملازمین سکھاتے ہیں، اور کام حقیقی کاروباری معاملات پر مبنی ہوتے ہیں جو کمپنیوں میں حل ہوتے ہیں۔ درحقیقت، انجینئرنگ کی مہارتوں کی کمی کے علاوہ، یونیورسٹی میں ڈیٹا سائنس کی تعلیم حاصل کرنے والے شخص کو ایک اور مسئلہ درپیش ہے: کاروبار کا کام کاروبار کی زبان میں وضع کیا جاتا ہے، اور اس کا مقصد بہت آسان ہے: زیادہ پیسہ کمانا۔ اور ایک ریاضی دان اچھی طرح جانتا ہے کہ ریاضی کے میٹرکس کو کس طرح بہتر بنایا جائے - لیکن ایک ایسے اشارے کو تلاش کرنا جو کاروباری میٹرک کے ساتھ تعلق رکھتا ہو۔ اور آپ کو یہ سمجھنے کی ضرورت ہے کہ آپ ایک کاروباری مسئلہ حل کر رہے ہیں، اور کاروبار کے ساتھ مل کر میٹرکس تیار کریں جنہیں ریاضی کے لحاظ سے بہتر بنایا جا سکے۔ یہ مہارت حقیقی صورتوں کے ذریعے حاصل کی جاتی ہے، اور وہ اوزون کی طرف سے دی جاتی ہے۔
اور یہاں تک کہ اگر ہم مقدمات کو نظر انداز کرتے ہیں، تو اسکول بہت سے پریکٹیشنرز کے ذریعہ پڑھایا جاتا ہے جو حقیقی کمپنیوں میں کاروباری مسائل کو حل کرتے ہیں۔ نتیجے کے طور پر، خود پڑھانے کا نقطہ نظر اب بھی زیادہ مشق پر مبنی ہے۔ کم از کم اپنے کورس میں، میں اس طرف توجہ مرکوز کرنے کی کوشش کروں گا کہ ٹولز کو کیسے استعمال کیا جائے، کون سے طریقے موجود ہیں، وغیرہ۔ طلباء کے ساتھ مل کر، ہم سمجھیں گے کہ ہر کام کا اپنا ایک ٹول ہوتا ہے، اور ہر ٹول کا اپنا اطلاق ہوتا ہے۔

— سب سے مشہور ڈیٹا اینالیسس ٹریننگ پروگرام، یقیناً، SAD ہے — اس سے بالکل کیا فرق ہے؟

— یہ واضح ہے کہ SAD اور Ozon ماسٹرز، تعلیمی فنکشن کے علاوہ، اہلکاروں کی تربیت کے مقامی مسئلے کو حل کرتے ہیں۔ SHAD کے اعلیٰ گریجویٹ بنیادی طور پر Yandex میں بھرتی کیے جاتے ہیں، لیکن اہم بات یہ ہے کہ Yandex، اپنی خصوصیات کی وجہ سے - اور یہ بڑا ہے اور اس وقت بنایا گیا جب بڑے ڈیٹا کے ساتھ کام کرنے کے لیے کچھ اچھے ٹولز موجود تھے - ڈیٹا کے ساتھ کام کرنے کے لیے اس کا اپنا انفراسٹرکچر اور ٹولز ہیں۔ جس کا مطلب ہے، آپ کو ان پر عبور حاصل کرنا پڑے گا۔ اوزون ماسٹرز کا ایک مختلف پیغام ہے - اگر آپ نے پروگرام میں کامیابی کے ساتھ مہارت حاصل کر لی ہے اور اوزون یا دیگر 99% کمپنیوں میں سے کوئی آپ کو کام کرنے کی دعوت دیتی ہے، تو کاروبار کو فائدہ پہنچانا شروع کرنا بہت آسان ہو جائے گا؛ اوزون ماسٹرز کے حصے کے طور پر حاصل کردہ مہارت کا سیٹ صرف کام شروع کرنے کے لئے کافی ہو گا.

- کورس دو سال تک رہتا ہے۔ آپ کو اس پر اتنا وقت دینے کی کیا ضرورت ہے؟

- اچھا سوال. اس میں کافی وقت لگتا ہے، کیونکہ مواد اور اساتذہ کی سطح کے لحاظ سے، یہ ماسٹرز کا ایک لازمی پروگرام ہے جس میں مہارت حاصل کرنے کے لیے کافی وقت درکار ہوتا ہے، بشمول ہوم ورک۔

میرے کورس کے نقطہ نظر سے، ایک طالب علم سے یہ توقع رکھنا کہ وہ ہفتے میں 2-3 گھنٹے اسائنمنٹس پر گزارے گا۔ سب سے پہلے، کام ایک ٹریننگ کلسٹر پر کیے جاتے ہیں، اور کسی بھی مشترکہ کلسٹر کا مطلب یہ ہے کہ کئی لوگ اسے بیک وقت استعمال کرتے ہیں۔ یعنی، آپ کو کام شروع کرنے کا انتظار کرنا پڑے گا؛ کچھ وسائل کو منتخب کرکے اعلی ترجیحی قطار میں منتقل کیا جا سکتا ہے۔ دوسری طرف، بڑے ڈیٹا کے ساتھ کسی بھی کام میں کافی وقت لگتا ہے۔

اگر آپ کے پاس پروگرام کے بارے میں مزید سوالات ہیں، بڑے ڈیٹا یا انجینئرنگ کی مہارتوں کے ساتھ کام کرنا، Ozon Masters ہفتہ، 25 اپریل کو 12:00 بجے آن لائن اوپن ڈے منا رہا ہے۔ ہم اساتذہ اور طلباء سے ملتے ہیں۔ زوم اور پر یو ٹیوب پر.

ماخذ: www.habr.com

نیا تبصرہ شامل کریں