دومین پذیرش دانشجویان مقطع کارشناسی ارشد علوم داده و هوش تجاری Ozon Masters آغاز شد - و برای سهولت در تصمیم گیری برای ترک یک برنامه و شرکت در آزمون آنلاین، از معلمان برنامه در مورد انتظارات از تحصیل و کار پرسیدیم. با داده ها
دانشمند ارشد داده NVIDIA و معلم
- آیا شرکت های زیادی وجود دارند که از الگوریتم های علم داده استفاده می کنند؟
- در واقع خیلی زیاد. بسیاری از شرکتهای بزرگ که دادههای واقعی دارند یا به طور موثر با آن کار میکنند یا برای مدت طولانی با آن کار میکنند. واضح است که نیمی از بازار از داده هایی استفاده می کند که می توانند در یک صفحه گسترده اکسل قرار بگیرند یا می توان آنها را روی یک سرور بزرگ محاسبه کرد، اما نمی توان گفت که فقط تعداد کمی از مشاغل هستند که می توانند با داده کار کنند.
- کمی در مورد پروژه هایی که علم داده در آنها استفاده می شود، توضیح دهید.
- به عنوان مثال، در حین کار در Rambler، ما در حال ساخت یک سیستم تبلیغاتی بودیم که بر اساس اصول RTB (مناقصه در زمان واقعی) کار می کرد - ما نیاز به ساخت مدل های زیادی داشتیم که خرید تبلیغات را بهینه کنند یا مثلاً بتوانند احتمال را پیش بینی کنند. از یک کلیک، تبدیل، و غیره. در همان زمان، یک حراج تبلیغاتی دادههای زیادی تولید میکند: گزارش درخواستهای سایت برای خریداران تبلیغاتی بالقوه، گزارشهای برداشتهای تبلیغاتی، گزارشهای کلیک - این دهها ترابایت داده در روز است.
علاوه بر این، برای این کارها ما یک پدیده جالب را مشاهده کردیم: هرچه داده های بیشتری برای آموزش مدل ارائه دهید، کیفیت آن بالاتر است. معمولاً پس از مقدار مشخصی از داده ها، کیفیت پیش بینی بهبود نمی یابد و برای بهبود بیشتر دقت، باید از یک مدل اساساً متفاوت، رویکردی متفاوت برای تهیه داده ها، ویژگی ها و غیره استفاده کنید. در اینجا ما داده های بیشتری را آپلود کردیم و کیفیت افزایش یافت.
این یک مورد معمولی است که در آن تحلیلگران مجبور بودند اولاً با مجموعه داده های بزرگ کار کنند تا حداقل آزمایشی را انجام دهند، و در آنجا غیرممکن بود که با یک نمونه کوچک که در یک مک بوک دنج قرار می گیرد، به نتیجه برسند. در عین حال به مدل های توزیع شده نیاز داشتیم، زیرا در غیر این صورت نمی توان آنها را آموزش داد. با معرفی بینایی کامپیوتری به تولید، چنین نمونه هایی رایج تر می شوند، زیرا تصاویر حجم زیادی از داده ها هستند و برای آموزش یک مدل بزرگ، میلیون ها تصویر مورد نیاز است.
بلافاصله این سؤال مطرح می شود: چگونه می توان همه این اطلاعات را ذخیره کرد، چگونه آنها را به طور مؤثر پردازش کرد، چگونه از الگوریتم های یادگیری توزیع شده استفاده کرد - تمرکز از ریاضیات خالص به مهندسی تغییر می کند. حتی اگر در تولید کد نمی نویسید، باید بتوانید با ابزارهای مهندسی برای انجام آزمایش کار کنید.
- رویکرد به مشاغل خالی علوم داده در سالهای اخیر چگونه تغییر کرده است؟
- داده های بزرگ دیگر تبلیغاتی نبوده و به واقعیت تبدیل شده است. هارد دیسک ها بسیار ارزان هستند، به این معنی که جمع آوری تمام داده ها امکان پذیر است تا در آینده برای آزمایش هر فرضیه کافی باشد. در نتیجه، دانش ابزارهای کار با داده های بزرگ بسیار محبوب می شود، و در نتیجه، جای خالی بیشتر و بیشتری برای مهندسان داده ظاهر می شود.
در درک من، نتیجه کار یک دانشمند داده یک آزمایش نیست، بلکه محصولی است که به تولید رسیده است. و فقط از این منظر، قبل از ظهور هیاهو در مورد کلان داده، فرآیند سادهتر بود: مهندسان برای حل مشکلات خاص درگیر یادگیری ماشینی بودند و هیچ مشکلی برای آوردن الگوریتمها به تولید وجود نداشت.
- برای ماندن در یک متخصص مورد تقاضا چه چیزی لازم است؟
- اکنون بسیاری از افراد به علم داده آمده اند که ریاضیات، تئوری یادگیری ماشین را مطالعه کرده اند و در مسابقات تجزیه و تحلیل داده ها شرکت کرده اند، جایی که زیرساخت آماده ای فراهم شده است: داده ها تمیز می شوند، معیارها تعریف می شوند و هیچ وجود ندارد. الزامات برای اینکه راه حل قابل تکرار و سریع باشد.
در نتیجه، بچهها با آمادگی ناکافی برای واقعیتهای تجارت سر کار میآیند و شکافی بین تازهکارها و توسعهدهندگان با تجربه ایجاد میشود.
با توسعه ابزارهایی که به شما امکان می دهد مدل خود را از ماژول های آماده جمع آوری کنید - و مایکروسافت، گوگل و بسیاری دیگر قبلاً چنین راه حل هایی را دارند - و اتوماسیون یادگیری ماشینی، این شکاف حتی بیشتر می شود. در آینده، این حرفه برای محققان جدی که الگوریتمهای جدید ارائه میکنند و کارمندانی با مهارتهای مهندسی پیشرفته که مدلها را پیادهسازی میکنند و فرآیندها را خودکار میکنند، مورد تقاضا خواهد بود. دوره کارشناسی ارشد Ozon در مهندسی داده برای توسعه مهارت های مهندسی و توانایی استفاده از الگوریتم های یادگیری ماشین توزیع شده بر روی داده های بزرگ طراحی شده است. ما در تلاش هستیم تا شکاف بین آنچه یک دانشمند داده می تواند انجام دهد و آنچه که باید در عمل انجام دهد را کاهش دهیم.
- چرا یک ریاضیدان با مدرک دیپلم باید برای تحصیل در رشته تجارت برود؟
- جامعه علوم داده روسیه به این درک رسیده است که مهارت و تجربه خیلی سریع به پول تبدیل می شود، بنابراین، به محض اینکه یک متخصص تجربه عملی داشته باشد، هزینه او خیلی سریع شروع به رشد می کند، ماهرترین افراد بسیار گران هستند - و این در حال حاضر بازار توسعه درست است.
بخش بزرگی از کار یک دانشمند داده این است که وارد داده ها شود، بفهمد چه چیزی در آنجا نهفته است، با افرادی که مسئول فرآیندهای تجاری هستند مشورت کند و این داده ها را تولید کند - و تنها پس از آن از آن برای ساخت مدل استفاده کند. برای شروع کار با دادههای بزرگ، داشتن مهارتهای مهندسی بسیار مهم است - این امر اجتناب از گوشههای تیز را که در علم داده تعداد زیادی از آنها وجود دارد، بسیار آسانتر میکند.
یک داستان معمولی: شما یک پرس و جو در SQL نوشتید که با استفاده از چارچوب Hive در حال اجرا بر روی داده های بزرگ اجرا می شود. درخواست در ده دقیقه پردازش می شود، در بدترین حالت - در یک یا دو ساعت، و اغلب، زمانی که بارگیری این داده ها را دریافت می کنید، متوجه می شوید که فراموش کرده اید برخی از عوامل یا اطلاعات اضافی را در نظر بگیرید. شما باید درخواست را دوباره ارسال کنید و منتظر این دقیقه ها و ساعت ها باشید. اگر شما یک نابغه کارآمدی هستید، کار دیگری را انجام خواهید داد، اما همانطور که تمرین نشان می دهد، ما نابغه های کارآمدی کمی داریم و مردم فقط منتظر هستند. بنابراین، در دوره ها زمان زیادی را به کارایی کار اختصاص خواهیم داد تا در ابتدا پرس و جوهایی بنویسیم که نه برای دو ساعت، بلکه برای چندین دقیقه کار می کنند. این مهارت بهره وری و به همراه آن ارزش یک متخصص را چند برابر می کند.
- اوزون مستر چه تفاوتی با دوره های دیگر دارد؟
— Ozon Masters توسط کارمندان Ozon تدریس می شود و وظایف بر اساس موارد تجاری واقعی است که در شرکت ها حل می شود. در واقع، علاوه بر فقدان مهارت های مهندسی، فردی که در دانشگاه علوم داده خوانده است، مشکل دیگری نیز دارد: وظیفه یک تجارت به زبان تجارت فرموله شده است و هدف آن کاملاً ساده است: کسب درآمد بیشتر. و یک ریاضیدان به خوبی می داند که چگونه معیارهای ریاضی را بهینه کند - اما یافتن شاخصی که با معیارهای تجاری مرتبط باشد دشوار است. و باید درک کنید که در حال حل یک مشکل تجاری هستید و همراه با کسب و کار، معیارهایی را تدوین کنید که می توانند از نظر ریاضی بهینه شوند. این مهارت از طریق کیس های واقعی به دست می آید و ازون به آنها داده می شود.
و حتی اگر موارد را نادیده بگیریم، این مدرسه توسط بسیاری از تمرینکنندگان تدریس میشود که مشکلات تجاری را در شرکتهای واقعی حل میکنند. در نتیجه، رویکرد به خود تدریس همچنان بیشتر عمل محور است. حداقل در دوره ام، سعی خواهم کرد تمرکز را به نحوه استفاده از ابزارها، رویکردهای موجود و غیره تغییر دهم. همراه با دانش آموزان، ما متوجه خواهیم شد که هر کار ابزار خاص خود را دارد و هر ابزار دارای حوزه کاربردی است.
- معروف ترین برنامه آموزشی تجزیه و تحلیل داده ها، البته، ShAD است - دقیقاً چه تفاوتی با آن دارد؟
- واضح است که ShAD و Ozon Masters علاوه بر کارکرد آموزشی، مشکل محلی آموزش پرسنل را حل می کنند. فارغ التحصیلان برتر SHAD در درجه اول در Yandex استخدام می شوند، اما نکته مهم این است که Yandex، به دلیل ویژگی های آن - و بزرگ است و زمانی ایجاد شد که ابزارهای خوبی برای کار با داده های بزرگ وجود نداشت - زیرساخت و ابزارهای خاص خود را برای کار با داده ها دارد. ، به این معنی که شما باید به آنها تسلط داشته باشید. Ozon Masters پیام دیگری دارد - اگر با موفقیت بر برنامه تسلط داشته باشید و Ozon یا یکی از 99٪ شرکت های دیگر شما را به کار دعوت کند، شروع به سود بردن از تجارت بسیار آسان تر خواهد بود؛ مجموعه مهارت هایی که به عنوان بخشی از Ozon Masters به دست آمده است. برای شروع کار کافی خواهد بود.
- دوره دو سال طول می کشد. چرا باید زمان زیادی را برای این موضوع صرف کنید؟
- سؤال خوبی بود. زمان زیادی طول می کشد، زیرا از نظر محتوا و سطح معلمان، این یک برنامه کارشناسی ارشد است که نیاز به زمان زیادی برای تسلط دارد، از جمله تکالیف.
از دیدگاه دوره من، انتظار از دانش آموز برای گذراندن 2-3 ساعت در هفته برای انجام تکالیف معمول است. اولاً، وظایف بر روی یک خوشه آموزشی انجام میشود و هر خوشه مشترک به این معناست که چندین نفر به طور همزمان از آن استفاده میکنند. یعنی باید منتظر بمانید تا کار شروع به اجرا شود؛ ممکن است برخی منابع انتخاب شده و به صف با اولویت بالاتر منتقل شوند. از سوی دیگر، هر کاری با داده های بزرگ زمان زیادی می برد.
اگر سؤال بیشتری در مورد برنامه، کار با داده های بزرگ یا مهارت های مهندسی دارید، Ozon Masters در روز شنبه، 25 آوریل ساعت 12:00 یک روز آزاد آنلاین دارد. ما با معلمان و دانش آموزان در
منبع: www.habr.com