پاول کلمنکوف، انویدیا: ما در تلاش هستیم تا شکاف بین کارهایی که یک دانشمند داده می تواند انجام دهد و آنچه که باید بتواند انجام دهد را کاهش دهیم.

دومین پذیرش دانشجویان مقطع کارشناسی ارشد علوم داده و هوش تجاری Ozon Masters آغاز شد - و برای سهولت در تصمیم گیری برای ترک یک برنامه و شرکت در آزمون آنلاین، از معلمان برنامه در مورد انتظارات از تحصیل و کار پرسیدیم. با داده ها

پاول کلمنکوف، انویدیا: ما در تلاش هستیم تا شکاف بین کارهایی که یک دانشمند داده می تواند انجام دهد و آنچه که باید بتواند انجام دهد را کاهش دهیم. دانشمند ارشد داده NVIDIA و معلم دوره های مهندسی داده های بزرگ و داده ها پاول کلمنکوف در مورد اینکه چرا ریاضیدانان باید کد بنویسند و به مدت دو سال در Ozon Masters مطالعه کنند صحبت کرد.

- آیا شرکت های زیادی وجود دارند که از الگوریتم های علم داده استفاده می کنند؟

- در واقع خیلی زیاد. بسیاری از شرکت‌های بزرگ که داده‌های واقعی دارند یا به طور موثر با آن کار می‌کنند یا برای مدت طولانی با آن کار می‌کنند. واضح است که نیمی از بازار از داده هایی استفاده می کند که می توانند در یک صفحه گسترده اکسل قرار بگیرند یا می توان آنها را روی یک سرور بزرگ محاسبه کرد، اما نمی توان گفت که فقط تعداد کمی از مشاغل هستند که می توانند با داده کار کنند.

- کمی در مورد پروژه هایی که علم داده در آنها استفاده می شود، توضیح دهید.

- به عنوان مثال، در حین کار در Rambler، ما در حال ساخت یک سیستم تبلیغاتی بودیم که بر اساس اصول RTB (مناقصه در زمان واقعی) کار می کرد - ما نیاز به ساخت مدل های زیادی داشتیم که خرید تبلیغات را بهینه کنند یا مثلاً بتوانند احتمال را پیش بینی کنند. از یک کلیک، تبدیل، و غیره. در همان زمان، یک حراج تبلیغاتی داده‌های زیادی تولید می‌کند: گزارش درخواست‌های سایت برای خریداران تبلیغاتی بالقوه، گزارش‌های برداشت‌های تبلیغاتی، گزارش‌های کلیک - این ده‌ها ترابایت داده در روز است.

علاوه بر این، برای این کارها ما یک پدیده جالب را مشاهده کردیم: هرچه داده های بیشتری برای آموزش مدل ارائه دهید، کیفیت آن بالاتر است. معمولاً پس از مقدار مشخصی از داده ها، کیفیت پیش بینی بهبود نمی یابد و برای بهبود بیشتر دقت، باید از یک مدل اساساً متفاوت، رویکردی متفاوت برای تهیه داده ها، ویژگی ها و غیره استفاده کنید. در اینجا ما داده های بیشتری را آپلود کردیم و کیفیت افزایش یافت.

این یک مورد معمولی است که در آن تحلیلگران مجبور بودند اولاً با مجموعه داده های بزرگ کار کنند تا حداقل آزمایشی را انجام دهند، و در آنجا غیرممکن بود که با یک نمونه کوچک که در یک مک بوک دنج قرار می گیرد، به نتیجه برسند. در عین حال به مدل های توزیع شده نیاز داشتیم، زیرا در غیر این صورت نمی توان آنها را آموزش داد. با معرفی بینایی کامپیوتری به تولید، چنین نمونه هایی رایج تر می شوند، زیرا تصاویر حجم زیادی از داده ها هستند و برای آموزش یک مدل بزرگ، میلیون ها تصویر مورد نیاز است.

بلافاصله این سؤال مطرح می شود: چگونه می توان همه این اطلاعات را ذخیره کرد، چگونه آنها را به طور مؤثر پردازش کرد، چگونه از الگوریتم های یادگیری توزیع شده استفاده کرد - تمرکز از ریاضیات خالص به مهندسی تغییر می کند. حتی اگر در تولید کد نمی نویسید، باید بتوانید با ابزارهای مهندسی برای انجام آزمایش کار کنید.

- رویکرد به مشاغل خالی علوم داده در سال‌های اخیر چگونه تغییر کرده است؟

- داده های بزرگ دیگر تبلیغاتی نبوده و به واقعیت تبدیل شده است. هارد دیسک ها بسیار ارزان هستند، به این معنی که جمع آوری تمام داده ها امکان پذیر است تا در آینده برای آزمایش هر فرضیه کافی باشد. در نتیجه، دانش ابزارهای کار با داده های بزرگ بسیار محبوب می شود، و در نتیجه، جای خالی بیشتر و بیشتری برای مهندسان داده ظاهر می شود.

در درک من، نتیجه کار یک دانشمند داده یک آزمایش نیست، بلکه محصولی است که به تولید رسیده است. و فقط از این منظر، قبل از ظهور هیاهو در مورد کلان داده، فرآیند ساده‌تر بود: مهندسان برای حل مشکلات خاص درگیر یادگیری ماشینی بودند و هیچ مشکلی برای آوردن الگوریتم‌ها به تولید وجود نداشت.

- برای ماندن در یک متخصص مورد تقاضا چه چیزی لازم است؟

- اکنون بسیاری از افراد به علم داده آمده اند که ریاضیات، تئوری یادگیری ماشین را مطالعه کرده اند و در مسابقات تجزیه و تحلیل داده ها شرکت کرده اند، جایی که زیرساخت آماده ای فراهم شده است: داده ها تمیز می شوند، معیارها تعریف می شوند و هیچ وجود ندارد. الزامات برای اینکه راه حل قابل تکرار و سریع باشد.

در نتیجه، بچه‌ها با آمادگی ناکافی برای واقعیت‌های تجارت سر کار می‌آیند و شکافی بین تازه‌کارها و توسعه‌دهندگان با تجربه ایجاد می‌شود.

با توسعه ابزارهایی که به شما امکان می دهد مدل خود را از ماژول های آماده جمع آوری کنید - و مایکروسافت، گوگل و بسیاری دیگر قبلاً چنین راه حل هایی را دارند - و اتوماسیون یادگیری ماشینی، این شکاف حتی بیشتر می شود. در آینده، این حرفه برای محققان جدی که الگوریتم‌های جدید ارائه می‌کنند و کارمندانی با مهارت‌های مهندسی پیشرفته که مدل‌ها را پیاده‌سازی می‌کنند و فرآیندها را خودکار می‌کنند، مورد تقاضا خواهد بود. دوره کارشناسی ارشد Ozon در مهندسی داده برای توسعه مهارت های مهندسی و توانایی استفاده از الگوریتم های یادگیری ماشین توزیع شده بر روی داده های بزرگ طراحی شده است. ما در تلاش هستیم تا شکاف بین آنچه یک دانشمند داده می تواند انجام دهد و آنچه که باید در عمل انجام دهد را کاهش دهیم.

- چرا یک ریاضیدان با مدرک دیپلم باید برای تحصیل در رشته تجارت برود؟

- جامعه علوم داده روسیه به این درک رسیده است که مهارت و تجربه خیلی سریع به پول تبدیل می شود، بنابراین، به محض اینکه یک متخصص تجربه عملی داشته باشد، هزینه او خیلی سریع شروع به رشد می کند، ماهرترین افراد بسیار گران هستند - و این در حال حاضر بازار توسعه درست است.

بخش بزرگی از کار یک دانشمند داده این است که وارد داده ها شود، بفهمد چه چیزی در آنجا نهفته است، با افرادی که مسئول فرآیندهای تجاری هستند مشورت کند و این داده ها را تولید کند - و تنها پس از آن از آن برای ساخت مدل استفاده کند. برای شروع کار با داده‌های بزرگ، داشتن مهارت‌های مهندسی بسیار مهم است - این امر اجتناب از گوشه‌های تیز را که در علم داده تعداد زیادی از آنها وجود دارد، بسیار آسان‌تر می‌کند.

یک داستان معمولی: شما یک پرس و جو در SQL نوشتید که با استفاده از چارچوب Hive در حال اجرا بر روی داده های بزرگ اجرا می شود. درخواست در ده دقیقه پردازش می شود، در بدترین حالت - در یک یا دو ساعت، و اغلب، زمانی که بارگیری این داده ها را دریافت می کنید، متوجه می شوید که فراموش کرده اید برخی از عوامل یا اطلاعات اضافی را در نظر بگیرید. شما باید درخواست را دوباره ارسال کنید و منتظر این دقیقه ها و ساعت ها باشید. اگر شما یک نابغه کارآمدی هستید، کار دیگری را انجام خواهید داد، اما همانطور که تمرین نشان می دهد، ما نابغه های کارآمدی کمی داریم و مردم فقط منتظر هستند. بنابراین، در دوره ها زمان زیادی را به کارایی کار اختصاص خواهیم داد تا در ابتدا پرس و جوهایی بنویسیم که نه برای دو ساعت، بلکه برای چندین دقیقه کار می کنند. این مهارت بهره وری و به همراه آن ارزش یک متخصص را چند برابر می کند.

- اوزون مستر چه تفاوتی با دوره های دیگر دارد؟

— Ozon Masters توسط کارمندان Ozon تدریس می شود و وظایف بر اساس موارد تجاری واقعی است که در شرکت ها حل می شود. در واقع، علاوه بر فقدان مهارت های مهندسی، فردی که در دانشگاه علوم داده خوانده است، مشکل دیگری نیز دارد: وظیفه یک تجارت به زبان تجارت فرموله شده است و هدف آن کاملاً ساده است: کسب درآمد بیشتر. و یک ریاضیدان به خوبی می داند که چگونه معیارهای ریاضی را بهینه کند - اما یافتن شاخصی که با معیارهای تجاری مرتبط باشد دشوار است. و باید درک کنید که در حال حل یک مشکل تجاری هستید و همراه با کسب و کار، معیارهایی را تدوین کنید که می توانند از نظر ریاضی بهینه شوند. این مهارت از طریق کیس های واقعی به دست می آید و ازون به آنها داده می شود.
و حتی اگر موارد را نادیده بگیریم، این مدرسه توسط بسیاری از تمرین‌کنندگان تدریس می‌شود که مشکلات تجاری را در شرکت‌های واقعی حل می‌کنند. در نتیجه، رویکرد به خود تدریس همچنان بیشتر عمل محور است. حداقل در دوره ام، سعی خواهم کرد تمرکز را به نحوه استفاده از ابزارها، رویکردهای موجود و غیره تغییر دهم. همراه با دانش آموزان، ما متوجه خواهیم شد که هر کار ابزار خاص خود را دارد و هر ابزار دارای حوزه کاربردی است.

- معروف ترین برنامه آموزشی تجزیه و تحلیل داده ها، البته، ShAD است - دقیقاً چه تفاوتی با آن دارد؟

- واضح است که ShAD و Ozon Masters علاوه بر کارکرد آموزشی، مشکل محلی آموزش پرسنل را حل می کنند. فارغ التحصیلان برتر SHAD در درجه اول در Yandex استخدام می شوند، اما نکته مهم این است که Yandex، به دلیل ویژگی های آن - و بزرگ است و زمانی ایجاد شد که ابزارهای خوبی برای کار با داده های بزرگ وجود نداشت - زیرساخت و ابزارهای خاص خود را برای کار با داده ها دارد. ، به این معنی که شما باید به آنها تسلط داشته باشید. Ozon Masters پیام دیگری دارد - اگر با موفقیت بر برنامه تسلط داشته باشید و Ozon یا یکی از 99٪ شرکت های دیگر شما را به کار دعوت کند، شروع به سود بردن از تجارت بسیار آسان تر خواهد بود؛ مجموعه مهارت هایی که به عنوان بخشی از Ozon Masters به ​​دست آمده است. برای شروع کار کافی خواهد بود.

- دوره دو سال طول می کشد. چرا باید زمان زیادی را برای این موضوع صرف کنید؟

- سؤال خوبی بود. زمان زیادی طول می کشد، زیرا از نظر محتوا و سطح معلمان، این یک برنامه کارشناسی ارشد است که نیاز به زمان زیادی برای تسلط دارد، از جمله تکالیف.

از دیدگاه دوره من، انتظار از دانش آموز برای گذراندن 2-3 ساعت در هفته برای انجام تکالیف معمول است. اولاً، وظایف بر روی یک خوشه آموزشی انجام می‌شود و هر خوشه مشترک به این معناست که چندین نفر به طور همزمان از آن استفاده می‌کنند. یعنی باید منتظر بمانید تا کار شروع به اجرا شود؛ ممکن است برخی منابع انتخاب شده و به صف با اولویت بالاتر منتقل شوند. از سوی دیگر، هر کاری با داده های بزرگ زمان زیادی می برد.

اگر سؤال بیشتری در مورد برنامه، کار با داده های بزرگ یا مهارت های مهندسی دارید، Ozon Masters در روز شنبه، 25 آوریل ساعت 12:00 یک روز آزاد آنلاین دارد. ما با معلمان و دانش آموزان در بزرگنمایی و یوتیوب.

منبع: www.habr.com

اضافه کردن نظر