Pavel Klemenkov,NVIDIA:我們正在努力縮小資料科學家可以做的事情和他應該做的事情之間的差距

數據科學和商業智慧 Ozon Masters 碩士課程的第二批學生已經開始 - 為了更容易決定放棄申請並參加線上測試,我們向課程老師詢問了對學習和工作的期望與數據。

Pavel Klemenkov,NVIDIA:我們正在努力縮小資料科學家可以做的事情和他應該做的事情之間的差距 NVIDIA 首席資料科學家兼教師 大數據和數據工程課程 Pavel Klemenkov 談到了為什麼數學家需要編寫程式碼並在 Ozon Masters 學習兩年。

— 有很多公司使用數據科學演算法嗎?

- 其實很多。 許多擁有真正大數據的大公司要么開始有效地使用它,要么已經使用它很長時間了。 顯然,一半的市場使用可以放入 Excel 電子表格或可以在大型伺服器上計算的數據,但不能說只有少數企業可以使用數據。

— 告訴我們一些使用資料科學的專案。

— 例如,在 Rambler 工作時,我們正在製作一個基於 RTB(即時競價)原理的廣告系統 - 我們需要建立許多模型來優化廣告購買,或者例如可以預測機率點擊、轉換等。 同時,廣告拍賣會產生大量資料:對潛在廣告買家的網站請求日誌、廣告印像日誌、點擊日誌——每天產生數十 TB 的資料。

此外,對於這些任務,我們觀察到一個有趣的現象:用於訓練模型的資料越多,其品質就越高。 通常,在達到一定數量的數據後,預測的品質就會停止提高,為了進一步提高準確性,您需要使用根本不同的模型、不同的方法來準備數據、特徵等。 在這裡,我們上傳了更多數據,品質也提高了。

這是一個典型的案例,分析師首先必須處理大型資料集,以便至少進行一項實驗,而不可能使用適合舒適 MacBook 的小樣本。 同時,我們需要分散式模型,因為否則它們無法被訓練。 隨著電腦視覺引入生產,這樣的例子變得越來越常見,因為圖片是大量數據,訓練大型模型需要數百萬張圖片。

問題立即出現:如何儲存所有這些信息,如何有效地處理它們,如何使用分散式學習演算法——重點正在從純數學轉向工程。 即使您不在生產中編寫程式碼,您也需要能夠使用工程工具來進行實驗。

— 近年來,資料科學職缺的處理方式發生了怎樣的變化?

——大數據不再是炒作,而是成為現實。 硬碟非常便宜,這意味著可以收集所有數據,以便將來有足夠的數據來檢驗任何假設。 結果,用於處理大數據的工具知識變得非常流行,因此,出現了越來越多的資料工程師職缺。

在我的理解中,資料科學家的工作成果不是實驗,而是已經達到生產的產品。 正是從這一點來看,在大數據炒作出現之前,過程更為簡單:工程師從事機器學習來解決特定問題,將演算法投入生產並不存在任何問題。

— 如何才能成為廣受歡迎的專家?

——現在很多人進入資料科學領域,學過數學、機器學習理論,參加過資料分析比賽,這裡提供了現成的基礎設施:資料被清理,指標被定義,沒有要求解決方案可重複且快速。

結果,人們開始工作時對業務的現實準備不足,並且新手和經驗豐富的開發人員之間形成了差距。

隨著允許您從現成的模組組裝自己的模型的工具的開發 - 微軟、谷歌和許多其他公司已經有了這樣的解決方案 - 以及機器學習的自動化,這種差距將變得更加明顯。 未來,該職業將需要提出新演算法的認真研究人員,以及具有開發模型和自動化流程的工程技能的員工。 Ozon 資料工程碩士課程旨在培養工程技能以及在大數據上使用分散式機器學習演算法的能力。 我們正在努力縮小資料科學家可以做的事情和他在實踐中應該做的事情之間的差距。

— 一個有文憑的數學家為什麼要去讀商科?

— 俄羅斯數據科學界已經認識到,技能和經驗很快就會轉化為金錢,因此,一旦專家擁有實踐經驗,他的成本就開始快速增長,最熟練的人員非常昂貴 - 而這在目前的發展市場中確實如此。

資料科學家工作的一個重要部分是研究數據,了解其中的內容,諮詢負責業務流程的人員並產生這些數據 - 然後才用它來建立模型。 要開始使用大數據,擁有工程技能非常重要 - 這使得更容易避免尖角,而數據科學中有很多這樣的尖角。

一個典型的故事:您用 SQL 編寫了一個查詢,該查詢使用在大數據上執行的 Hive 框架執行。 該請求將在十分鐘內得到處理,最糟糕的情況是一兩個小時,通常,當您收到此數據的下載時,您會意識到您忘記考慮某些因素或附加資訊。 您必須重新發送請求並等待這幾分鐘和幾小時。 如果你是一個效率天才,你就會承擔另一項任務,但是,實踐表明,我們的效率天才很少,人們只是在等待。 因此,在課程中,我們將投入大量時間來提高工作效率,以便最初編寫的查詢不是兩個小時,而是幾分鐘。 這項技能可以提高生產力,進而提高專家的價值。

– Ozon Masters 與其他課程有何不同?

— Ozon Masters 由 Ozon 員工授課,任務基於公司解決的真實業務案例。 事實上,除了缺乏工程技能之外,在大學學習資料科學的人還有另一個問題:企業的任務是用商業語言制定的,目標相當簡單:賺更多的錢。 數學家深知如何優化數學指標,但要找到與業務指標相關的指標卻很困難。 您需要了解您正在解決業務問題,並與業務部門一起制定可以進行數學優化的指標。 這項技能是透過真實案例獲得的,並且是由 Ozon 賦予的。
而且即使我們忽略案例,學校裡教授的也是許多在真實企業中解決商業問題的從業人員。 因此,教學方法本身仍然更重視實踐。 至少在我的課程中,我會嘗試將重點轉移到如何使用工具、有哪些方法等等。 和學生一起,我們會明白每個任務都有自己的工具,每個工具都有它的適用範圍。

——最著名的資料分析訓練課程當然是ShAD——它到底有什麼差別?

——顯然,ShAD和Ozon Masters除了教育功能外,也解決了當地的人才培育問題。 頂尖的SHAD 畢業生主要被招募到Yandex,但問題是,Yandex 由於其特殊性——而且它規模很大,而且是在幾乎沒有處理大數據的好工具的情況下創建的——擁有自己的基礎設施和處理資料的工具,這意味著,你必須掌握它們。 Ozon Masters 傳達了不同的訊息- 如果您成功掌握了該計劃,並且Ozon 或99% 的其他公司之一邀請您工作,那麼您將更容易開始為企業帶來好處;作為Ozon Masters 的一部分獲得的技能組合就足以開始工作了。

— 課程為期兩年。 為什麼你需要花這麼多時間在這上面?

- 好問題。 需要很長的時間,因為從內容和老師的水平來看,這是一個完整的碩士課程,需要大量的時間來掌握,包括作業。

從我的課程角度來看,期望學生每週花 2-3 小時做作業是很常見的。 首先,任務是在訓練集群上執行的,任何共享集群都意味著多個人同時使用它。 也就是說,您必須等待任務開始執行;可能會選擇一些資源並將其轉移到更高優先順序的佇列。 另一方面,任何大數據工作都需要花費大量時間。

如果您對該計劃、大數據工作或工程技能還有任何疑問,Ozon Masters 將於 25 月 12 日星期六 00:XNUMX 舉辦線上開放日。 我們與老師和學生見面 ZoomYouTube.

來源: www.habr.com

添加評論