Notes 數據科學家:從哪裡開始,是否有必要?

Notes 數據科學家:從哪裡開始,是否有必要?

TL;DR 是一篇關於數據科學以及如何進入該行業並在其中發展的問題/答案的帖子。 在文章中,我將分析基本原理和常見問題解答,並準備回答您的具體問題 - 請寫在評論中(或私訊),我將盡力在幾天內回答所有問題。

隨著《撒旦約會》系列筆記的出現,許多留言和評論都帶著如何入手、從哪裡挖掘的疑問,今天我們就來分析一下發表後出現的主要技巧和問題。

這裡所說的一切並不聲稱是最終的事實,而是作者的主觀意見。 我們將看看這個過程中最重要的主要事情。

到底為什麼需要這個?

為了更好地實現目標,使其看起來至少有些具體 - 您想成為 Facebook/Apple/Amazon/Netflix/Google 的 DS 或研究科學家 - 查看要求、語言和必要的技能具體針對哪個職位。 招募流程是怎麼樣的? 作為這樣的角色,典型的一天是如何度過的? 在那裡工作的人的平均資料是什麼樣的?

通常,整體情況是一個人並不真正了解自己想要什麼,也不完全清楚如何為這種不清晰的圖像做好準備 - 因此至少有一個關於您到底想要什麼的粗略計劃是值得的。

具體化當前的目標觀

即使一路上發生變化,而且在遊戲過程中改變計劃通常是正常的,但有一個目標並專注於它,定期評估和重新思考是值得的。

它會或仍然相關嗎?

等你成長到一個職位的時候。

想像一下,在擔任該職位之前,您需要獲得博士學位,在該行業工作2-3 年,並且通常在寺院冥想時剪頭髮- 數據科學的情況是否會與經濟學家和經濟學家的情況一樣?律師? 在你想要追求的領域,一切都會變得面目全非嗎?

現在不是每個人都會湧向那裡的好機會嗎?我們會看到這樣一景象:有大量的人試圖進入這個行業,而起始位置只是微薄的。

在選擇道路時,可能值得考慮當前的趨勢,不僅是勞動力市場的當前狀態,還要考慮您對它如何變化以及它在哪裡的想法。

例如,作者本來並沒有打算成為撒旦教徒,但在讀博士期間,他從事了一些與DS 有很強共同技能的第三方項目,在研究生畢業時,他很自然地轉向了這個環境,看到了良好的環境。位置。

如果在比賽過程中發現有必要搬到其他地方——因為現在有最多的動作並且所有最有趣的動作都在發生,那麼我們會自然地搬到那裡。

技能分解

這些是有條件的技能類別,在我看來,這些技能對於 DS 中全面有效的工作至關重要。 我將單獨重點介紹英語 - 學習你在 CS 中所做的任何事情。 接下來是關鍵類別。

程式設計/腳本

您確定熟悉哪些語言? Python? 爪哇? 外殼腳本? 盧阿? sql? C++?

就程式設計而言,您到底需要做什麼以及為什麼這樣做 - 這裡的職位範圍差異很大。

例如,我經常需要實作複雜的邏輯、查詢、模型、分析,並且通常開發解釋型系統,但對程式碼的速度幾乎沒有要求,除了最通用和合理的之外。

因此,我的技能與那些編寫 Tensorflow 庫並考慮優化程式碼以有效使用 l1 快取和類似事物的人非常不同,因此請看看您到底需要什麼並評估正確的學習路徑。

例如對於python,人們已經補了 地圖 語言學習。

當然,已經有經驗豐富的建議和適合您需求的良好資源 - 您需要確定清單並開始處理它。

了解業務流程

沒有它你哪裡也去不了:你需要明白為什麼這個過程需要你,你在做什麼以及為什麼。 通常,這可以節省您大量時間,使您的利益最大化,而不是在廢話上浪費時間和資源。

通常,我會問自己以下問題:

  • 我在公司具體做什麼工作?
  • 為什麼呢?
  • 誰會使用它以及如何使用它?
  • 我有什麼選擇?
  • 參數的限制是什麼?

這裡有一些關於參數的更多細節:如果你知道可以犧牲一些東西,你通常可以極大地改變工作場景:例如,可解釋性,反之亦然,百分之幾在這裡不會發揮作用,我們有一個非常快的解決方案,客戶需要它,因為他為管道在 AWS 中運行的時間付費。

數學

在這裡,你自己思考和理解一切 - 如果沒有基本數學知識,你只不過是拿著手榴彈的猴子(對不起隨機森林) - 所以你至少需要理解基本的東西。 如果我要編制一個非常小的列表,它將包括:

  • 線性代數-海量資源輕鬆Google,尋找最適合你的;
  • 數學分析-(至少前兩個學期);
  • 機率論在機器學習中無所不在;
  • 組合學-它其實是理論的補充;
  • 圖論 - 至少 BASIC;
  • 演算法——至少前兩個學期(參見 Cormen 在他的書中的建議);
  • 數學邏輯——至少是基礎的。

實用的數據分析與視覺化

最重要的事情之一是能夠不怕接觸數據,對數據集、專案進行全面分析,並創建快速的數據視覺化。

探索性資料分析應該變得很自然,就像所有其他資料轉換以及從 UNIX 節點建立簡單管道(請參閱先前的文章)或編寫可讀且易於理解的筆記本的能力一樣。

我想提一提形象化:百聞不如一見。

向經理展示圖表比一組數字簡單一百倍,因此 matplotlib、seaborn 和 ggplot2 是您的朋友。

軟技能

能夠向他人傳達您的想法以及結果和擔憂(等)也同樣重要 - 確保您可以用技術和業務術語清楚地說明任務。

您可以向同事、經理、上級、客戶和任何其他需要的人解釋正在發生的事情、您正在使用哪些數據以及您得到了什麼結果。

您的圖表和文件應該在沒有您的情況下閱讀。 也就是說,你不需要去你那裡就能明白那裡寫的是什麼。

您可以進行清晰的演示來闡明要點和/或記錄項目/您的工作。

您可以以理性且不帶感情色彩的方式表達您的立場,說「是/否」或質疑/支持某個決定。

訓練

您可以在許多不同的地方學習所有這些內容。 我將給出一個簡短的清單 - 我嘗試了其中的所有內容,說實話,每個項目都有其優點和缺點。 嘗試一下並決定什麼適合您,但我強烈建議您嘗試多種選擇,而不是陷入其中。

  • 線上課程:coursera、udacity、Edx等;
  • 新學校:線上和線下-SkillFactory、ShAD、MADE;
  • 經典學校:大學碩士課程和高級培訓課程;
  • 項目-您可以簡單地選擇您感興趣的任務並將其剪切,上傳到github;
  • 實習-在這裡很難提出任何建議;你必須尋找可用的實習機會並找到合適的選擇。

有必要嗎?

最後,我可能會添加我自己嘗試遵循的三個個人原則。

  • 應該很有趣;
  • 帶來內心的愉悅(=至少不會造成痛苦);
  • “成為你的。”

為什麼是他們? 很難想像每天做某事卻不享受或不感興趣。 想像一下,你是一名醫生,你討厭與人交流——這當然可以在某種程度上起作用,但你會因為不斷有病人想問你一些問題而感到不舒服。 從長遠來看,這是行不通的。

為什麼我特別提到內心的快樂? 在我看來,這對於進一步的發展以及原則上的學習過程是必要的。 當我設法完成一些複雜的功能並建立模型或計算重要參數時,我真的很喜歡它。 當我的程式碼美觀且寫得很好時,我很享受。 因此,學習新事物很有趣,並不直接需要任何顯著的動機。

「成為你的」與這大致就是你想做的事情是一樣的感覺。 我有一個小故事。 從孩提時代起,我就對搖滾音樂(以及金屬 - SALMON!)感興趣,並且像許多其他人一樣,我想學習如何演奏,僅此而已。 事實證明,我沒有聽力,也沒有聲音——這根本沒有困擾我(我必須說這並沒有困擾舞台上的許多表演者),當我還在學校時,我得到了一把吉他.... ..很明顯,我真的不喜歡坐幾個小時玩它。 事情進展得很艱難,在我看來,總有一些廢話要出來——我根本沒有從中得到任何樂趣,只是感到糟糕、愚蠢和完全無能。 我真的強迫自己坐下來上課,總的來說,這對馬來說不是好食物。

同時,我可以很平靜地坐上幾個小時開發一些玩具,使用腳本在 Flash(或其他東西)上製作動畫,並且我非常有動力完成遊戲中的元素或處理運動機制和/或連接第三方庫、插件和其他一切。

在某些時候,我意識到彈吉他不是我的事,我真的喜歡聽,而不是演奏。 當我寫遊戲和程式碼時(當時聽各種金屬音樂),我的眼睛閃閃發光,這就是我當時喜歡的,這就是我應該做的。

你還有別的問題嗎?

當然,我們無法討論所有主題和問題,因此請寫評論並私訊我 - 我總是很樂意提出問題。

Notes 數據科學家:從哪裡開始,是否有必要?

Notes 數據科學家:從哪裡開始,是否有必要?

來源: www.habr.com

添加評論