從物理學家到資料科學(從科學引擎到辦公室浮游生物)。 第三部分

從物理學家到資料科學(從科學引擎到辦公室浮游生物)。 第三部分

這張照片是亞瑟庫津 (Arthur Kuzin) 拍攝的(n01z3),非常準確地總結了部落格文章的內容。 因此,以下敘述應該被視為更像是星期五的故事,而不是非常有用和技術性的東西。 此外,值得注意的是,文本中的英文單字也很豐富。 我不知道如何正確翻譯其中一些,而且我只是不想翻譯其中一些。

第一部分。
第二部分。

前兩集揭示了從學術環境到工業環境的轉變是如何發生的。 在這一期中,對話將討論接下來發生的事情。

那是 2017 年 XNUMX 月。 那時我有一年多一點的工作經驗,在舊金山的公司工作。 真雅閣 像先生一樣。 數據科學家。

TrueAccord 是一家追債新創公司。 簡單來說——收債機構。 收藏家通常會打電話很多。 我們發了很多電子郵件,但很少打電話。 每封電子郵件都會指向該公司的網站,在該網站上,債務人可以獲得債務折扣,甚至允許分期付款。 這種方法可以實現更好的收集、擴大規模並減少訴訟風險。

公司一切正常。 產品很清楚。 管理階層很理智。 位置很好。

平均而言,山谷裡的人在一個地方工作大約一年半。 也就是說,你工作的任何一家公司都只是一小步。 在這一步,您將籌集一些資金,獲得新的知識、技能、人脈和履歷中的內容。 此後將過渡到下一步。

在 TrueAccord 本身,我參與了將推薦系統附加到電子郵件通訊以及優先處理電話通話的工作。 影響是可以理解的,並且透過 A/B 測試可以很好地用美元來衡量。 由於我來之前沒有機器學習,所以我的工作影響還不錯。 再說一次,改進某些東西比已經經過大量優化的東西要容易得多。

在這些系統上工作六個月後,他們甚至將我的基本工資從 150 萬美元提高到 163 萬美元。 在社區 開放資料科學 (ODS) 有一個關於 $163k 的模因。 它的腿從這裡開始生長。

這一切都很美妙,但它沒有帶來任何結果,或者它帶來了結果,但沒有到達那裡。

我非常尊重 TrueAccord,無論是該公司還是與我一起工作的人。 我從他們身上學到了很多東西,但我不想在催收機構的推薦系統上工作很長時間。 從這一步開始,你必須朝某個方向邁進。 如果不是向前和向上,那麼至少是側面。

我不喜歡什麼?

  1. 從機器學習的角度來看,這些問題並沒有讓我感到興奮。 我想要一些時尚的、年輕的東西,即深度學習、電腦視覺,一些相當接近科學或至少接近煉金術的東西。
  2. 一家新創公司,甚至是一家催收機構,在招募高素質人員方面都存在問題。 作為一家新創公司,它支付不了多少錢。 但作為催收機構,它的地位卻有所下降。 粗略地說,如果約會的女孩問你在哪裡工作? 你的答案是:「在 Google 上」聽起來比「催收機構」好幾個數量級。 讓我有點困擾的是,對於我在谷歌和Facebook 工作的朋友來說,與我不同的是,他們公司的名稱打開了這樣的大門:你可以被邀請作為演講者參加會議或聚會,或者更多有趣的人在LinkedIn 上寫文章並提出見面並喝杯茶聊天。 我真的很喜歡與我不認識的人交流。 因此,如果您住在舊金山,請不要猶豫寫信 - 讓我們去喝杯咖啡聊天吧。
  3. 除了我之外,公司還有三位資料科學家。 我正在研究機器學習,他們正在研究其他資料科學任務,這些任務在從現在到明天的任何新創公司中都很常見。 結果,他們並沒有真正理解機器學習。 但為了成長,我最終需要與人交流,討論文章和最新動態,並尋求建議。

有什麼可用的?

  1. 教育:物理學,而不是計算機科學。
  2. 我唯一知道的程式語言是 Python。 有一種感覺,我需要轉向 C++,但我仍然抽不出時間。
  3. 從事該行業一年半。 而且,在工作中我沒有學習深度學習或電腦視覺。
  4. 履歷中沒有一篇關於深度學習/電腦視覺的文章。
  5. 有 Kaggle Master 成就。

你想要什麼?

  1. 這個職位需要訓練許多網絡,並且更接近電腦視覺。
  2. 如果是Google、特斯拉、Facebook、Uber、LinkedIn 等大公司那就更好了。 儘管在緊要關頭,新創公司也可以。
  3. 我不需要成為團隊中最大的機器學習專家。 非常需要資深同志、導師和各種溝通,這應該可以加快學習過程。
  4. 在閱讀了關於沒有行業經驗的畢業生如何獲得每年 300-500 萬美元的總薪酬的部落格文章後,我想進入相同的範圍。 並不是說這讓我很困擾,而是既然他們說這是一個普遍現象,但我的較少,那麼這是一個訊號。

這個任務似乎完全可以解決,儘管不是說你可以跳進任何公司,而是說如果你挨餓,一切都會好起來的。 也就是說,數十次或數百次的嘗試,以及每次失敗和每次拒絕帶來的痛苦,都應該用來提高注意力、提高記憶力,並將一天的時間延長到 36 小時。

我修改了履歷,開始發送,然後去面試。 在和HR溝通的階段我飛了大部分。 很多人需要C++,但我不知道,而且我有強烈的感覺,我對需要C++的職位不會很感興趣。

值得注意的是,大約在同一時間,Kaggle 上的比賽類型發生了階段性轉變。 2017 年之前有很多表格數據,很少有圖片數據,但從 2017 年開始,有很多電腦視覺任務。

生活依照以下模式流動:

  1. 白天工作。
  2. 當技術螢幕/現場時,您需要休息一段時間。
  3. 晚上和週末 Kaggle + 文章/書籍/部落格文章

2016年底我加入了社區 開放資料科學 (ODS),這簡化了很多事情。 社區中有很多具有豐富行業經驗的人,這使我們能夠提出很多愚蠢的問題並得到很多聰明的答案。 還有很多非常強大的各行各業的機器學習專家,出乎意料的是,這讓我透過ODS,透過定期深入的資料科學交流來解決這個問題。 到目前為止,在 ML 方面,ODS 帶給我的好處比我在工作中得到的多很多倍。

嗯,像往常一樣,ODS 在 Kaggle 和其他網站上的比賽中有足夠的專家。 在團隊中解決問題更加有趣和高效,因此透過笑話、髒話、表情符號和其他書呆子娛樂,我們開始一一解決問題。

2017 年 XNUMX 月 - 與 Serega Mushinsky 組隊 - 獲得第三名 Dstl衛星影像特徵偵測。 Kaggle 金牌 + 兩人 20 萬美元。 在此任務中,透過 UNet 處理衛星影像 + 二進位分割的工作得到了改進。 Habré 上有關此主題的部落格文章。

同年三月,我去 NVidia 參加了自動駕駛團隊的面試。 我真的很難回答有關對象檢測的問題。 沒有足夠的知識。

幸運的是,與此同時,來自同一 DSTL 的航空影像的物體偵測競賽開始了。 上帝親自下令解決問題並升級。 一個月的晚上和週末。 我學習了知識並獲得了第二名。 這次比賽的規則有一個有趣的細微差別,這導致我在俄羅斯的聯邦頻道和非聯邦頻道上播出。 我上了 首頁 Lenta.ru,以及大量印刷和線上出版物。 Mail Ru 集團透過我和自己的資金獲得了一點積極的公關,俄羅斯的基礎科學也得到了 12000 英鎊的豐富。 像往常一樣,這是關於這個主題的 hubr 的部落格文章。 去那裡了解詳情。

與此同時,特斯拉的一位招募人員聯繫了我,並提出談論電腦視覺職位。 我同意。 我快速瀏覽了帶回家的內容、兩個技術螢幕、現場面試,並與安德烈·卡帕蒂(Andrei Karpathy)進行了非常愉快的交談,他剛剛被特斯拉聘為人工智慧總監。 下一階段是背景調查。 之後,伊隆馬斯克必須親自批准我的申請。 特斯拉擁有嚴格的保密協議 (NDA)。
我沒有通過背景調查。 招募人員說我經常在網路上聊天,違反了保密協議。 我在特斯拉接受採訪時唯一提到過的地方是 ODS,所以目前的假設是有人截了屏並寫信給特斯拉的 HR,然後我就被從比賽中除名了,以免受到傷害。 那時真是可惜了。 現在我很高興它沒有成功。 我目前的職位要好得多,儘管與安德烈一起工作會很有趣。

緊接著,我就投身於 Kaggle 上的衛星圖像競賽 星球實驗室 - 從太空了解亞馬遜。 這個問題很簡單,而且極其無聊;沒有人願意解決它,但每個人都想要一枚免費的金牌或獎金。 因此,我們帶著7人的Kaggle Masters團隊一致同意,我們要丟鐵。 我們在「fit_predict」模式下訓練了 480 個網絡,並用它們製作了一個三層的整體。 我們獲得了第七名。 描述 Arthur Kuzin 解決方案的部落格文章。 順便說一下,眾所周知的創造者傑里米·霍華德 快速人工智慧 完成23.

比賽結束後,我透過一位在 AdRoll 工作的朋友在他們的場地組織了一次聚會。 Planet Labs 的代表在那裡談到了他們的競賽組織和數據標記的情況。 在 Kaggle 工作並監督比賽的溫迪·關 (Wendy Kwan) 談到了她的看法。 我描述了我們的解決方案、技巧、技術和技術細節。 三分之二的觀眾解決了這個問題,所以問題問得很中肯,總的來說一切都很酷。 傑里米·霍華德也在場。 事實證明,他獲得第 23 名是因為他不知道如何堆疊模型,而且他根本不知道這種建構整合的方法。

山谷中的機器學習聚會與莫斯科的聚會有很大不同。 一般來說,山谷裡的聚會是最底層的。 但我們的結果很好。 不幸的是,應該按下按鈕並記錄一切的同志沒有按下按鈕:)

之後,我受邀去同一個 Planet Labs 擔任深度學習工程師的職位,並立即在現場進行了交談。 我沒有通過。 拒絕的措詞是Deep Learning方面的知識還不夠。

我將每場比賽都設計為一個項目 LinkedIn。 對於 DSTL 問題我們寫了 預印 並將其發佈在 arxiv 上。 不是文章,但仍然是麵包。 我還建議其他人透過競賽、文章、技能等來豐富自己的 LinkedIn 個人資料。 您的 LinkedIn 個人資料中的關鍵字數量與人們向您發送訊息的頻率之間存在正相關關係。

如果說冬天和春天我技術性很強,那麼到了八月我既有知識又有自信。

XNUMX 月底,一位在 Lyft 擔任資料科學經理的人在 LinkedIn 上聯絡了我,邀請我喝杯咖啡,聊聊生活、聊 Lyft、聊 TrueAccord。 我們談過。 他主動提出與他的團隊面試資料科學家的職位。 我說這個選項是有效的,前提是從早到晚都是電腦視覺/深度學習。 他保證他不會反對。

我發送了簡歷,他將其上傳到 Lyft 的內部入口網站。 之後,招募人員打電話給我,打開我的履歷,了解更多關於我的資訊。 從第一句話開始,他就明白這只是一種形式,因為從他的履歷中可以明顯看出「我不是 Lyft 的人才」。 我想在那之後我的履歷就被丟進了垃圾桶。

一直以來,當我接受採訪時,我討論了我在ODS 中的失敗和失敗,這些人給了我反饋,並以各種可能的方式幫助我提供建議,儘管像往常一樣,那裡也有很多友好的惡搞。

一位 ODS 成員主動提出幫我聯絡他的朋友,他是 Lyft 的工程總監。 說到做到。 我來Lyft吃午飯,除了這位朋友之外,還有一位數據科學主管和一位產品經理,他是深度學習的忠實粉絲。 午餐時我們透過 DL 聊天。 由於我已經24/7 訓練網絡半年了,閱讀了立方米的文獻,並在Kaggle 上運行了任務,並獲得了或多或少清晰的結果,所以我可以談論深度學習幾個小時,無論是新文章還是新文章。實用技巧。

午餐後,他們看著我說——很明顯你很帥,你想和我們談談嗎? 此外,他們補充說,我很清楚可以跳過“帶回家+技術”螢幕。 我將立即被邀請到現場。 我同意。

後來那個招募人員打電話給我安排現場面試,他很不滿意。 他嘟囔著什麼不要跳過你的頭。

來了。 現場面試。 與不同的人進行五小時的交流。 沒有一個關於深度學習或原則上機器學習的問題。 既然沒有深度學習/電腦視覺,那麼我不感興趣。 因此,訪談結果是正交的。

這位招募人員打電話說——恭喜你,你通過了第二次現場面試。 這一切都令人驚訝。 第二個現場是什麼? 我從來沒有聽過這樣的事情。 我去了。 那裡有幾個小時,這次都是關於傳統機器學習的。 這樣更好。 但仍然不有趣。

招募人員打電話祝賀我通過了第三次現場面試,並發誓這將是最後一次。 我去看了,有 DL 和 CV。

幾個月前,我的一位前任告訴我不會有任何offer。 我不會訓練技術技能,而是軟技能。 不是軟方面,而是該職位將被關閉,或者公司還沒有招聘,而只是測試市場和候選人的水平。

八月中旬。 我喝了啤酒還好。 黑暗的想法。 8個月過去了,仍然沒有offer。 在啤酒下發揮創意是件好事,尤其是當創意很奇怪時。 我想到了一個主意。 我與 Alexey Shvets 分享了這一點,他當時是麻省理工學院的博士後。

如果您參加最近的 DL/CV 會議,請觀看其中舉行的比賽,訓練一些內容並提交,該怎麼辦? 由於那裡的所有專家都以此為職業生涯,並且已經這樣做了幾個月甚至幾年,所以我們沒有機會。 但這並不可怕。 我們做出一些有意義的提交,飛到最後一名,然後我們寫一篇預印本或一篇文章,講述我們如何與其他人不同,並談論我們的決定。 這篇文章已經出現在 LinkedIn 和您的履歷中。

也就是說,它似乎是相關的,並且在簡歷中有更多正確的關鍵字,這應該會稍微增加進入技術螢幕的機會。 我的程式碼和提交,Alexey 的文字。 當然是遊戲,但為什麼不呢?

說到做到。 我們在谷歌上搜尋到的最近的會議是 MICCAI,那裡實際上有比賽。 我們擊中了第一個。 它是 胃腸道影像分析 (GIANA)。 該任務有 3 個子任務。 距離截止日期還有8天。 早上我醒了,但我並沒有放棄這個想法。 我從 Kaggle 獲取管道,並將其從衛星資料轉換為醫療資料。 '適合預測'。 Alexey 為每個問題準備了兩頁的解決方案描述,我們將其發送了。 準備好。 理論上,你可以呼氣。 但結果發現同一個工坊還有另一個任務(機器人儀器分割)有三個子任務,並且她的截止日期提前了 4 天,也就是說,我們可以在那裡執行“fit_predict”並發送它。 這就是我們所做的。

與 Kaggle 不同,這些競賽有自己的學術特徵:

  1. 沒有排行榜。 提交內容透過電子郵件發送。
  2. 如果團隊代表沒有在研討會的會議上展示解決方案,您將被除名。
  3. 您在排行榜上的位置只有在會議期間才會被知道。 一種學術劇。

MICCAI 2017 會議在魁北克市舉行。 說實話,到了九月我就開始精疲力盡了,所以請假一周去加拿大的想法看起來很有趣。

來到了會議現場。 我來到這個工作坊,我不認識任何人,我坐在角落。 每個人都互相認識,他們交流,他們拋出巧妙的醫學詞彙。 第一屆比賽回顧。 參與者發言並談論他們的決定。 那裡很涼爽,閃閃發光。 輪到我了。 我甚至感到羞愧。 他們解決了問題,致力於解決這個問題,推進了科學發展,而我們純粹是根據過去的發展進行“擬合預測”,不是為了科學,而是為了提升我們的簡歷。

他出來說我也不是醫學專家,為浪費他們的時間道歉,並向我展示了一張包含解決方案的幻燈片。 我下樓到大廳。

他們宣布了第一個子任務——我們是第一,而且是遙遙領先。
第二個和第三個已經公佈了。
他們宣布了第三個——再次領先。
將軍是第一。

從物理學家到資料科學(從科學引擎到辦公室浮游生物)。 第三部分

官方新聞稿。

一些觀眾微笑著並用尊重的目光看著我。 其他人,顯然是該領域的專家,獲得了這項任務的資助,並且已經這樣做了很多年,臉上的表情都有些扭曲。

接下來是第二項任務,該任務包含三個子任務,已提前四天。

在這裡我也道歉了,並再次展示了我們的一張幻燈片。
同樣的故事。 兩個第一,一個第二,共同第一。

我認為這可能是史上第一次由催收社贏得醫學影像競賽。

現在我站在舞台上,他們遞給我某種文憑,我受到了轟炸。 他媽的怎麼可能? 這些學者正在花納稅人的錢,致力於簡化和提高醫生的工作質量,也就是說,理論上,我的預期壽命,而有人在幾個晚上將整個學術人員撕成英國國旗。

這樣做的好處是,在其他團隊中,已經從事這些任務數月的研究生將擁有一份對 HR 有吸引力的簡歷,也就是說,他們將很容易進入技術螢幕。 我眼前出現了一封新收到的電子郵件:

A Googler recently referred you for the Research Scientist, Google Brain (United States) role. We carefully reviewed your background and experience and decided not to proceed with your application at this time.

一般來說,我會在台上問觀眾:“有人知道我在哪裡工作嗎?” 比賽的組織者之一知道這一點,他在谷歌上搜尋了 TrueAccord 是什麼。 其餘的則不然。 我繼續說:「我在一家收債機構工作,在工作中我既不從事電腦視覺工作,也不從事深度學習工作。 從很多方面來說,發生這種情況是因為 Google Brain 和 Deepmind 的人力資源部門過濾了我的履歷,沒有給我展示技術培訓的機會。 」

他們交出了證書,休息了。 一群學者把我拉到一邊。 原來,這是一個與 Deepmind 合作的 Health 小組。 他們印象深刻,立即想和我談談他們團隊中研究工程師的職缺。 (我們確實談過。這次談話持續了6個月,我通過了take home、quiz,但在tech screen上被打斷了。從開始溝通到tech screen的6個月是很長的一段時間。漫長的等待給人一種味道倫敦Deepmind的研究工程師,在TrueAccord的背景下,有一個很大的進步,但在我現在的職位背景下,又下降了一步。從那時到現在已經過去了兩年的距離,這很好但事實並非如此。)

結論

大約在同一時間,我收到了 Lyft 的錄用通知,我接受了。
根據與 MICCAI 的這兩場比賽的結果,發布了以下內容:

  1. 使用深度學習的機器人輔助手術中的自動器械分割
  2. 使用深度卷積神經網路進行血管發育不良檢測和定位
  3. 2017年機器人儀器細分挑戰賽

也就是說,儘管這個想法很瘋狂,但透過競賽添加增量文章和預印本效果很好。 在接下來的幾年裡,我們讓情況變得更糟。

從物理學家到資料科學(從科學引擎到辦公室浮游生物)。 第三部分

過去幾年我一直在 Lyft 從事自動駕駛汽車的電腦視覺/深度學習工作。 也就是說,我得到了我想要的。 還有任務、地位高的公司、強大的同事,以及所有其他好東西。

在這幾個月裡,我與Google、Facebook、Uber、LinkedIn等大公司以及大量不同規模的新創公司進行了交流。

這幾個月都很痛。 宇宙每天都會告訴你一些不太愉快的事。 經常被拒絕,經常犯錯誤,這一切都帶有一種持續的絕望感。 無法保證你會成功,但有一種感覺你是個傻瓜。 這讓我想起了我大學畢業後如何尋找工作。

我認為很多人都在山谷裡找工作,一切對他們來說都容易得多。 在我看來,訣竅就是這樣。 如果你正在尋找一個你了解、有豐富經驗的領域的工作,而你的履歷也表明了這一點,那麼就沒有問題。 我拿起它並找到了它。 有很多職位空缺。

但如果你正在尋找一個對你來說陌生的領域的工作,也就是說,沒有知識,沒有人脈,而且你的簡歷上寫了一些錯誤的東西——此時一切都變得非常有趣。

現在,招聘人員經常寫信給我,並提出做我現在正在做的同樣的事情,但在不同的公司。 確實到了該換工作的時候了。 但做我已經擅長的事情是沒有意義的。 為了什麼?

但對於我想要的,我又沒有知識,也沒有履歷上的台詞。 讓我們看看這一切如何結束。 如果一切順利的話,我會寫下一部分。 🙂

來源: www.habr.com

添加評論