Jegyzetek Date Scientist: hol kezdjem, és szükséges-e?

Jegyzetek Date Scientist: hol kezdjem, és szükséges-e?

A TL;DR egy olyan bejegyzés, amely kérdéseket/válaszokat tartalmaz az adattudományról és arról, hogyan lehet belépni a szakmába és fejlődni benne. A cikkben elemzem az alapelveket és a GYIK-et, és készen állok megválaszolni konkrét kérdéseit – írjátok meg kommentben (vagy privát üzenetben), igyekszem néhány napon belül mindenre válaszolni.

A „Sátánista randevú” jegyzetsorozat megjelenésével számos üzenet és megjegyzés érkezett a kezdéshez és a ásáshoz kapcsolódó kérdésekkel, ma pedig a publikációk után felmerülő főbb készségeket és kérdéseket elemezzük.

Az itt leírtak nem jelentik a végső igazságot, és a szerző szubjektív véleménye. Megnézzük azokat a főbb dolgokat, amelyek a legfontosabbnak tűnnek a folyamatban.

Miért van erre pontosan szükség?

Annak érdekében, hogy a cél jobban elérhető legyen, hogy az legalább egy kicsit konkrétnak tűnjön – DS-nek vagy kutató tudósnak szeretne lenni a Facebook/Apple/Amazon/Netflix/Google-nál – nézze meg a követelményeket, a nyelveket és a szükséges ismereteket konkrétan melyik pozícióra. Mi a felvételi folyamat? Hogyan telik egy tipikus nap egy ilyen szerepben? Hogyan néz ki egy ott dolgozó átlagos profilja?

Gyakran az az összkép, hogy az ember nem igazán érti, mit is akar pontosan, és nem teljesen világos, hogyan készüljön fel erre a homályos képre – ezért érdemes legalább egy hozzávetőleges tervet készíteni arról, hogy mit is akar pontosan.

Az aktuális cél nézet konkretizálása

Még ha menet közben változik is, és általában normális, ha a játék során változtatnak a terveken, érdemes egy célt kitűzni és arra koncentrálni, időszakonként értékelni és újragondolni.

Lesz-e, vagy még mindig aktuális?

Mire benősz egy pozícióba.

Képzeld el, hogy a pozíció betöltése előtt doktori fokozatot kell szerezned, 2-3 évet kell dolgoznod az iparban, és általában le kell vágnod a hajad, miközben kolostorban meditálsz – vajon nem lesz-e olyan a helyzet az Data Science-szel, mint egykor a közgazdászokkal és ügyvédek? Minden a felismerhetetlenségig megváltozik azon a területen, amelyet folytatni szeretne?

Ugye jó esély van arra, hogy most mindenki odarohan, és olyan képet látunk majd, ahol széles réteg igyekszik bekerülni a szakmába – és egyszerűen csak csekély a kiindulási helyzet.

Érdemes lehet az útválasztáskor figyelembe venni az aktuális trendeket, nem csak a munkaerőpiac jelenlegi állapotát, hanem azt is, hogy hogyan változik és hol tart az elképzelésed.

A szerző például nem tervezte, hogy sátánistává váljon, de PhD-ja alatt olyan harmadik féltől származó projekteken dolgozott, amelyek erős közös képességekkel bírtak a DS-ben, és a posztgraduális iskola végén természetesen átváltott a környezetre, látva egy jót. pozíció.

Ha a játék során kiderül, hogy máshova kell költöznünk - mert ott van a legtöbb mozgás és a legérdekesebb cselekmény történik, akkor természetesen oda fogunk költözni.

Készségek lebontása

Ezek a készségek feltételes kategóriái, amelyek számomra kulcsfontosságúak a teljes és hatékony DS-ben végzett munka szempontjából. Külön kiemelem az angol nyelvet – tanuljon meg bármit is a CS-ben. Ezután következnek a kulcskategóriák.

Programozás/Szkriptelés

Milyen nyelvekkel fog biztosan megismerkedni? Piton? Jáva? Shell scriptelés? Lua? SQL? C++?

Pontosan mit és miért kell tudnia programozási szempontból - a pozíciók skálája itt nagyon változó.

Például gyakran kell bonyolult logikát, lekérdezéseket, modelleket, elemzéseket implementálnom, és általában értelmezett rendszereket kell fejlesztenem, de a kód sebességére szinte soha nincs követelmény, kivéve a legáltalánosabb és ésszerűbbeket.

Ezért az én képességem nagyon különbözik azoktól, akik a Tensorflow könyvtárat írják, és azon gondolkodnak, hogy optimalizálják a kódot az l1 gyorsítótár és hasonló dolgok hatékony használatához, ezért nézze meg, hogy pontosan mire van szüksége, és értékelje a tanuláshoz vezető helyes utat.

Például a python esetében az emberek már sminkelik térkép nyelvtanulás.

Biztosan vannak már tapasztalt tanácsok és jó források az Ön igényeihez - el kell döntenie egy listáról, és el kell kezdenie dolgozni.

Az üzleti folyamatok megértése

Enélkül nem mehetsz sehova: meg kell értened, miért van szükség rád ebben a folyamatban, mit csinálsz és miért. Gyakran ez az, ami sok időt takaríthat meg, maximalizálhatja a hasznot, és nem vesztegeti az időt és az erőforrásokat baromságokra.

Általában a következő kérdéseket teszem fel magamnak:

  • Pontosan mit csinálok a cégnél?
  • Miért?
  • Ki fogja használni és hogyan?
  • Milyen lehetőségeim vannak?
  • Melyek a paraméterek határai?

Itt egy kicsit részletesebben a paraméterekről: sokszor nagyban változtathatod a munka forgatókönyvét, ha tudod, hogy valamit fel lehet áldozni: például az értelmezhetőségre vagy fordítva, pár százalék itt nem játszik szerepet, és nagyon gyors megoldást, és az ügyfélnek szüksége van rá, mert ő fizet a csővezeték AWS-ben való futásának idejéért.

matematika

Itt mindent magad gondolsz és értesz - alapvető matematikai ismeretek nélkül nem vagytok mások, mint gránátos majmok (elnézést Random Forest) - szóval legalább az alapvető dolgokat meg kell értened. Ha egy nagyon minimális listát állítanék össze, az a következőket tartalmazná:

  • Lineáris algebra – rengeteg erőforrás könnyen kezelhető a Google-on, keresse meg az Önnek legmegfelelőbbet;
  • Matematikai elemzés - (legalább az első két félévben);
  • A valószínűségszámítás mindenhol jelen van a gépi tanulásban;
  • Kombinatorika – valójában kiegészíti az elméletet;
  • Gráfelmélet - legalább BASIC;
  • Algoritmusok - legalább az első két félévben (lásd Cormen ajánlásait könyvében);
  • Mathlogic – legalábbis alapvető.

Gyakorlati adatelemzés és vizualizáció

Az egyik legfontosabb dolog, hogy ne féljünk beszennyezni a kezünket az adatokkal, és végezzünk átfogó elemzést az adathalmazról, projektről, és készítsünk egy gyors adatvizualizációt.

A feltáró adatelemzésnek egyszerűen természetessé kell válnia, mint minden más adattranszformációnak, valamint annak a lehetőségnek, hogy unix csomópontokból egyszerű folyamatot hozzon létre (lásd a korábbi cikkeket), vagy írjon olvasható és érthető notebookot.

A vizualizációt szeretném megemlíteni: jobb egyszer látni, mint százszor hallani.

Egy grafikon megjelenítése a menedzsernek százszor egyszerűbb és áttekinthetőbb, mint egy számkészlet, így a matplotlib, a seaborn és a ggplot2 a barátaid.

Lágy képességek

Ugyanilyen fontos, hogy ötleteit, eredményeit és aggályait (stb.) kommunikálhassa másokkal – ügyeljen arra, hogy a feladatot egyértelműen meg tudja fogalmazni technikai és üzleti szempontból egyaránt.

Elmagyarázhatja kollégáinak, vezetőinek, feletteseinek, ügyfeleinek és bárki másnak, akinek szüksége van rá, hogy mi történik, milyen adatokat használ, és milyen eredményeket ért el.

A diagramokat és a dokumentációt nélküled kell elolvasni. Vagyis nem kell hozzád menned, hogy megértsd, mi van odaírva.

Készíthet világos prezentációt, hogy megértse a lényeget, és/vagy dokumentálja a projektet/munkáját.

Álláspontját érvekkel és érzelmektől mentesen közvetítheti, igent/nem-et mondhat, vagy megkérdőjelezheti/támogathatja a döntést.

edzés

Sok különböző hely van, ahol mindezt megtanulhatod. Adok egy rövid listát - mindent kipróbáltam belőle, és őszintén szólva minden elemnek megvannak az előnyei és hátrányai. Próbáld ki, és döntsd el, hogy mi illik hozzád, de nagyon ajánlom, hogy próbálj ki több lehetőséget, és ne ragadj le egynél.

  • Online tanfolyamok: coursera, udacity, Edx, stb;
  • Új iskolák: online és offline – SkillFactory, ShaD, MADE;
  • Klasszikus iskolák: egyetemi mesterképzések és továbbképzések;
  • Projektek – egyszerűen kiválaszthatja az Önt érdeklő feladatokat, és kivághatja azokat, feltöltve a githubba;
  • Gyakornoki hely - nehéz itt bármit is javasolni, meg kell keresni, mi áll rendelkezésre, és meg kell találni a megfelelő lehetőségeket.

Szükséges?

Befejezésül valószínűleg hozzá fogok tenni három személyes elvet, amelyeket magam is igyekszem követni.

  • Érdekesnek kell lennie;
  • Szerezzen belső örömöt (= legalább ne okozzon szenvedést);
  • – A tiéd lenni.

Miért pont őket? Nehéz elképzelni, hogy minden nap csinálj valamit, és ne élvezd, vagy ne érdekeljen. Képzelje el, hogy Ön orvos, és utál az emberekkel kommunikálni – ez persze valahogy működhet, de állandóan kényelmetlenül érzi magát a betegek áramlása miatt, akik kérdezni akarnak Öntől. Ez hosszú távon nem működik.

Miért említettem konkrétan a belső örömöt? Számomra úgy tűnik, hogy ez szükséges a további fejlődéshez és elvileg a tanulási folyamathoz. Nagyon élvezem, ha sikerül megvalósítanom valamilyen összetett funkciót, és modellt építeni vagy egy fontos paramétert kiszámítani. Élvezem, ha a kódom esztétikusan szép és jól megírt. Ezért valami újat tanulni érdekes és nem igényel közvetlenül jelentős motivációt.

A „tiédnek lenni” ugyanaz az érzés, hogy nagyjából ezt akartad csinálni. Van egy kis történetem. Gyerekkorom óta érdekel a rockzene (és a metal - SALMON!), és sok máshoz hasonlóan meg akartam tanulni játszani, és ez minden. Kiderült, hogy nincs hallásom és hangom – ez egyáltalán nem zavart (és meg kell mondanom, hogy ez nem sok fellépőt zavar közvetlenül a színpadon), és amikor még iskolás voltam, kaptam egy gitárt... és világossá vált, hogy nem igazán szeretek órákat ülni és játszani rajta. Nehezen ment, mindig úgy tűnt számomra, hogy valami baromság jön ki – egyáltalán nem volt benne semmi öröm, és csak tetvesnek, hülyének és teljesen képtelennek éreztem magam. Szó szerint kényszerítettem magam, hogy leüljek az órákra, és általában nem volt jó étel a lónak.

Ugyanakkor nyugodtan ülhettem órákon át valamilyen játékot, forgatókönyvet használva, hogy flash-en animáljak valamit (vagy valami mást), és vadul motiváltam, hogy befejezzem a játék elemeit vagy foglalkozzak a mozgás és/vagy a mozgás mechanikájával. harmadik féltől származó könyvtárak, bővítmények és minden más összekapcsolása.

És egy ponton rájöttem, hogy a gitározás nem az én dolgom, és nagyon szeretek hallgatni, nem játszani. És csillogott a szemem, amikor játékokat és kódokat írtam (abban a pillanatban mindenféle metalt hallgattam), és ez az, amit akkor szerettem, és ezt kellett volna csinálnom.

Van még kérdése?

Természetesen nem tudtunk végigmenni minden témán és kérdésen, úgyhogy írjatok kommenteket és írjatok PM-et – mindig szívesen válaszolok a kérdésekre.

Jegyzetek Date Scientist: hol kezdjem, és szükséges-e?

Jegyzetek Date Scientist: hol kezdjem, és szükséges-e?

Forrás: will.com

Hozzászólás