Bilješke Datum Scientist: odakle početi i da li je potrebno?

Bilješke Datum Scientist: odakle početi i da li je potrebno?

TL;DR je objava za pitanja/odgovore o Data Science i kako ući u profesiju i razvijati se u njoj. U članku ću analizirati osnovne principe i FAQ i spreman sam odgovoriti na vaša konkretna pitanja - pišite u komentarima (ili u privatnoj poruci), pokušat ću odgovoriti na sve u roku od nekoliko dana.

Pojavom serije bilješki “Satanistički sastanak” stiglo je mnogo poruka i komentara s pitanjima kako započeti i gdje kopati, a danas ćemo analizirati glavne vještine i pitanja koja su se pojavila nakon objavljivanja.

Sve što je ovdje navedeno ne tvrdi da je konačna istina i subjektivno je mišljenje autora. Pogledat ćemo glavne stvari koje se čine najvažnijim u procesu.

Zašto je to tačno potrebno?

Da bi cilj bio što bolje ostvariv, kako bi izgledao barem donekle specifično - želite postati DS ili istraživač na Facebooku/Apple/Amazonu/Netflixu/Google-u - pogledajte zahtjeve, jezike i potrebne vještine konkretno za koju poziciju. Kakav je proces zapošljavanja? Kako prolazi tipičan dan u takvoj ulozi? Kako izgleda prosječan profil osobe koja tamo radi?

Često je ukupna slika da osoba zapravo ne razumije šta tačno želi i nije sasvim jasno kako se pripremiti za ovu nejasnu sliku - pa je vrijedno imati barem grubi plan šta točno želite.

Konkretizirajte trenutni prikaz cilja

Čak i ako se to promijeni usput, a općenito je normalno mijenjati planove tokom predstave, vrijedi imati cilj i fokusirati se na njega, povremeno procjenjivati ​​i preispitati.

Hoće li biti ili je još uvijek relevantno?

Dok preraste u poziciju.

Zamislite da prije svoje pozicije trebate doktorirati, raditi 2-3 godine u industriji i općenito ošišati kosu dok meditirate u manastiru - neće li situacija sa naukom o podacima biti ista kao što je nekada bila sa ekonomistima i advokati? Hoće li se sve promijeniti do neprepoznatljivosti u oblasti kojom se želite baviti?

Zar nije velika šansa da će sada svi pohrliti tamo pa ćemo vidjeti sliku gdje je širok sloj ljudi koji pokušavaju da uđu u profesiju - a biće jednostavno slaba startna pozicija.

Možda je vrijedno uzeti u obzir trenutne trendove pri odabiru puta, ne samo trenutno stanje na tržištu rada, već i svoju ideju o tome kako se ono mijenja i gdje se nalazi.

Na primjer, autor nije planirao da postane satanista, ali je tokom doktorata radio na projektima trećih strana koji su imali jake zajedničke vještine sa DS-om, a na kraju postdiplomskog studija se prirodno prebacio na okruženje, videći dobro pozicija.

Ako se u toku predstave pokaže da će se morati preseliti negdje drugdje – jer tamo je sada najviše kretanja i dešavaju se sve najzanimljivije radnje, onda ćemo se prirodno preseliti tamo.

Skill Breakdown

Ovo su uslovne kategorije veština koje su mi se čini ključne za pun i efikasan rad u DS. Posebno ću istaknuti engleski - naučite šta god radite u CS-u. Sljedeće su ključne kategorije.

Programiranje/skriptiranje

Koje jezike ćete sigurno upoznati? Python? Java? Shell skriptiranje? Lua? Sql? C++?

Šta tačno treba da budete u stanju da uradite i zašto u smislu programiranja - raspon pozicija ovde veoma varira.

Na primjer, često moram implementirati složenu logiku, upite, modele, analitiku i općenito razvijati interpretirane sisteme, ali gotovo nikad nema zahtjeva za brzinu koda, osim onih najopštijih i najrazumnijih.

Stoga se moj skup vještina jako razlikuje od onih koji pišu Tensorflow biblioteku i razmišljaju o optimizaciji koda za efikasno korištenje l1 keša i sličnih stvari, pa pogledajte šta vam je tačno potrebno i procijenite pravi put do učenja.

Na primjer, za python, ljudi se već izmišljaju karta učenje jezika.

Zasigurno već postoje iskusni savjeti i dobri izvori za vaše potrebe - trebate se odlučiti za listu i početi raditi na njoj.

Razumijevanje poslovnih procesa

Bez toga ne možete nikuda: morate razumjeti zašto ste potrebni u ovom procesu, šta radite i zašto. Često je to ono što vam može uštedjeti puno vremena, maksimizirati vašu korist i ne gubiti vrijeme i resurse na sranje.

Obično sebi postavljam sljedeća pitanja:

  • Šta tačno radim u kompaniji?
  • Zašto?
  • Ko će ga koristiti i kako?
  • Koje opcije imam?
  • Koje su granice parametara?

Evo malo detaljnije o parametrima: često možete uvelike promijeniti scenarij rada ako znate da se nešto može žrtvovati: na primjer interpretabilnost ili obrnuto, par posto ovdje neće igrati ulogu i imamo vrlo brzu rješenje, a klijentu je potrebno, jer on plaća vrijeme dok cevovod radi u AWS-u.

Math

Ovdje sve sami mislite i shvaćate - bez znanja osnovne matematike niste ništa drugo do majmuni sa granatom (izvinite Random Forest) - pa morate razumjeti barem osnovne stvari. Ako bih sastavio vrlo minimalnu listu, ona bi uključivala:

  • Linearna algebra - veliki broj resursa je lako proguglati, potražite ono što vam najviše odgovara;
  • Matematička analiza - (najmanje u prva dva semestra);
  • Teorija vjerovatnoće je svuda u mašinskom učenju;
  • Kombinatorika - zapravo je komplementarna teoriji;
  • Teorija grafova - najmanje BASIC;
  • Algoritmi – barem za prva dva semestra (vidi Cormenove preporuke u njegovoj knjizi);
  • Matematika - barem osnovna.

Praktična analiza i vizualizacija podataka

Jedna od najvažnijih stvari je da se ne plašite da uprljate ruke podacima i izvršite sveobuhvatnu analizu skupa podataka, projekta i kreirate brzu vizualizaciju podataka.

Istraživačka analiza podataka bi jednostavno trebala postati nešto prirodno, kao i sve druge transformacije podataka i mogućnost kreiranja jednostavnog cjevovoda od unix čvorova (pogledajte prethodne članke) ili pisanja čitljive i razumljive bilježnice.

Spomenuo bih vizualizaciju: bolje je jednom vidjeti nego sto puta čuti.

Pokazivanje grafikona menadžeru je sto puta lakše i jasnije od skupa brojeva, tako da su matplotlib, seaborn i ggplot2 vaši prijatelji.

Soft skills

Jednako je važno biti u mogućnosti da svoje ideje, kao i rezultate i brige (itd.) prenesete drugima – pobrinite se da jasno navedete zadatak iu tehničkom iu poslovnom smislu.

Možete objasniti kolegama, menadžerima, nadređenima, klijentima i svima drugima kojima je to potrebno šta se dešava, koje podatke koristite i kakve ste rezultate dobili.

Vaše grafikone i dokumentaciju treba čitati bez vas. Odnosno, ne morate da idete do vas da biste razumeli šta tamo piše.

Možete napraviti jasnu prezentaciju kako biste prenijeli poentu i/ili dokumentirali projekat/vaš rad.

Svoj stav možete prenijeti na argumentovan i neemotivan način, reći „da/ne” ili postaviti pitanje/podržati odluku.

Trening sesije

Postoji mnogo različitih mjesta gdje sve ovo možete naučiti. Daću kratak spisak – probao sam sve od njega i, da budem iskren, svaka stavka ima svoje prednosti i mane. Isprobajte i odlučite šta vam odgovara, ali toplo preporučujem da isprobate nekoliko opcija i da se ne zaglavite na jednoj.

  • Online kursevi: coursera, udacity, Edx, itd;
  • Nove škole: online i offline - SkillFactory, ShAD, MADE;
  • Klasične škole: univerzitetski master programi i kursevi usavršavanja;
  • Projekti - možete jednostavno odabrati zadatke koji vas zanimaju i izrezati ih, otpremajući ih na github;
  • Stažiranje - ovdje je teško bilo šta predložiti; morate potražiti ono što je dostupno i pronaći odgovarajuće opcije.

Da li je potrebno?

U zaključku, vjerovatno ću dodati tri lična principa koje pokušavam i sam slijediti.

  • Trebalo bi biti zanimljivo;
  • Donesite unutrašnje zadovoljstvo (= barem ne izazivajte patnju);
  • "Da budem tvoj."

Zašto oni? Teško je zamisliti da radite nešto svaki dan, a da ne uživate u tome ili niste zainteresovani. Zamislite da ste doktor i mrzite komunikaciju sa ljudima - ovo, naravno, može nekako da funkcioniše, ali će vam biti stalno neprijatno zbog protoka pacijenata koji žele da vas nešto pitaju. Ovo ne funkcionira na duge staze.

Zašto sam posebno pomenuo unutrašnje zadovoljstvo? Čini mi se da je to neophodno za dalji razvoj i, u principu, proces učenja. Zaista uživam kada uspijem da dovršim neku složenu funkciju i napravim model ili izračunam važan parametar. Uživam kada je moj kod estetski lijep i dobro napisan. Stoga je učenje nečeg novog zanimljivo i ne zahtijeva direktnu značajnu motivaciju.

"Biti tvoj" je isti osjećaj da je to otprilike ono što ste željeli učiniti. Imam malu priču. Od detinjstva me zanima rok muzika (i metal - LOSOS!) i, kao i mnogi drugi, želeo sam da naučim da sviram i to je sve. Ispostavilo se da nemam sluha i glasa - to mi uopšte nije smetalo (a moram reći da to ne smeta mnogim izvođačima na sceni), a još u školi sam dobio gitaru... i postalo je jasno da baš i ne volim sjediti satima i igrati se na tome. Teško je išlo, uvek mi se činilo da izlazi neka glupost - nisam uopšte uživao u tome i osećao sam se jadno, glupo i potpuno nesposobno. Bukvalno sam se prisiljavao da sjednem na časove i generalno to nije bila dobra hrana za konja.

U isto vrijeme, mogao sam sasvim mirno sjediti satima razvijajući neku igračku, koristeći skriptu za animiranje nečega na flash (ili nešto treće) i bio sam divlje motiviran da završim elemente u igrici ili se bavim mehanikom kretanja i/ili povezivanje biblioteka trećih strana, dodataka i svega ostalog.

I u jednom trenutku sam shvatio da sviranje gitare nije moja stvar i da stvarno volim da slušam, a ne da sviram. I oči su mi zaiskrile kada sam pisao igrice i kod (u tom trenutku slušao sve vrste metala) i to je ono što mi se tada svidjelo, i to je ono što sam trebao raditi.

Imate li još pitanja?

Naravno, nismo uspeli da prođemo kroz sve teme i pitanja, pa pišite komentare i pišite mi - uvek se radujem pitanjima.

Bilješke Datum Scientist: odakle početi i da li je potrebno?

Bilješke Datum Scientist: odakle početi i da li je potrebno?

izvor: www.habr.com

Dodajte komentar