Athugasemdir Dagsetningarfræðingur: hvar á að byrja og er það nauðsynlegt?

Athugasemdir Dagsetningarfræðingur: hvar á að byrja og er það nauðsynlegt?

TL;DR er færsla fyrir spurningar/svör um Data Science og hvernig eigi að komast inn í fagið og þróast í því. Í greininni mun ég greina grunnreglurnar og algengar spurningar og er tilbúinn að svara sérstökum spurningum þínum - skrifaðu í athugasemdum (eða í einkaskilaboðum), ég mun reyna að svara öllu innan nokkurra daga.

Með tilkomu „Satanist Date“ seríunnar komu mörg skilaboð og athugasemdir með spurningum um hvernig ætti að byrja og hvar á að grafa, og í dag munum við greina helstu færni og spurningar sem vöknuðu eftir útgáfurnar.

Allt sem hér kemur fram segist ekki vera hinn endanlegi sannleikur og er huglæg skoðun höfundar. Farið verður yfir það helsta sem virðist mikilvægast í ferlinu.

Hvers vegna er þetta nákvæmlega þörf?

Til þess að markmiðið verði betur náð, þannig að það líti að minnsta kosti nokkuð sérstakt út - þú vilt verða DS eða rannsóknarfræðingur hjá Facebook/Apple/Amazon/Netflix/Google - skoðaðu kröfur, tungumál og nauðsynlega færni sérstaklega fyrir hvaða stöðu. Hvað er ráðningarferlið? Hvernig líður venjulegur dagur í svona hlutverki? Hvernig lítur meðaltalið út hjá einstaklingi sem vinnur þar?

Oft er heildarmyndin sú að einstaklingur skilur í raun ekki hvað hann vill nákvæmlega og það er ekki alveg ljóst hvernig á að undirbúa sig fyrir þessa óskýru mynd - svo það er þess virði að hafa að minnsta kosti grófa áætlun um hvað nákvæmlega þú vilt.

Gerðu núverandi markmiðssýn

Jafnvel þótt það breytist í leiðinni, og það sé almennt eðlilegt að breyta áætlunum meðan á leik stendur, þá er það þess virði að hafa markmið og einbeita sér að því, meta og endurskoða reglulega.

Verður það eða á það enn við?

Þegar þú stækkar í stöðu.

Ímyndaðu þér að fyrir stöðu þína þarftu að fá doktorsgráðu, vinna í 2-3 ár í greininni og almennt klippa hárið á þér meðan þú hugleiðir í klaustri - mun staðan með Data Science ekki vera sú sama og áður var hjá hagfræðingum og lögfræðinga? Mun allt breytast óþekkjanlega á því svæði sem þú vilt sækjast eftir?

Eru ekki góðar líkur á því að allir drífi sig þangað núna og við munum sjá mynd þar sem það er breitt lag af fólki sem er að reyna að komast inn í fagið - og það verður einfaldlega léleg byrjunarstaða.

Það getur verið þess virði að íhuga núverandi þróun þegar þú velur leið, ekki aðeins núverandi stöðu vinnumarkaðarins, heldur einnig hugmynd þína um hvernig hann er að breytast og hvar hann er.

Til dæmis ætlaði höfundur ekki að verða satanisti, en á meðan á doktorsnámi stóð vann hann að þriðja aðila verkefnum sem áttu sterka kunnáttu sameiginlega með DS og í lok framhaldsnáms skipti hann náttúrulega yfir í umhverfið og sá góða stöðu.

Ef það kemur í ljós á meðan á leik stendur að það þurfi að flytja eitthvað annað - vegna þess að það er nú mest hreyfing og allt það áhugaverðasta að gerast, þá flytjum við þangað eðlilega.

Sundurliðun kunnáttu

Þetta eru skilyrtir hæfileikaflokkar sem mér virðast vera lykilatriði fyrir fulla og árangursríka vinnu í DS. Ég mun leggja áherslu á ensku sérstaklega - lærðu hvað sem þú gerir í CS. Næst eru lykilflokkarnir.

Forritun/skriftargerð

Hvaða tungumál ertu viss um að þú kynnist? Python? Java? Skelja forskriftir? Lua? SQL? C++?

Hvað nákvæmlega þú þarft að geta og hvers vegna hvað varðar forritun - staða staða hér er mjög mismunandi.

Ég þarf til dæmis oft að innleiða flókna rökfræði, fyrirspurnir, líkön, greiningar og almennt þróa túlkuð kerfi, en það eru nánast aldrei kröfur um hraða kóðans, nema þær almennustu og sanngjarnustu.

Þess vegna er færnisettið mitt mjög ólíkt þeim sem skrifa Tensorflow bókasafnið og hugsa um að fínstilla kóðann fyrir skilvirka notkun á l1 skyndiminni og álíka hluti, svo skoðaðu hvað nákvæmlega þú þarft og metið rétta leið til náms.

Til dæmis, fyrir python, gerir fólk nú þegar upp kort tungumálanám.

Vissulega eru nú þegar reyndar ráðleggingar og góðar heimildir fyrir þínum þörfum - þú þarft að ákveða lista og byrja að vinna í honum.

Skilningur á viðskiptaferlum

Þú getur ekki farið neitt án þess: þú þarft að skilja hvers vegna þín er þörf í þessu ferli, hvað þú ert að gera og hvers vegna. Oft er þetta það sem getur sparað þér mikinn tíma, hámarkað ávinninginn og ekki sóað tíma og fjármagni í kjaftæði.

Venjulega spyr ég sjálfan mig eftirfarandi spurninga:

  • Hvað geri ég nákvæmlega í fyrirtækinu?
  • Hvers vegna?
  • Hver mun nota það og hvernig?
  • Hvaða valkosti hef ég?
  • Hver eru mörk færibreytanna?

Hérna eru aðeins nánari upplýsingar um færibreyturnar: þú getur oft breytt vinnuatburðarásinni til muna ef þú veist að einhverju er hægt að fórna: til dæmis túlkunarhæfni eða öfugt, nokkur prósent munu ekki gegna hlutverki hér og við höfum mjög hratt lausn, og viðskiptavinurinn þarf á henni að halda, því hann borgar fyrir þann tíma sem leiðslan er í gangi í AWS.

Stærðfræði

Hér hugsarðu og skilur allt sjálfur - án þekkingar á grunnstærðfræði ertu ekkert annað en apar með handsprengju (afsakið Random Forest) - svo þú þarft að skilja að minnsta kosti grunnatriðin. Ef ég ætti að setja saman mjög lágmarks lista myndi hann innihalda:

  • Línuleg algebru - gríðarlega mikið af auðlindum er auðvelt að Google, leitaðu að því sem hentar þér best;
  • Stærðfræðileg greining - (að minnsta kosti á fyrstu tveimur önnunum);
  • Líkindafræði er alls staðar í vélanámi;
  • Combinatorics - það er í raun viðbót við kenninguna;
  • Línuritafræði - að minnsta kosti BASIC;
  • Reiknirit - að minnsta kosti fyrir fyrstu tvær annirnar (sjá ráðleggingar Cormen í bók sinni);
  • Stærðfræði - að minnsta kosti grunn.

Hagnýt gagnagreining og sjónræn

Eitt af því mikilvægasta er að geta ekki verið hræddur við að skíta hendurnar með gögnum og framkvæma yfirgripsmikla greiningu á gagnapakkanum, verkefninu og búa til skjóta gagnasýn.

Rannsóknargagnagreining ætti einfaldlega að verða eitthvað eðlilegt, eins og allar aðrar gagnabreytingar og hæfileikinn til að búa til einfalda leiðslu úr unix hnútum (sjá fyrri greinar) eða skrifa læsilega og skiljanlega minnisbók.

Mig langar að minnast á sjónræna mynd: það er betra að sjá einu sinni en að heyra hundrað sinnum.

Það er hundrað sinnum auðveldara og skýrara að sýna stjórnanda línurit en tölusett, svo matplotlib, seaborn og ggplot2 eru vinir þínir.

Mjúk færni

Það er ekki síður mikilvægt að geta komið hugmyndum sínum, sem og niðurstöðum og áhyggjum (o.s.frv.) á framfæri við aðra - vertu viss um að þú getir skýrt frá verkefninu bæði í tæknilegu og viðskiptalegu tilliti.

Þú getur útskýrt fyrir samstarfsfólki, stjórnendum, yfirmönnum, viðskiptavinum og öllum öðrum sem þurfa á því að halda hvað er að gerast, hvaða gögn þú ert að nota og hvaða niðurstöður þú fékkst.

Það ætti að lesa töflurnar þínar og skjöl án þín. Það er, þú þarft ekki að fara til þín til að skilja hvað er skrifað þar.

Þú getur sett fram skýra kynningu til að koma málinu á framfæri og/eða skjalfesta verkefnið/vinnuna þína.

Þú getur komið afstöðu þinni á framfæri á rökstuddan og tilfinningalausan hátt, sagt „já/nei“ eða efast um/studt ákvörðun.

Þjálfun

Það eru margir mismunandi staðir þar sem þú getur lært allt þetta. Ég mun gefa stuttan lista - ég reyndi allt af honum og satt að segja hefur hver hlutur sína kosti og galla. Prófaðu það og ákváðu hvað hentar þér, en ég mæli eindregið með því að prófa nokkra möguleika og ekki festast í einum.

  • Netnámskeið: coursera, udacity, Edx, osfrv;
  • Nýir skólar: á netinu og utan nets - SkillFactory, ShAD, MADE;
  • Klassískir skólar: meistaranám og framhaldsnámskeið;
  • Verkefni - þú getur einfaldlega valið verkefni sem vekja áhuga þinn og klippt þau, hlaðið þeim upp á github;
  • Starfsnám - það er erfitt að benda á neitt hér; þú verður að leita að því sem er í boði og finna viðeigandi valkosti.

Er það nauðsynlegt?

Að lokum mun ég líklega bæta við þremur persónulegum reglum sem ég reyni að fylgja sjálfur.

  • Ætti að vera áhugavert;
  • Veita innri ánægju (= að minnsta kosti ekki valda þjáningu);
  • "Að vera þinn."

Hvers vegna þá? Það er erfitt að ímynda sér að gera eitthvað á hverjum degi og njóta þess ekki eða hafa ekki áhuga. Ímyndaðu þér að þú sért læknir og hatar samskipti við fólk - þetta getur auðvitað einhvern veginn virkað, en þú verður stöðugt óþægilegur með flæði sjúklinga sem vilja spyrja þig að einhverju. Þetta virkar ekki til lengri tíma litið.

Af hverju minntist ég sérstaklega á innri ánægju? Mér sýnist þetta vera nauðsynlegt fyrir frekari þróun og í grundvallaratriðum námsferlið. Ég hef mjög gaman af því þegar mér tekst að klára einhvern flókinn eiginleika og smíða líkan eða reikna út mikilvæga færibreytu. Ég nýt þess þegar kóðinn minn er fagurfræðilega fallegur og vel skrifaður. Þess vegna er áhugavert að læra eitthvað nýtt og krefst ekki beinlínis verulegrar hvatningar.

„Að vera þinn“ er sama tilfinning og þetta er nokkurn veginn það sem þú vildir gera. Ég á smá sögu. Frá barnæsku hef ég haft áhuga á rokktónlist (og metal - LAX!) og eins og svo margir aðrir langaði mig að læra að spila og það er allt og sumt. Það kom í ljós að ég hafði enga heyrn og enga rödd - þetta truflaði mig ekkert (og ég verð að segja að þetta truflar ekki marga flytjendur beint á sviðinu), og þegar ég var enn í skóla fékk ég gítar... og það varð ljóst að mér líkar ekki við að sitja tímunum saman og spila á það. Þetta var erfitt, mér fannst alltaf eitthvað kjaftæði vera að koma út - ég hafði enga ánægju af því og fannst ég bara ömurleg, heimsk og algjörlega ófær. Ég bókstaflega neyddi mig til að setjast niður í kennslustundir og almennt var þetta ekki góður matur fyrir hestinn.

Á sama tíma gat ég setið í rólegheitum tímunum saman og þróað eitthvað leikfang, notað handrit til að lífga eitthvað á flash (eða eitthvað annað) og ég var mjög hvattur til að klára þætti í leiknum eða takast á við vélfræði hreyfingar og/eða tengja þriðja aðila bókasöfn, viðbætur og allt annað.

Og á einhverjum tímapunkti áttaði ég mig á því að gítarleikur er ekki mitt mál og að mér finnst mjög gaman að hlusta, ekki spila. Og augun mín tindruðu þegar ég skrifaði leiki og kóða (hlustaði á alls kyns metal á því augnabliki) og það var það sem mér líkaði þá, og það var það sem ég hefði átt að gera.

Hefur þú einhverjar aðrar spurningar?

Auðvitað gátum við ekki farið í gegnum öll efnin og spurningarnar, svo skrifaðu athugasemdir og sendu mér PM - ég er alltaf ánægður með spurningar.

Athugasemdir Dagsetningarfræðingur: hvar á að byrja og er það nauðsynlegt?

Athugasemdir Dagsetningarfræðingur: hvar á að byrja og er það nauðsynlegt?

Heimild: www.habr.com

Bæta við athugasemd