Anteckningar Date Scientist: var ska man börja och är det nödvändigt?

Anteckningar Date Scientist: var ska man börja och är det nödvändigt?

TL;DR är ett inlägg för frågor/svar om Data Science och hur man kommer in i yrket och utvecklas i det. I artikeln kommer jag att analysera de grundläggande principerna och FAQ och är redo att svara på dina specifika frågor - skriv i kommentarerna (eller i ett privat meddelande), jag kommer att försöka svara på allt inom några dagar.

Med tillkomsten av serien "Satanist Date" kom många meddelanden och kommentarer med frågor om hur man ska börja och var man ska gräva, och idag kommer vi att analysera de viktigaste färdigheterna och frågorna som uppstod efter publikationerna.

Allt som anges här gör inte anspråk på att vara den ultimata sanningen och är författarens subjektiva åsikt. Vi kommer att titta på de viktigaste sakerna som verkar viktigast i processen.

Varför behövs just detta?

För att målet ska bli bättre uppnåeligt, så att det ser åtminstone något specifikt ut - du vill bli DS eller forskare på Facebook/Apple/Amazon/Netflix/Google - titta på kraven, språken och nödvändiga kunskaper specifikt för vilken position. Vad är anställningsprocessen? Hur går en vanlig dag igenom i en sådan roll? Hur ser den genomsnittliga profilen ut för en person som jobbar där?

Ofta är helhetsbilden att en person inte riktigt förstår vad exakt han vill och det är inte helt klart hur man ska förbereda sig för denna oklara bild – så det är värt att ha åtminstone en grov plan för vad exakt man vill ha.

Konkretisera den aktuella målvyn

Även om det förändras på vägen, och det är i allmänhet normalt att ändra planer under pjäsens gång, är det värt att ha ett mål och fokusera på det, periodvis utvärdera och tänka om.

Kommer det att vara eller är det fortfarande relevant?

När du växer in i en position.

Föreställ dig att du innan din tjänst behöver doktorera, arbeta 2-3 år i branschen och generellt klippa dig medan du mediterar i ett kloster – kommer inte situationen med Data Science att vara densamma som den en gång var med ekonomer och advokater? Kommer allt att förändras till oigenkännlighet inom det område du vill ägna dig åt?

Finns det inte en god chans att alla rusar dit nu och vi kommer att se en bild där det finns ett brett lager av människor som försöker komma in i yrket - och det blir helt enkelt ett magert utgångsläge.

Det kan vara värt att överväga aktuella trender när du väljer en väg, inte bara det aktuella läget på arbetsmarknaden, utan också din uppfattning om hur den förändras och var den är.

Till exempel planerade författaren inte att bli satanist, men under sin doktorsexamen arbetade han med tredjepartsprojekt som hade starka kunskaper gemensamt med DS, och i slutet av forskarskolan bytte han naturligtvis till miljön och såg en bra placera.

Om det under spelets gång visar sig att det kommer att bli nödvändigt att flytta någon annanstans - eftersom det nu är mest rörelse och allt det mest intressanta händer, då kommer vi att flytta dit naturligt.

Skicklighetsfördelning

Dessa är villkorade kategorier av färdigheter som jag tycker är nyckeln till ett fullständigt och effektivt arbete i DS. Jag kommer att lyfta fram engelska separat - lär dig vad du än gör i CS. Nästa är nyckelkategorierna.

Programmering/skript

Vilka språk är du säker på att bekanta dig med? Pytonorm? Java? Skalskript? Lua? SQL? C++?

Vad exakt du behöver för att kunna och varför när det gäller programmering – utbudet av befattningar här varierar mycket.

Jag måste till exempel ofta implementera komplex logik, frågor, modeller, analyser och generellt utveckla tolkade system, men det finns nästan aldrig krav på kodens hastighet, förutom de mest generella och rimliga.

Därför är min kompetens mycket annorlunda än de som skriver Tensorflow-biblioteket och funderar på att optimera koden för effektiv användning av l1-cachen och liknande saker, så titta på exakt vad du behöver och utvärdera rätt väg till lärande.

Till exempel, för python, gör människor redan upp karta språkinlärning.

Det finns säkert redan erfarna råd och bra källor för dina behov - du måste bestämma dig för en lista och börja arbeta med den.

Förstå affärsprocesser

Du kan inte gå någonstans utan det: du måste förstå varför du behövs i denna process, vad du gör och varför. Ofta är det detta som kan spara dig mycket tid, maximera din nytta och inte slösa tid och resurser på skitsnack.

Vanligtvis ställer jag mig själv följande frågor:

  • Vad exakt gör jag i företaget?
  • Varför?
  • Vem kommer att använda det och hur?
  • Vilka alternativ har jag?
  • Vilka är gränserna för parametrarna?

Här är lite mer detaljerad information om parametrarna: du kan ofta ändra arbetsscenariot rejält om du vet att något kan offras: till exempel tolkningsbarhet eller vice versa, ett par procent kommer inte att spela någon roll här och vi har en väldigt snabb lösning, och kunden behöver den, eftersom han betalar för den tid pipelinen körs i AWS.

matematik

Här tänker och förstår du allt själv - utan kunskaper i grundläggande matematik är du inget annat än apor med en granat (förlåt Random Forest) - så du måste förstå åtminstone de grundläggande sakerna. Om jag skulle sammanställa en mycket minimal lista skulle den innehålla:

  • Linjär algebra – ett stort antal resurser är lätta att Google, leta efter vad som passar dig bäst;
  • Matematisk analys - (åtminstone under de två första terminerna);
  • Sannolikhetsteorin finns överallt inom maskininlärning;
  • Kombinatorik - det är faktiskt komplement till teorin;
  • Grafteori - åtminstone BASIC;
  • Algoritmer - åtminstone för de två första terminerna (se Cormens rekommendationer i hans bok);
  • Mathlogic - åtminstone grundläggande.

Praktisk dataanalys och visualisering

En av de viktigaste sakerna är att inte kunna vara rädd för att smutsa ner händerna med data och genomföra en omfattande analys av datasetet, projektet och skapa en snabb datavisualisering.

Utforskande dataanalys ska helt enkelt bli något naturligt, som alla andra datatransformationer och möjligheten att skapa en enkel pipeline från unix-noder (se tidigare artiklar) eller skriva en läsbar och begriplig anteckningsbok.

Jag skulle vilja nämna visualisering: det är bättre att se en gång än att höra hundra gånger.

Att visa en graf för en chef är hundra gånger lättare och tydligare än en uppsättning siffror, så matplotlib, seaborn och ggplot2 är dina vänner.

Mjuka färdigheter

Lika viktigt är det att kunna kommunicera dina idéer, såväl som resultat och funderingar (etc.) till andra – se till att du tydligt kan ange uppgiften både tekniskt och affärsmässigt.

Du kan förklara för kollegor, chefer, chefer, kunder och alla andra som behöver det vad som händer, vilken data du använder och vilka resultat du fick.

Dina diagram och dokumentation bör läsas utan dig. Det vill säga, du behöver inte gå till dig för att förstå vad som står där.

Du kan göra en tydlig presentation för att få fram poängen och/eller dokumentera projektet/ditt arbete.

Du kan förmedla din ståndpunkt på ett motiverat och känslolöst sätt, säga ”ja/nej” eller ifrågasätta/stödja ett beslut.

träning

Det finns många olika platser där du kan lära dig allt detta. Jag kommer att ge en kort lista - jag provade allt från det och, för att vara ärlig, har varje föremål sina för- och nackdelar. Prova och bestäm vad som passar dig, men jag rekommenderar starkt att du provar flera alternativ och inte fastnar för ett.

  • Onlinekurser: coursera, udacity, Edx, etc;
  • Nya skolor: online och offline - SkillFactory, ShAD, MADE;
  • Klassiska skolor: universitetets masterprogram och avancerade utbildningar;
  • Projekt - du kan helt enkelt välja uppgifter som intresserar dig och klippa dem, ladda upp dem till github;
  • Praktikplatser - det är svårt att föreslå något här, du måste leta efter vad som finns och hitta lämpliga alternativ.

Är det nödvändigt?

Avslutningsvis kommer jag förmodligen att lägga till tre personliga principer som jag själv försöker följa.

  • Borde vara intressant;
  • Ge inre njutning (= åtminstone inte orsaka lidande);
  • "Att vara din."

Varför dem? Det är svårt att föreställa sig att göra något varje dag och inte njuta av det eller inte vara intresserad. Föreställ dig att du är en läkare och du hatar att kommunicera med människor - det här kan naturligtvis fungera på något sätt, men du kommer att vara ständigt obekväm med flödet av patienter som vill fråga dig något. Det här fungerar inte i längden.

Varför nämnde jag specifikt internt nöje? Det förefaller mig som att detta är nödvändigt för vidare utveckling och i princip lärandeprocessen. Jag njuter verkligen av det när jag lyckas slutföra någon komplex funktion och bygga en modell eller beräkna en viktig parameter. Jag trivs när min kod är estetiskt vacker och välskriven. Att lära sig något nytt är därför intressant och kräver inte direkt någon nämnvärd motivation.

"Att vara din" är samma känsla att det här är ungefär vad du ville göra. Jag har en liten historia. Sedan barnsben har jag varit intresserad av rockmusik (och metal - SALMON!) och, som så många andra, ville jag lära mig att spela och det var allt. Det visade sig att jag inte hade någon hörsel och ingen röst - det här störde mig inte alls (och jag måste säga att detta inte stör många artister direkt på scenen), och när jag fortfarande gick i skolan fick jag en gitarr... och det blev tydligt att jag inte riktigt gillar att sitta i timmar och spela på det. Det höll på att gå hårt, det verkade alltid för mig att det skulle komma ut något slags skitsnack - jag fick ingen glädje av det alls och kände mig bara usel, dum och helt oförmögen. Jag bokstavligen tvingade mig själv att sitta ner för lektionerna och i allmänhet var det inte bra mat för hästen.

Samtidigt kunde jag helt lugnt sitta i timmar och utveckla någon leksak, använda ett manus för att animera något på flash (eller något annat) och jag var väldigt motiverad att avsluta element i spelet eller ta itu med rörelsemekaniken och/eller ansluta tredjepartsbibliotek, plugins och allt annat.

Och vid något tillfälle insåg jag att att spela gitarr inte är min grej och att jag verkligen gillar att lyssna, inte spela. Och mina ögon gnistrade när jag skrev spel och kod (lyssnade på all sorts metall i det ögonblicket) och det var det jag gillade då, och det var det jag borde ha gjort.

har du några andra frågor?

Naturligtvis kunde vi inte gå igenom alla ämnen och frågor, så skriv kommentarer och PM:a mig - jag är alltid glad att ha frågor.

Anteckningar Date Scientist: var ska man börja och är det nödvändigt?

Anteckningar Date Scientist: var ska man börja och är det nödvändigt?

Källa: will.com

Lägg en kommentar