Notysjes Datum Wittenskipper: wêr te begjinnen en is it nedich?

Notysjes Datum Wittenskipper: wêr te begjinnen en is it nedich?

TL;DR is in post foar fragen/antwurden oer Data Science en hoe't jo it berop yngean kinne en har dêryn ûntwikkelje. Yn it artikel sil ik de basisprinsipes en FAQ analysearje en bin ree om jo spesifike fragen te beantwurdzjen - skriuw yn 'e opmerkingen (as yn in priveeberjocht), ik sil besykje alles binnen in pear dagen te beantwurdzjen.

Mei de komst fan 'e "Satanist Date" rige notysjes, in protte berjochten en opmerkings kamen mei fragen oer hoe te begjinnen en wêr te graven, en hjoed sille wy analysearje de wichtichste feardichheden en fragen dy't ûntstienen nei de publikaasjes.

Alles dat hjir stiet beweart net de ultime wierheid te wêzen en is de subjektive miening fan de skriuwer. Wy sille sjen nei de wichtichste dingen dy't lykje meast wichtich yn it proses.

Wêrom is dit krekt nedich?

Om it doel better berikber te meitsjen, sadat it der teminsten wat spesifyk útsjocht - jo wolle DS of Research Scientist wurde by Facebook/Apple/Amazon/Netflix/Google - sjoch nei de easken, talen en nedige feardichheden spesifyk foar hokker posysje. Wat is it ynhierproses? Hoe giet in typyske dei troch yn sa'n rol? Hoe sjocht it gemiddelde profyl fan in persoan dy't dêr wurket der út?

Faak is it algemiene byld dat in persoan net echt begrypt wat hy krekt wol en it is net folslein dúdlik hoe't jo op dit ûndúdlike byld tariede kinne - dus it is de muoite wurdich om op syn minst in rûch plan te hawwen fan wat jo krekt wolle.

Konkretisearje de hjoeddeistige doelwerjefte

Sels as it feroaret lâns de wei, en it is oer it algemien normaal te feroarjen plannen yn 'e rin fan it spul, it is wurdich in doel en rjochtsje op it, periodyk evaluearje en opnij tinken.

Sil it wêze of is it noch relevant?

Tsjin de tiid dat jo groeie yn in posysje.

Stel jo foar dat jo foardat jo posysje in PhD moatte krije, 2-3 jier yn 'e yndustry moatte wurkje en jo hier yn 't algemien snije wylst jo meditearje yn in kleaster - sil de situaasje mei Data Science net itselde wêze as it ea wie mei ekonomen en advokaten? Sil alles ûnbekend feroarje yn it gebiet dat jo neistribbe wolle?

Is d'r net in goede kâns dat elkenien der no hinne sil en wy sille in foto sjen wêr't in breed laach fan minsken is dy't besykje it berop yn te gean - en d'r sil gewoan in magere útgongspunt wêze.

It kin it wurdich wêze om hjoeddeistige trends te beskôgjen by it kiezen fan in paad, net allinich de hjoeddeistige steat fan 'e arbeidsmerk, mar ek jo idee fan hoe't it feroaret en wêr't it is.

Bygelyks, de skriuwer wie net fan plan om in satanist te wurden, mar yn syn PhD wurke hy oan projekten fan tredden dy't sterke feardichheden mienen mei DS, en oan 'e ein fan' e ôfstudearskoalle stapte hy fansels oer nei it miljeu, seach in goede posysje.

As yn de rin fan it stik bliken docht dat it nedich is om earne oars te ferhúzjen - om't der no de measte beweging is en alle nijsgjirrige aksjes bart, dan ferhúzje wy dêr fansels.

Ferdieling fan feardigens

Dit binne betingstskategoryen fan feardichheden dy't my de kaai lykje te wêzen foar folslein en effektyf wurk yn DS. Ik sil Ingelsk apart markearje - learje wat jo ek dogge yn CS. Folgjende binne de kaai kategoryen.

Programming / Skript

Hokker talen sille jo wis yn 'e kunde komme mei? Python? Java? Shell skripting? Lua? SQL? C++?

Wat jo krekt moatte kinne en wêrom yn termen fan programmearring - it oanbod fan posysjes hjir ferskilt sterk.

Bygelyks, ik moat faaks komplekse logika, queries, modellen, analytiken ymplementearje en yn 't algemien ynterpretearre systemen ûntwikkelje, mar d'r binne hast noait easken foar de snelheid fan koade, útsein de meast algemiene en ridlike.

Dêrom is myn feardigensset hiel oars fan dyjingen dy't de Tensorflow-bibleteek skriuwe en tinke oer it optimalisearjen fan de koade foar effisjint gebrûk fan 'e l1-cache en ferlykbere dingen, dus sjoch nei wat jo krekt nedich binne en evaluearje it goede paad nei learen.

Bygelyks, foar python, minsken meitsje al in kaart taal learen.

Wiswier, d'r binne al betûfte advys en goede boarnen foar jo behoeften - jo moatte beslute oer in list en begjinne der oan te wurkjen.

Begryp fan saaklike prosessen

Jo kinne net oeral sûnder it: jo moatte begripe wêrom't jo nedich binne yn dit proses, wat jo dogge en wêrom. Faak is dit wat jo in protte tiid kin besparje, jo foardiel maksimalisearje en gjin tiid en boarnen fergrieme oan bullshit.

Normaal stel ik mysels de folgjende fragen:

  • Wat krekt doch ik yn it bedriuw?
  • Wêrom?
  • Wa sil it brûke en hoe?
  • Hokker opsjes haw ik?
  • Wat binne de grinzen fan de parameters?

Hjir is wat mear detail oer de parameters: jo kinne it wurkscenario faaks flink feroarje as jo witte dat der wat opoffere wurde kin: bygelyks ynterpretabiliteit of oarsom, in pear persint spilet hjir gjin rol en wy hawwe in hiel fluch oplossing, en de klant hat it nedich, om't hy betellet foar de tiid dat de pipeline rint yn AWS.

Math

Hjir tinke en begripe jo alles sels - sûnder kennis fan basiswiskunde binne jo neat mear as apen mei in granaat (sorry Random Forest) - dus jo moatte op syn minst de basis dingen begripe. As ik in heul minimale list soe gearstalle, soe it omfetsje:

  • Lineêre algebra - in grut oantal boarnen binne maklik te Google, sykje nei wat it bêste by jo past;
  • Wiskundige analyze - (op syn minst yn 'e earste twa semesters);
  • De kâns teory is oeral yn masine learen;
  • Combinatorics - it is eins oanfolling op de teory;
  • Graph teory - op syn minst BASIC;
  • Algoritmen - op syn minst foar de earste twa semesters (sjoch de oanbefellings fan Cormen yn syn boek);
  • Mathlogic - op syn minst basis.

Praktyske gegevens analyze en fisualisaasje

Ien fan 'e wichtichste dingen is om net bang te wêzen om jo hannen smoarch te meitsjen mei gegevens en in wiidweidige analyze fan' e dataset, projekt, en meitsje in rappe datafisualisaasje.

Ferkennende gegevensanalyse moat gewoan wat natuerlik wurde, lykas alle oare gegevenstransformaasjes en de mooglikheid om in ienfâldige pipeline te meitsjen fan unix-knooppunten (sjoch foarige artikels) of in lêsber en begryplik notebook te skriuwen.

Fisualisaasje wol ik neame: it is better ien kear te sjen as hûndert kear te hearren.

In grafyk toane oan in manager is hûndert kear makliker en dúdliker dan in set sifers, dus matplotlib, seaborn en ggplot2 binne dyn freonen.

Sêfte feardichheden

It is like wichtich om jo ideeën, lykas resultaten en soargen (ensafh.) te kommunisearjen oan oaren - soargje derfoar dat jo de taak dúdlik oanjaan kinne yn sawol technysk as saaklik termen.

Jo kinne oan kollega's, managers, superieuren, kliïnten en elkenien dy't it nedich hawwe útlizze wat der bart, hokker gegevens jo brûke en hokker resultaten jo krigen hawwe.

Jo charts en dokumintaasje moatte lêzen wurde sûnder dy. Dat is, jo hoege net nei jo te gean om te begripen wat dêr skreaun is.

Jo kinne in dúdlike presintaasje meitsje om it punt oer te krijen en/of it projekt/jo wurk te dokumintearjen.

Jo kinne jo posysje op in redeneare en unemosjonele manier oerbringe, "ja / nee" sizze of in beslút freegje / stypje.

Training sesjes

D'r binne in protte ferskillende plakken wêr't jo dit alles kinne leare. Ik sil in koarte list jaan - ik haw der alles fan besocht en earlik te wêzen, elk item hat syn foar- en neidielen. Besykje it út en beslute wat by jo past, mar ik riede tige oan om ferskate opsjes te besykjen en net op ien te sitten.

  • Online kursussen: coursera, udacity, Edx, ensfh;
  • Nije skoallen: online en offline - SkillFactory, ShAD, MADE;
  • Klassike skoallen: universitêre masterprogramma's en avansearre opliedingskursussen;
  • Projekten - jo kinne gewoan taken selektearje dy't jo ynteressearje en se snije, uploade se nei github;
  • Staazjes - it is lestich om hjir wat foar te stellen; jo moatte sykje nei wat beskikber is en passende opsjes fine.

Is it nedich?

Ta beslút sil ik wierskynlik trije persoanlike prinsipes tafoegje dy't ik sels besykje te folgjen.

  • Moat ynteressant wêze;
  • Bring ynderlik wille (= alteast net lijen feroarsaakje);
  • "Om fan dy te wêzen."

Wêrom se? It is dreech foar te stellen dat jo elke dei wat dwaan en it net genietsje of net ynteressearre binne. Stel jo foar dat jo in dokter binne en jo haatsje om te kommunisearjen mei minsken - dit kin fansels op ien of oare manier wurkje, mar jo sille konstant ûngemaklik wêze mei de stream fan pasjinten dy't jo wat freegje wolle. Dit wurket op 'e lange termyn net.

Wêrom haw ik spesifyk neamd ynterne wille? It liket my dat dat nedich is foar de fierdere ûntwikkeling en yn prinsipe it learproses. Ik genietsje der echt fan as ik it slagge om wat komplekse funksje te foltôgjen en in model te bouwen of in wichtige parameter te berekkenjen. Ik genietsje derfan as myn koade is aesthetically moai en goed skreaun. Dêrom is it learen fan wat nijs ynteressant en fereasket gjin direkte motivaasje.

"Jo wêze" is itselde gefoel dat dit sawat is wat jo wolle dwaan. Ik haw in lyts ferhaal. Sûnt bernetiid bin ik ynteressearre yn rockmuzyk (en metal - SALMON!) en, lykas safolle oaren, woe ik leare hoe te spyljen en dat is alles. It die bliken dat ik gjin gehoar en gjin stim hie - dit stoarde my hielendal net (en ik moat sizze dat dit in protte artysten direkt op it poadium net hindere), en doe't ik noch op skoalle siet, krige ik in gitaar ... en it waard dúdlik dat ik it net sa leuk fyn om oeren te sitten en derop te boartsjen. It gyng hurd, it like my altyd ta dat der in soarte fan sleauwichheid út kaam - ik krige der gjin nocht oan en fielde my samar lulk, dom en folslein ûnmooglik. Ik twong my letterlik om te sitten foar lessen en yn 't algemien wie it net goed iten foar it hynder.

Tagelyk koe ik oeren rêstich sitte om wat boartersguod te ûntwikkeljen, in skript te brûken om wat op flash (of wat oars) te animearjen en ik wie wyld motivearre om eleminten yn it spul ôf te meitsjen of om te gean mei de meganika fan beweging en/of ferbinen fan tredden bibleteken, plugins en al it oare.

En op in stuit realisearre ik my dat it gitaarspieljen net myn ding is en dat ik harkje wol, net spylje. En myn eagen glinsteren doe't ik spultsjes en koade skreau (op dat stuit nei allerhande metal lústere) en dat mocht ik doe, en dat hie ik dwaan moatten.

Hawwe jo noch oare fragen?

Fansels koene wy ​​net alle ûnderwerpen en fragen trochjaan, dus skriuw opmerkingen en PM my - ik bin altyd bliid om fragen te hawwen.

Notysjes Datum Wittenskipper: wêr te begjinnen en is it nedich?

Notysjes Datum Wittenskipper: wêr te begjinnen en is it nedich?

Boarne: www.habr.com

Add a comment