ProHoster > Bloc > Administració > Pla d'anivellament per a l'obtenció de la professió Enginyer de dades
Pla d'anivellament per a l'obtenció de la professió Enginyer de dades
He estat treballant com a gestor de projectes durant els últims vuit anys (no escric codi a la feina), cosa que, naturalment, té un impacte negatiu en el meu backend tecnològic. Vaig decidir reduir la meva bretxa tecnològica i obtenir la professió d'enginyer de dades. La principal habilitat d'un enginyer de dades és la capacitat de dissenyar, construir i mantenir magatzems de dades.
He elaborat un pla de formació, crec que no només em serà útil. El pla se centra en l'estudi independent dels cursos. Es dóna prioritat als cursos gratuïts de rus.
Seccions:
Algorismes i estructures de dades. Secció clau. Si l'estudies, la resta també funcionarà. És important ser competent en escriure codi i utilitzar estructures i algorismes bàsics.
Bases de dades i magatzems de dades, Business Intelligence. Passem dels algorismes a l'emmagatzematge i processament de dades.
Hadoop i Big Data. Quan la base de dades no cabe al disc dur, o quan cal analitzar les dades, però Excel ja no la pot carregar, comença el big data. Al meu entendre, només cal passar a aquesta secció després d'un estudi profund dels dos anteriors.
Algorismes i estructures de dades
En el meu pla vaig incloure l'aprenentatge de Python, revisant els conceptes bàsics de matemàtiques i algoritmització.
Bases de dades i magatzems de dades, Business Intelligence
Llibre: Martin Kleppmann - Aplicacions d'alta càrrega. Programació, escalat, suport. El llibre descriu com funcionen els diferents models de dades, la seva implementació des de l'interior, les limitacions i les opcions en funció de la tasca.
Els temes relacionats amb la construcció de magatzems de dades, ETL, cubs OLAP depenen molt de les eines, de manera que en aquest document no proporciono enllaços a cursos. És aconsellable estudiar aquests sistemes quan es treballa en un projecte concret en una empresa concreta. Per familiaritzar-se amb ETL, podeu provar Talend o Flux d'aire.
Al meu entendre, és important estudiar la metodologia moderna de disseny de magatzem de dades Data Vault enllaç 1, enllaç 2. I la millor manera d'aprendre-ho és agafant-lo i implementar-lo amb un exemple senzill. Hi ha diversos exemples d'implementacions de Data Vault a GitHub enllaç. Un llibre modern sobre magatzems de dades: Modeling the Agile Data Warehouse amb Data Vault de Hans Hultgren.
Per familiaritzar-vos amb les eines de Business Intelligence per als usuaris finals, podeu utilitzar el dissenyador gratuït d'informes, taulers de control i mini magatzems de dades Power BI Desktop. Material educatiu: enllaç 1, enllaç 2.
Hadoop i Big Data
Heu de començar amb una autoimplementació de MapReduce sense biblioteques de tercers. Això permetrà una millor comprensió de les implementacions multifils en el futur. Es descriu un exemple excel·lent en Python aquí.
No tot el que estudies es pot aplicar a la feina. Per tant, necessites un projecte de graduació en el qual intentaràs aplicar nous coneixements.
El pla no inclou temes relacionats amb l'anàlisi de dades i l'aprenentatge automàtic, perquè això és més rellevant per a la professió de científic de dades. Tampoc hi ha temes relacionats amb els núvols AWS i Azure. aquests temes depenen molt de l'elecció de la plataforma.
Preguntes per a la comunitat:
Què tan adequat és el meu pla de bombeig? Què eliminar o afegir?
Quin projecte recomanaries com a tesi?