Plan de nivelación para a obtención da profesión Enxeñeiro de datos
Durante os últimos oito anos traballei como xestor de proxectos (non escribo código no traballo), o que naturalmente afecta negativamente ao meu backend tecnolóxico. Decidín pechar a miña fenda tecnolóxica e conseguir a profesión de enxeñeiro de datos. A principal habilidade dun enxeñeiro de datos é a capacidade de deseñar, construír e manter almacéns de datos.
Fixen un plan de adestramento, creo que non só me será útil. O plan céntrase nos cursos de autoformación. Dáse prioridade aos cursos gratuítos de ruso.
Seccións:
Algoritmos e estruturas de datos. Sección clave. Apréndeo e todo o demais tamén funcionará. É importante poñer as mans no código e utilizar as estruturas e algoritmos básicos.
Bases de datos e almacéns de datos, Business Intelligence. Estamos pasando dos algoritmos ao almacenamento e procesamento de datos.
Hadoop e Big Data. Cando a base de datos non está incluída no disco duro, ou cando hai que analizar os datos, pero Excel xa non pode cargalos, comezan os grandes datos. Na miña opinión, é necesario pasar a este apartado só despois dun profundo estudo dos dous anteriores.
Algoritmos e estruturas de datos
No meu plan, incluín aprender Python, repetindo os conceptos básicos de matemáticas e algoritmos.
Bases de datos e almacéns de datos, Business Intelligence
Libro: Martin Kleppman - Aplicacións altamente cargadas. Programación, escalado, soporte. O libro describe como funcionan os diferentes modelos de datos, a súa implementación desde o interior, as limitacións e as opcións en función da tarefa.
Os temas relacionados coa construción de almacéns de datos, ETL, cubos OLAP dependen moito das ferramentas, polo que non dou ligazóns a cursos neste documento. É recomendable estudar estes sistemas cando se traballe nun proxecto específico nunha empresa concreta. Para coñecer ETL, podes probalo Talendo ou O fluxo de aire.
Na miña opinión, é importante estudar a moderna metodoloxía de deseño de Data Vault ligazón 1, ligazón 2. E a mellor forma de aprendelo é tomalo e aplicalo cun exemplo sinxelo. Hai varios exemplos de implementación de Data Vault en GitHub Ligazón. The Modern Data Warehouse Book: Modelando o Agile Data Warehouse con Data Vault de Hans Hultgren.
Para familiarizarse coas ferramentas de Business Intelligence para os usuarios finais, pode utilizar o deseñador gratuíto de informes, paneis de control, mini almacéns de datos Power BI Desktop. Materiais educativos: ligazón 1, ligazón 2.
Hadoop e Big Data
Debe comezar cunha implementación independente de MapReduce sen bibliotecas de terceiros. Isto permitirá unha mellor comprensión das implementacións multiproceso no futuro. Descríbese un excelente exemplo en Python aquí.
Non todo o que aprendes se pode aplicar no traballo. Polo tanto, necesitas un proxecto de graduación no que tentes aplicar novos coñecementos.
Non hai temas relacionados coa análise de datos e a aprendizaxe automática no plan. isto aplícase máis á profesión de Data Scientist. Tampouco hai temas relacionados coas nubes de AWS, Azure. estes temas dependen moito da elección da plataforma.
Preguntas á comunidade:
Que tan adecuado é o meu plan de nivelación? Que eliminar ou engadir?
Que proxecto recomendarías como tese?