Nivelační plán pro získání profese Datový inženýr

Posledních osm let pracuji jako projektový manažer (v práci nepíšu kód), což samozřejmě negativně ovlivňuje můj technologický backend. Rozhodl jsem se uzavřít svou technologickou mezeru a získat profesi datového inženýra. Základní dovedností datového inženýra je schopnost navrhovat, budovat a udržovat datové sklady.

Udělal jsem si tréninkový plán, myslím, že se bude hodit nejen mně. Plán je zaměřen na samostudium. Přednost mají bezplatné kurzy ruštiny.

Sekce:

  • Algoritmy a datové struktury. Klíčová sekce. Naučte se to a všechno ostatní půjde taky. Je důležité dostat kód do rukou a používat základní struktury a algoritmy.
  • Databáze a datové sklady, Business Intelligence. Přecházíme od algoritmů k ukládání a zpracování dat.
  • Hadoop a velká data. Když databáze není zahrnuta na pevném disku nebo když je třeba data analyzovat, ale Excel je již nemůže načíst, začínají velká data. K této části je podle mého názoru nutné přistoupit až po hlubokém prostudování dvou předchozích.

Algoritmy a datové struktury

Do svého plánu jsem zařadil učení Pythonu, opakování základů matematiky a algoritmizace.

Databáze a datové sklady, Business Intelligence

Témata týkající se budování datových skladů, ETL, OLAP kostek jsou velmi závislá na nástrojích, proto v tomto dokumentu neuvádím odkazy na kurzy. Takové systémy je vhodné nastudovat při práci na konkrétním projektu v konkrétní firmě. Pro seznámení s ETL můžete zkusit Talend nebo Airflow.

Podle mého názoru je důležité studovat moderní metodiku návrhu Data Vault Odkaz 1, Odkaz 2. A nejlepší způsob, jak se to naučit, je vzít si to a implementovat to na jednoduchém příkladu. Na GitHubu je několik příkladů implementace Data Vault odkaz. Kniha Moderní datový sklad: Modelování agilního datového skladu s datovým trezorem od Hanse Hultgrena.

Chcete-li se seznámit s nástroji Business Intelligence pro koncové uživatele, můžete využít bezplatného návrháře sestav, dashboardů, mini datových skladů Power BI Desktop. Vzdělávací materiály: Odkaz 1, Odkaz 2.

Hadoop a velká data

Závěr

Ne vše, co se naučíte, lze uplatnit v práci. Proto potřebujete absolventský projekt, ve kterém se pokusíte uplatnit nové poznatky.

V plánu nejsou žádná témata související s analýzou dat a strojovým učením. to platí spíše pro profesi Data Scientist. Nejsou zde ani žádná témata související s cloudy AWS, Azure. tato témata jsou velmi závislá na výběru platformy.

Otázky pro komunitu:
Jak adekvátní je můj plán vyrovnání? Co odebrat nebo přidat?
Jaký projekt byste doporučil jako diplomovou práci?

Zdroj: www.habr.com

Přidat komentář