Posledních osm let pracuji jako projektový manažer (v práci nepíšu kód), což samozřejmě negativně ovlivňuje můj technologický backend. Rozhodl jsem se uzavřít svou technologickou mezeru a získat profesi datového inženýra. Základní dovedností datového inženýra je schopnost navrhovat, budovat a udržovat datové sklady.
Udělal jsem si tréninkový plán, myslím, že se bude hodit nejen mně. Plán je zaměřen na samostudium. Přednost mají bezplatné kurzy ruštiny.
Sekce:
Algoritmy a datové struktury. Klíčová sekce. Naučte se to a všechno ostatní půjde taky. Je důležité dostat kód do rukou a používat základní struktury a algoritmy.
Databáze a datové sklady, Business Intelligence. Přecházíme od algoritmů k ukládání a zpracování dat.
Hadoop a velká data. Když databáze není zahrnuta na pevném disku nebo když je třeba data analyzovat, ale Excel je již nemůže načíst, začínají velká data. K této části je podle mého názoru nutné přistoupit až po hlubokém prostudování dvou předchozích.
Algoritmy a datové struktury
Do svého plánu jsem zařadil učení Pythonu, opakování základů matematiky a algoritmizace.
Kniha: Martin Kleppman - Vysoce nabité aplikace. Programování, škálování, podpora. Kniha popisuje, jak fungují různé datové modely, jejich implementace zevnitř, omezení a volby v závislosti na úloze.
Témata týkající se budování datových skladů, ETL, OLAP kostek jsou velmi závislá na nástrojích, proto v tomto dokumentu neuvádím odkazy na kurzy. Takové systémy je vhodné nastudovat při práci na konkrétním projektu v konkrétní firmě. Pro seznámení s ETL můžete zkusit Talend nebo Airflow.
Podle mého názoru je důležité studovat moderní metodiku návrhu Data Vault Odkaz 1, Odkaz 2. A nejlepší způsob, jak se to naučit, je vzít si to a implementovat to na jednoduchém příkladu. Na GitHubu je několik příkladů implementace Data Vault odkaz. Kniha Moderní datový sklad: Modelování agilního datového skladu s datovým trezorem od Hanse Hultgrena.
Chcete-li se seznámit s nástroji Business Intelligence pro koncové uživatele, můžete využít bezplatného návrháře sestav, dashboardů, mini datových skladů Power BI Desktop. Vzdělávací materiály: Odkaz 1, Odkaz 2.
Hadoop a velká data
Musíte začít s nezávislou implementací MapReduce bez knihoven třetích stran. To v budoucnu umožní lepší pochopení vícevláknových implementací. Je popsán vynikající příklad v Pythonu zde.
Ne vše, co se naučíte, lze uplatnit v práci. Proto potřebujete absolventský projekt, ve kterém se pokusíte uplatnit nové poznatky.
V plánu nejsou žádná témata související s analýzou dat a strojovým učením. to platí spíše pro profesi Data Scientist. Nejsou zde ani žádná témata související s cloudy AWS, Azure. tato témata jsou velmi závislá na výběru platformy.
Otázky pro komunitu:
Jak adekvátní je můj plán vyrovnání? Co odebrat nebo přidat?
Jaký projekt byste doporučil jako diplomovou práci?